Mistral introduziu a interface de programação de aplicativos de caráter óptico (API) (API) na quinta -feira. O modelo de inteligência artificial (AI) é capaz de analisar e processar documentos em PDF e convertê-lo em um formato de texto pronto para AI, como marcação ou arquivo de texto bruto. A ferramenta é capaz de extrair dados de PDFs para torná -los digeríveis para os modelos de IA. A empresa de IA baseada em Paris alegou que a API Mistral OCR permitirá que os desenvolvedores criem aplicativos de IA para arquivos PDF, além de criar conjuntos de dados para treinar novos modelos de IA.
API Mistral OCR introduzida
Os documentos em PDF representam um desafio único para os modelos de IA. O conteúdo deste formato de arquivo não pode ser acessado por grandes modelos de idiomas (LLMS) usando técnicas de geração de recuperação tradicional (RAG), pois os dados não podem ser processados por eles. Por exemplo, se você solicitar um aplicativo de IA para digitalizar os documentos em PDF em seu laptop para encontrar uma informação, pode ter dificuldade em fazê -lo.
Isso significa que os desenvolvedores que construem aplicativos de IA serão limitados na oferta de capacidade de análise de PDF. Enquanto o Notebooklm do Google, o assistente de AI da Adobe e várias outras ferramentas usam ferramentas especializadas de OCR para superar esse desafio, os desenvolvedores da comunidade de código aberto não têm acesso a uma ferramenta de alta eficiência.
A API MISTRAL OCR resolve esse desafio, permitindo que os desenvolvedores extraem dados em PDF para um formato AI-pronto. A empresa afirma em uma redação publicar que a ferramenta pode entender elementos separados em documentos, incluindo mídia, texto, tabelas e equações com alta precisão. Uma vez analisado, ele pode extrair e apresentar as informações no formato de arquivo de texto em marcação ou texto bruto.
Os modelos de IA podem usar esse texto extraído como sistemas de entrada e pano podem acessá -los facilmente e responder a perguntas sobre eles. “O MISTRAL OCR se destaca na compreensão de elementos complexos de documentos, incluindo imagens intercaladas, expressões matemáticas, tabelas e layouts avançados, como a formatação de látex. O modelo permite uma compreensão mais profunda de documentos ricos, como trabalhos científicos com gráficos, gráficos, equações e figuras ”, afirmou o post.
A empresa alegou que o Mistral OCR pode processar até 2.000 páginas por minuto em um único nó. A API também permite que os desenvolvedores usem o documento como um prompt e saídas de cadeia para criar ferramentas de chamada de função e agentes de IA.
Com base nos testes internos, o MISTRAL OCR superou os modelos como o Google Document AI, Azure OCR e GPT-4O versão 2024-11-20 para documentos “somente texto”. Também superou o Google e o Azure em recursos multilíngues.
Os interessados em experimentar a capacidade do modelo podem ir para a plataforma de chat de Mistral. A API pode ser acessada a partir da LA Plateforme.
source – www.gadgets360.com