Conheça LLEMMA, a IA de código acessível com foco em matemática que supera os rivais

PUBLICIDADE


PUBLICIDADE

VentureBeat apresenta: AI Unleashed – Um evento executivo restrito para líderes de dados corporativos. Faça networking e aprenda com colegas do setor. Saber mais


Em um novo item, pesquisadores de várias universidades e da Eleuther AI, uma empresa conhecida por seus modelos de código acessível, apresentam o LLEMMA, um protótipo de linguagem grande (LLM) de código acessível projetado especificamente para resolver problemas matemáticos.

PUBLICIDADE

O LLEMMA supera outros modelos líderes de linguagem com foco em matemática — incluindo o Minerva do Google — em desempenho, oferecendo uma plataforma robusta para pesquisas futuras.

Embora o LLEMMA não seja um solucionador matemático perfeito, ele representa um progresso significativo no desenvolvimento de grandes modelos especializados de linguagem e pode impulsionar a pesquisa em IA em novas direções.

Modelos matemáticos de última geração

LLEMMA foi construído no Code Llama, uma adaptação do protótipo Llama 2 de código acessível da Meta, ajustado em conjuntos de dados específicos de código. Os pesquisadores desenvolveram duas versões do protótipo, uma com 7 bilhões de parâmetros e outra com 34 bilhões. Os modelos foram aprimorados ainda mais no Proof-Pile-2, um conjunto de dados criado pelos pesquisadores que é constituído por uma mistura de artigos científicos, dados da web sobre matemática e código matemático.

PUBLICIDADE

Evento

IA liberada

Uma noite exclusiva de insights e networking, somente para convidados, projetada para executivos corporativos seniores que supervisionam estratégias e pilhas de dados.

Saber mais

“O LLEMMA é pré-treinado em uma distribuição diversificada de dados relacionados à matemática e não está ajustado para uma tarefa específica. Portanto, esperamos que o LLEMMA possa se ajustar a muitas outras tarefas por meio de ajustes específicos para tarefas e solicitações de poucos disparos”, escrevem os pesquisadores.

Em seus experimentos, os pesquisadores descobriram que o LLEMMA demonstrou desempenho superior em relação a todos os modelos abertos conhecidos em benchmarks matemáticos. “Concluímos que o pré-treinamento contínuo no Proof-Pile-2 é eficiente para melhorar a capacidade de um protótipo pré-treinado de resolver problemas matemáticos”, escrevem eles.

Outrossim, o LLEMMA exibe a capacidade de usar ferramentas e provar teoremas formais sem ajustes adicionais. Ele pode aproveitar ferramentas computacionais, porquê o interpretador Python e provadores formais de teoremas, para resolver problemas matemáticos. A utilização de ferramentas pode substanciar ainda mais a capacidade de solução de problemas do protótipo, fornecendo uma manadeira externa de conhecimento para verificar e emendar as suas respostas.

Embora vários modelos de linguagem de grande porte tenham sido aprimorados para a matemática, o Minerva do Google, fundamentado em seu protótipo PaLM, se destaca. No entanto, não é de código acessível.

O LLEMMA, por outro lado, supera o Minerva em “base de equiparâmetros”. Isso significa que o LLEMMA-7B supera o Minerva-8B, e o LLEMMA-34B está quase no mesmo nível do Minerva-62B.

Os pesquisadores liberaram todos os seus ativos. Isso inclui os modelos de 7 e 34 bilhões de parâmetros, o conjunto de dados Proof-Pile-2 e o código para replicar seus experimentos. O Proof-Pile-2 inclui o AlgebraicStack, um novo conjunto de dados com 11 bilhões de tokens de código especificamente relacionados à matemática.

Segundo os pesquisadores, o LLEMMA é o primeiro protótipo de código acessível que corresponde ao desempenho dos modelos de código fechado de última geração. Isso permite que outros pesquisadores desenvolvam e aprimorem ainda mais o trabalho.

“Esperamos que LLEMMA e Proof-Pile-2 sejam uma base útil para trabalhos futuros na compreensão da generalização de modelos de linguagem e elaboração de conjuntos de dados, investigando os limites de modelos de linguagem específicos de domínio, usando modelos de linguagem porquê ferramentas para matemáticos e melhorando a matemática capacidades dos modelos de linguagem”, escrevem os pesquisadores.

O impacto mais largo dos LLMs com foco em matemática

O LLEMMA faz secção de uma iniciativa mais ampla para desenvolver LLMs especializados em uma dimensão específica, em vez de um protótipo universal capaz de realizar múltiplas tarefas. O protótipo LLEMMA demonstra que, com dados melhorados e conjuntos de dados maiores, modelos menores ainda podem produzir resultados significativos. Por exemplo, o LLEMMA-7B supera o Code Llama-34B em quase todos os conjuntos de dados de raciocínio matemático.

Os pesquisadores observam que “um protótipo de linguagem de domínio específico pode oferecer capacidades superiores para um determinado dispêndio computacional, ou menor dispêndio computacional para um determinado nível de capacidade”. Isto está de convenção com outras pesquisas que mostram que modelos pequenos podem continuar a melhorar quando treinados em um conjunto de dados muito grande constituído por exemplos de subida qualidade.

A adequação dos LLMs para resolver problemas matemáticos tem sido um tema de largo debate. Medir as capacidades de raciocínio dos LLMs é muito difícil. Freqüentemente, os modelos obtêm pontuações altas em benchmarks matemáticos devido à “contaminação de dados”, onde os exemplos de teste foram incluídos nos dados de treinamento, significando essencialmente que o protótipo memorizou as respostas. Existem também estudos que mostram que um LLM pode fornecer respostas diferentes para a mesma pergunta quando formulado de maneiras ligeiramente diferentes. E alguns cientistas argumentam que os LLMs são fundamentalmente inadequados para a matemática devido à sua natureza estocástica.

Os desenvolvedores do LLEMMA tomaram medidas meticulosas para verificar se os exemplos de benchmark foram incluídos nos dados de treinamento. Embora tenham encontrado exemplos semelhantes nos dados de treinamento e teste, concluíram que “uma correspondência não trivial entre um exemplo de teste e um documento de treinamento não implicava que o protótipo gerasse uma resposta correta memorizada”.

O progresso no desenvolvimento de LLMs que podem resolver problemas matemáticos de forma confiável pode aprimorar as capacidades de raciocínio e planejamento dos modelos de linguagem. As conquistas do LLEMMA, principalmente devido ao lançamento dos modelos e do código, também podem beneficiar outras áreas, especializando LLMs para diferentes domínios.

Os pesquisadores sugerem que “a solução de problemas matemáticos requer correspondência de padrões com um grande conjunto de conhecimento prévio especializado, servindo assim porquê um cenário ideal para adaptação de domínio”. Mesmo que os LLMs não se tornem as ferramentas definitivas para a solução de problemas matemáticos, eles podem formar a base para outros tipos de modelos e pesquisas em IA.

Os pesquisadores também acreditam que “modelos de linguagem capazes de um raciocínio matemático possante estão a montante de uma série de tópicos de pesquisa, porquê modelagem de recompensas, aprendizagem por reforço para raciocínio e raciocínio algorítmico”. Será interessante ver que tipo de novidade pesquisa o LLEMMA poderia inspirar.

A missão da VentureBeat é ser uma terreiro do dedo para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.

Pablo Oliveira
Pablo Oliveirahttp://pcextreme.com.br
Sou diretamente responsável pela manutenção, otimização, configuração e SEO de todos os sites de minha propriedade. Além disso, atuo como colunista, editor e programador.

Artigos relacionados

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

Artigos recentes