Conheça dois desafiantes de código descerrado ao GPT-4V ‘multimodal’ da OpenAI

PUBLICIDADE


PUBLICIDADE

O GPT-4V da OpenAI está sendo aclamado porquê a próxima grande novidade em IA: um padrão “multimodal” que pode compreender texto e imagens. Isso tem uma utilidade óbvia, e é por isso que alguns projetos de código descerrado lançaram modelos semelhantes – mas também há um lado preto que pode ter mais problemas para mourejar. Veja porquê eles se comparam.

Os modelos multimodais podem fazer coisas que os modelos estritamente de estudo de texto ou imagem não conseguem. Por exemplo, o GPT-4V poderia fornecer instruções que são mais fáceis de mostrar do que racontar, porquê consertar uma bicicleta. E porquê os modelos multimodais podem não só identificar o que está numa imagem, mas também extrapolar e compreender o teor (pelo menos até perceptível ponto), eles vão além do óbvio – por exemplo, sugerindo receitas que podem ser preparadas com ingredientes de um frigorífico ilustrado.

PUBLICIDADE

Mas os modelos multimodais apresentam novos riscos. A OpenAI inicialmente reteve o lançamento do GPT-4V, temendo que pudesse ser usado para identificar pessoas em imagens sem o seu consentimento ou conhecimento.

Mesmo agora, o GPT-4V – que está disponível somente para assinantes do projecto ChatGPT Plus da OpenAI – tem falhas preocupantes, incluindo a incapacidade de reconhecer símbolos de ódio e uma tendência a discriminar certos sexos, dados demográficos e tipos de corpo. E isso está de concordância com a própria OpenAI!

Opções abertas

Apesar dos riscos, as empresas – e grupos de desenvolvedores independentes – estão avançando, lançando modelos multimodais de código descerrado que, embora não sejam tão capazes quanto o GPT-4V, podem realizar muitas, se não a maioria, das mesmas coisas.

PUBLICIDADE

No início deste mês, uma equipe de pesquisadores da Universidade de Wisconsin-Madison, da Microsoft Research e da Universidade de Columbia lançou o LLaVA-1.5 (um acrônimo para “Large Language-and-Vision Assistant”), que, porquê o GPT-4V, pode responder perguntas sobre imagens, recebendo instruções porquê “O que há de incomum nesta imagem?” e “Quais são as coisas sobre as quais devo ter zelo ao visitar cá?”

O LLaVA-1.5 seguiu os passos do Qwen-VL, um padrão multimodal de código descerrado desenvolvido por uma equipe do Alibaba (e que o Alibaba está licenciando para empresas com mais de 100 milhões de usuários ativos mensais), e modelos de compreensão de imagens e textos do Google. incluindo PaLI-X e PaLM-E. Mas o LLaVA-1.5 é um dos primeiros modelos multimodais fáceis de instalar e executar em hardware de nível consumidor – uma GPU com menos de 8 GB de VRAM.

Em outro lugar, a Adept, uma startup que cria modelos de IA que podem velejar no software e na web de forma autônoma, abriu o código-fonte de um padrão multimodal de texto e imagem semelhante ao GPT-4V – mas com uma diferença. O padrão do Adept compreende os dados do “trabalhador do conhecimento”, porquê tabelas, gráficos e telas, permitindo-lhe manipular – e raciocinar – esses dados.

LLaVA-1.5

LLaVA-1.5 é uma versão melhorada do LLaVA, lançada há vários meses por uma equipe de pesquisa afiliada à Microsoft.

Assim porquê o LLaVA, o LLaVA-1.5 combina um componente chamado “codificador visual” e o Vicuna, um chatbot de código descerrado fundamentado no padrão Llama da Meta, para dar sentido às imagens e ao texto e porquê eles se relacionam.

A equipe de pesquisa por trás do LLaVA original gerou os dados de treinamento do padrão usando as versões somente texto do ChatGPT e GPT-4 da OpenAI. Eles forneceram ao ChatGPT e ao GPT-4 descrições de imagens e metadados, levando os modelos a produzir conversas, perguntas, respostas e problemas de raciocínio com base no teor da imagem.

A equipe do LLaVA-1.5 deu um passo adiante ao aumentar a solução da imagem e aditar dados, inclusive do ShareGPT, uma plataforma onde os usuários compartilham conversas com o ChatGPT, ao conjunto de dados de treinamento do LLaVA.

O maior dos dois modelos LLaVA-1.5 disponíveis, que contém 13 bilhões de parâmetros, pode ser treinado em um dia em oito GPUs Nvidia A100, totalizando algumas centenas de dólares em custos de servidor. (Os parâmetros são as partes de um padrão aprendidas a partir de dados históricos de treinamento e definem essencialmente a habilidade do padrão em um problema, porquê a geração de texto.)

Isso não é barato, por si só. Mas considerando que supostamente custou à OpenAI dezenas de milhões de dólares para treinar o GPT-4, é definitivamente um passo na direção certa. Isto é, se funcionar muito o suficiente.

James Gallagher e Piotr Skalski, dois engenheiros de software da startup de visão computacional Roboflow, recentemente testaram o LLaVA-1.5 e detalharam os resultados em uma postagem no blog.

Primeiro, eles testaram a detecção de objetos de “disparo zero” do padrão ou sua capacidade de identificar um objeto que não foi explicitamente treinado para reconhecer. Eles pediram ao LLaVA-1.5 para detectar um cachorro em uma imagem e, de forma impressionante, ele conseguiu fazer isso — especificando até mesmo as coordenadas na imagem onde “viu” o cachorro.

Lava-1.5

Créditos da imagem: Robofluxo

Gallagher e Skalski passaram logo para um teste mais difícil: pedir ao padrão que explicasse um meme. Os memes nem sempre são fáceis de serem compreendidos pelos modelos (ou mesmo pelas pessoas), dados os seus duplos significados, significados, piadas internas e subtexto. Portanto, eles constituem uma referência útil da capacidade de contextualização e estudo de um padrão multimodal.

Gallagher e Skalski alimentaram LLaVA-1.5 uma imagem de uma pessoa passando roupas no Photoshop na traseira de um táxi amarelo em uma cidade. Eles perguntaram ao LLaVA-1.5 “O que há de incomum nesta imagem?” ao que a padrão respondeu: “passar roupas na traseira de um carruagem no meio da rua é pouco convencional e potencialmente perigoso”. É difícil discutir contra essa lógica.

Lava-1.5

Créditos da imagem: Robofluxo

É nos próximos testes de Gallagher e Skalski que o LLaVAAs fraquezas do -1.5 começaram a chegar.

Embora tenham desvelado que o padrão conseguia deslindar com sucesso a denominação de uma moeda a partir da imagem de uma única moeda, o LLaVA-1.5 teve dificuldades com imagens de múltiplas moedas – sugerindo que ele pode se perder nos detalhes de imagens “mais ocupadas”.

Lava-1.5

Créditos da imagem: Robofluxo

LLaVA-1.5 também não conseguia reconhecer texto de forma confiável, em contraste com o GPT-4V. Quando Gallagher e Skalski deram LLaVA-1.5 uma tomada de tela do texto de uma página da web, LLaVA-1.5 identificou secção do texto corretamente, mas cometeu vários erros – e ficou recluso em um loop bizarro. O GPT-4V não teve esses problemas.

Lava-1.5

Créditos da imagem: Robofluxo

O ordinário desempenho de reconhecimento de texto pode ser uma boa notícia, na verdade – dependendo da sua perspectiva, pelo menos. O programador Simon Willison explorou recentemente porquê o GPT4-V pode ser “equivocado” para contornar suas medidas de segurança anti-toxicidade e anti-preconceitos integradas ou até mesmo resolver CAPTCHAs, ao receber imagens contendo texto que incluem instruções adicionais maliciosas.

Foram LLaVA-1,5 para ter desempenho no nível do GPT4-V no reconhecimento de texto, representaria potencialmente uma prenúncio maior à segurança, considerando que está disponível para uso conforme os desenvolvedores acharem adequado.

Muito, majoritariamente porquê os desenvolvedores acharem adequado. Por ter sido treinado com dados gerados pelo ChatGPT, o LLaVA-1,5 não pode tecnicamente ser utilizado para fins comerciais, de concordância com os termos de uso do ChatGPT, que impedem que desenvolvedores o utilizem para treinar modelos comerciais concorrentes. Resta saber se isso impede alguém.

Sobre o tema anterior sobre medidas de segurança, em meu próprio teste rápido, rapidamente ficou aparente que o LLaVA-1.5 não está vinculado aos mesmos filtros de toxicidade do GPT-4V.

Solicitado a dar conselhos a uma mulher maior retratada, o LLaVA-1.5 sugeriu que a mulher deveria “gerir [her] peso” e “melhorar [her] saúde física.” GPT-4V recusou-se francamente a responder.

Lava-1.5

LLaVA-1.5 implica que a pessoa retratada não é saudável somente com base em sua semblante. Créditos da imagem: Robofluxo

Sequaz

Com seu primeiro padrão multimodal de código descerrado, Fuyu-8B, a Adept não está tentando competir com o LLaVA-1,5. Assim porquê o LLaVA-1.5, o padrão não está licenciado para uso mercantil; isso ocorre porque alguns de seus dados de treinamento foram licenciados para a Adept sob termos também restritivos, de concordância com CEO prosélito David Luan.

Em vez disso, com o Fuyu-8B, o Adept pretende telegrafar o que está trabalhando internamente enquanto solicita feedback (e relatórios de bugs) da comunidade de desenvolvedores.

“A Adept está construindo um copiloto universal para trabalhadores do conhecimento – um sistema onde os trabalhadores do conhecimento podem ensinar ao Adept uma tarefa de computador da mesma forma que fariam a bordo de um colega de equipe, e fazer com que o Adept execute isso para eles”, Luan disse ao TechCrunch por e-mail. “CTemos treinado uma série de modelos multimodais internos otimizados para serem úteis na solução desses problemas, [and we] percebemos ao longo do caminho que tínhamos um tanto que seria bastante útil para a comunidade externa de código descerrado, logo decidimos mostrar que ele continua muito bom nos benchmarks acadêmicos e torná-lo público para que a comunidade possa desenvolver no topo dele para todos os tipos de casos de uso.”

Fuyu-8B é uma versão anterior e menor de um dos modelos multimodais internos da startup. Pesando 8 bilhões de parâmetros, o Fuyu-8B tem um bom desempenho em benchmarks de compreensão de imagem padrão, possui uma arquitetura e procedimento de treinamento simples e responde perguntas rapidamente (em muro de 130 milissegundos em 8 GPUs A100), afirma Adept.

Mas o que é único no padrão é a sua capacidade de compreender dados não estruturados, Luan diz. LLaVA individual-1.5, Fuyu-8B pode localizar elementos muito específicos em uma tela quando instruído a fazê-lo, extrair detalhes relevantes da interface do usuário de um software e responder perguntas de múltipla escolha sobre gráficos e diagramas.

Ou melhor, pode teoricamente. O Fuyu-8B não vem com esses recursos integrados. Sequaz de versões maiores e mais sofisticadas do Fuyu-8B para executar tarefas de compreensão de documentos e software para seus produtos internos.

“Nosso padrão é orientado para dados de trabalhadores do conhecimento, porquê sites, interfaces, telas, gráficos, diagramas e assim por diante, além de fotografias naturais em universal”, disse Luan. “Estamos entusiasmados em lançar um bom padrão multimodal de código descerrado antes mesmo que modelos porquê GPT-4V e Gemini estejam disponíveis publicamente.”

Perguntei Luan se ele estava preocupado com a possibilidade de desfeita do Fuyu-8B, dadas as formas criativas que até o GPT-4V, protegido por uma API e filtros de segurança, tem sido explorado até o momento. Ele argumentou que o tamanho pequeno do padrão deveria torná-lo menos propenso a provocar “sérios riscos posteriores”, mas admitiu que a Adept não o testou em casos de uso porquê extração de CAPTCHA.

“O padrão que estamos lançando é um padrão ‘fundamental’ – também publicado porquê, não foi ajustado para incluir mecanismos de moderação ou proteções de injeção imediata”, disse Luan. “Uma vez que os modelos multimodais têm uma gama tão ampla de casos de uso, esses mecanismos devem ser específicos para o caso de uso específico para prometer que o padrão faça o que o desenvolvedor pretende”.

Essa é a escolha mais sábia? Eu não tenho tanta certeza. Se O Fuyu-8B contém algumas das mesmas falhas presentes no GPT-4V, mas não é um bom presságio para os desenvolvedores de aplicativos que criam sobre ele. Além dos preconceitos, o GPT-4V dá respostas erradas para perguntas que anteriormente respondeu corretamente, identifica erroneamente substâncias perigosas e, porquê sua contraparte somente em texto, inventa “fatos”.

Mas a Adept – porquê um número crescente de desenvolvedores, aparentemente – está errando ao optar por modelos multimodais de código descerrado sem restrições, danem-se as consequências.

Pablo Oliveira
Pablo Oliveirahttp://pcextreme.com.br
Sou diretamente responsável pela manutenção, otimização, configuração e SEO de todos os sites de minha propriedade. Além disso, atuo como colunista, editor e programador.

Artigos relacionados

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

Artigos recentes