Um grupo por trás do Stable Diffusion deseja penetrar a IA de detecção de emoções de código simples

PUBLICIDADE


PUBLICIDADE

Em 2019, a Amazon atualizou seu assistente Alexa com um recurso que lhe permitiu detectar quando um cliente provavelmente estava goro – e responder com proporcionalmente mais simpatia. Se um cliente pedisse a Alexa para tocar uma música e colocasse a música errada na fileira, por exemplo, e portanto o cliente dissesse “Não, Alexa” em um tom chateado, Alexa poderia pedir desculpas – e solicitar um justificação.

Agora, o grupo por trás de um dos conjuntos de dados usados ​​para treinar o padrão de texto para imagem Stable Diffusion deseja trazer recursos semelhantes de detecção de emoções para todos os desenvolvedores – sem nenhum dispêndio.

PUBLICIDADE

Esta semana, LAION, a organização sem fins lucrativos que cria conjuntos de dados de imagem e texto para treinamento de IA generativa, incluindo Espalhamento Seguro, anunciou o projeto Open Empathic. O Open Empathic visa “equipar sistemas de IA de código simples com empatia e perceptibilidade emocional”, nas palavras do grupo.

“A equipe do LAION, com experiência em saúde, instrução e pesquisa de aprendizagem de máquina, viu uma vazio na comunidade de código simples: a IA emocional foi amplamente negligenciada”, disse Christoph Schuhmann, cofundador do LAION, ao TechCrunch por e-mail. “Assim porquê nossas preocupações sobre os monopólios não transparentes de IA que levaram ao promanação do LAION, sentimos uma urgência semelhante cá.”

Através do Open Empathic, a LAION está recrutando voluntários para enviar clipes de áudio para um banco de dados que pode ser usado para fabricar IA, incluindo chatbots e modelos de conversão de texto em fala, que “compreendem” as emoções humanas.

PUBLICIDADE

“Com o Open Empathic, nosso objetivo é fabricar uma IA que vá além da compreensão de exclusivamente palavras”, acrescentou Schuhmann. “Nosso objetivo é compreender as nuances das expressões e mudanças de tom, tornando as interações humano-IA mais autênticas e empáticas.”

LAION, um acrônimo para “Rede Ocasião de Perceptibilidade Sintético em Grande Graduação”, foi fundada no início de 2021 por Schuhmann, que é professor teuto do ensino médio durante o dia, e vários membros de um servidor Discord para entusiastas de IA. Financiado por doações e bolsas públicas de pesquisa, inclusive da startup de IA Hugging Face and Stability AI, o fornecedor por trás da Stable Diffusion, a missão declarada da LAION é democratizar os recursos de pesquisa e desenvolvimento de IA – começando com dados de treinamento.

“Somos movidos por uma missão clara: aproveitar o poder da IA ​​de maneiras que possam realmente beneficiar a sociedade”, disse Kari Noriy, colaboradora de código simples do LAION e estudante de doutorado na Universidade de Bournemouth, ao TechCrunch por e-mail. “Somos apaixonados pela transparência e acreditamos que a melhor maneira de moldar a IA é claramente.”

Daí Empatia Ocasião.

Para a temporada inicial do projeto, o LAION criou um site que encarrega os voluntários de consignar clipes do YouTube – alguns pré-selecionados pela equipe do LAION, outros por voluntários – de uma pessoa falando. Para cada clipe, os voluntários podem preencher uma lista detalhada de campos, incluindo uma transcrição do clipe, uma descrição de áudio e vídeo e a idade, sexo, sotaque (por exemplo, “Inglês Britânico”) da pessoa no clipe, nível de excitação (estado de alerta – não sexual, para ser simples) e nível de valência (“agradabilidade” versus “desagradabilidade”).

Outros campos do formulário referem-se à qualidade de áudio do clipe e à presença (ou privação) de ruídos de fundo altos. Mas o foco principal está nas emoções da pessoa – ou pelo menos, nas emoções que os voluntários percebem que elas têm.

A partir de uma variedade de menus suspensos, os voluntários podem selecionar emoções individuais – ou múltiplas – que variam de “jubiloso”, “vivo” e “sedutor” a “reflexivo” e “envolvente”. Noriy diz que a teoria era solicitar anotações “ricas” e “emotivas” ao mesmo tempo que capturava expressões em vários idiomas e culturas.

“Nosso objetivo é treinar modelos de IA que possam compreender uma ampla variedade de idiomas e realmente compreender diferentes ambientes culturais”, disse Noriy. “Estamos trabalhando na geração de modelos que ‘captem’ línguas e culturas, usando vídeos que mostram emoções e expressões reais.”

Depois que os voluntários enviam um clipe para o banco de dados do LAION, eles podem repetir o processo novamente — não há limite para o número de clipes que um único voluntário pode consignar. A LAION espera recolher murado de 10.000 amostras nos próximos meses e – de forma optimista – entre 100.000 e 1 milhão até ao próximo ano.

“Temos membros apaixonados da comunidade que, movidos pela visão de democratizar modelos e conjuntos de dados de IA, contribuem voluntariamente com anotações em seu tempo livre”, disse Noriy. “A motivação deles é o sonho compartilhado de fabricar uma IA de código simples empática e emocionalmente inteligente que seja atingível a todos.”

As armadilhas da detecção de emoções

Além das tentativas da Amazon com Alexa, startups e gigantes da tecnologia exploraram o desenvolvimento de IA que pode detectar emoções – para fins que vão desde treinamento de vendas até a prevenção de acidentes induzidos por sonolência.

Em 2016, a Apple adquiriu a Emotient, uma empresa de San Diego que trabalha em algoritmos de IA que analisam expressões faciais. Adquirida pela Smart Eye, com sede na Suécia, em maio pretérito, a Affectiva – uma empresa derivada do MIT – afirmou certa vez que sua tecnologia poderia detectar raiva ou frustração na fala em 1,2 segundos. E a plataforma de reconhecimento de voz Nuance, que a Microsoft comprou em abril de 2021, demonstrou um resultado para carros que analisa as emoções do motorista a partir de sinais faciais.

Outros participantes no espaço emergente de detecção e reconhecimento de emoções incluem Hume, HireVue e Realeyes, cuja tecnologia está sendo aplicada para estimar porquê certos segmentos de espectadores respondem a determinados anúncios. Alguns empregadores estão usando tecnologia de detecção de emoções para estimar funcionários em potencial, avaliando-os em termos de empatia e perceptibilidade emocional. As escolas o implantaram para monitorar o envolvimento dos alunos na sala de lição — e remotamente em lar. E a IA de deteção de emoções tem sido utilizada pelos governos para identificar “pessoas perigosas” e testada em pontos de controlo fronteiriços nos EUA, Hungria, Letónia e Grécia.

A equipe LAION prevê, por sua vez, aplicações úteis e sem problemas da tecnologia em robótica, psicologia, treinamento profissional, instrução e até jogos. Schuhmann pinta um quadro de robôs que oferecem esteio e companheirismo, assistentes virtuais que percebem quando alguém se sente solitário ou ansioso e ferramentas que auxiliam no diagnóstico de distúrbios psicológicos.

É uma utopia tecnológica. O problema é que a maior secção da detecção de emoções está em terreno científico instável.

Existem poucos marcadores universais de emoção, se houver qualquer – colocando em questão a precisão da IA ​​​​de detecção de emoções. A maioria dos sistemas de detecção de emoções foi construída com base no trabalho do psicólogo Paul Ekman, publicado nos anos 70. Mas pesquisas subsequentes – incluindo a do próprio Ekman – apoiam a noção de bom tino de que existem grandes diferenças na forma porquê pessoas de diferentes origens expressam porquê se sentem.

Por exemplo, a frase supostamente universal para susto é um estereótipo para uma ameaço ou raiva na Malásia. Num dos seus trabalhos posteriores, Ekman sugeriu que os estudantes americanos e japoneses tendem a reagir a filmes violentos de forma muito dissemelhante, com os estudantes japoneses a adoptarem “um conjunto de expressões completamente dissemelhante” se alguém estiver na sala – particularmente uma figura de poder.

As vozes também abrangem uma ampla gama de características, incluindo as de pessoas com deficiência, condições porquê o autismo e que falam outras línguas e dialetos, porquê o inglês vernacular afro-americano (AAVE). Um falante nativo de gálico que responde a uma pesquisa em inglês pode pausar ou pronunciar uma termo com alguma incerteza – o que pode ser mal interpretado por alguém não familiarizado porquê um marcador de emoção.

Na verdade, uma grande secção do problema da IA ​​de detecção de emoções é o preconceito – preconceito implícito e explícito trazido pelos anotadores cujas contribuições são usadas para treinar modelos de detecção de emoções.

Em um estudo de 2019, por exemplo, os cientistas descobriram que os rotuladores são mais propensos a consignar frases em AAVE mais tóxicas do que seus equivalentes gerais em inglês americano. A orientação sexual e a identidade de género também podem influenciar fortemente as palavras e frases que um comentador considera porquê tóxicas – tal porquê o preconceito totalidade. Descobriu-se que vários conjuntos de dados de imagens de código simples comumente usados ​​contêm rótulos racistas, sexistas e ofensivos de anotadores.

Os efeitos a jusante podem ser bastante dramáticos.

Descobriu-se que Retorio, uma plataforma de contratação de IA, reage de maneira dissemelhante ao mesmo candidato em roupas diferentes, porquê óculos e lenços de cabeça. Num estudo do MIT de 2020, os investigadores mostraram que os algoritmos de estudo facial podem tornar-se tendenciosos para certas expressões faciais, porquê sorrir – reduzindo a sua precisão. Trabalhos mais recentes sugerem que as ferramentas populares de estudo emocional tendem a atribuir mais emoções negativas aos rostos dos homens negros do que aos rostos brancos.

Respeitando o processo

Logo, porquê irá a equipa do LAION combater estes preconceitos – certificando-se, por exemplo, de que os brancos não superam os negros no conjunto de dados; que pessoas não binárias não recebem o gênero falso; e que aqueles com transtornos de humor não sejam erroneamente rotulados com emoções que não pretendiam expressar?

Não está totalmente simples.

Schuhmann afirma que o processo de envio de dados de treinamento para o Open Empathic não é uma “porta ensejo” e que a LAION possui sistemas para “prometer a integridade das contribuições”.

“Podemos validar a intenção do usuário e verificar consistentemente a qualidade das anotações”, acrescentou.

Mas os conjuntos de dados anteriores do LAION não eram exatamente originais.

Algumas análises do LAION ~400M — um conjunto de treinamento de imagens do LAION, que o grupo tentou sanar com ferramentas automatizadas — revelaram fotos retratando agressão sexual, estupro, símbolos de ódio e violência gráfica. LAION ~400M também está repleto de preconceitos, por exemplo, retornando imagens de homens, mas não de mulheres, para palavras porquê “CEO” e fotos de homens do Oriente Médio para “terrorista”.

Schuhmann está depositando crédito na comunidade para servir de controle nesta rodada.

“Acreditamos no poder de cientistas amadores e entusiastas de todo o mundo se unirem e contribuírem para nossos conjuntos de dados”, disse ele. “Embora sejamos abertos e colaborativos, priorizamos a qualidade e a autenticidade em nossos dados.”

No que diz reverência à forma porquê qualquer IA de detecção de emoções treinada no conjunto de dados Open Empathic – tendenciosa ou não – é usada, a LAION pretende proteger sua filosofia de código simples – mesmo que isso signifique que a IA possa ser abusada.

“Usar IA para compreender emoções é um empreendimento poderoso, mas tem seus desafios”, disse Robert Kaczmarczyk, cofundador do LAION e médico da Universidade Técnica de Munique, por e-mail. “Uma vez que qualquer instrumento que existe, ela pode ser usada tanto para o muito quanto para o mal. Imagine se exclusivamente um pequeno grupo tivesse chegada a tecnologia avançada, enquanto a maior secção do público estivesse no escuro. Leste desequilíbrio pode levar ao uso indevido ou mesmo à manipulação por secção dos poucos que têm controle sobre esta tecnologia.”

No que diz reverência à IA, as abordagens laissez faire às vezes voltam a guerrear os criadores dos modelos – porquê evidenciado pela forma porquê a Espalhamento Seguro está agora a ser usada para fabricar material de insulto sexual infantil e deepfakes não consensuais.

Certos defensores da privacidade e dos direitos humanos, incluindo a European Do dedo Rights e a Access Now, apelaram a uma proibição totalidade do reconhecimento de emoções. A Lei da IA ​​da UE, a lei da União Europeia recentemente promulgada que estabelece um quadro de governação para a IA, proíbe a utilização do reconhecimento de emoções no policiamento, na gestão de fronteiras, nos locais de trabalho e nas escolas. E algumas empresas retiraram voluntariamente a sua IA de deteção de emoções, porquê a Microsoft, face à reação negativa do público.

No entanto, a LAION parece confortável com o nível de risco envolvido – e tem fé no processo de desenvolvimento simples.

“Damos as boas-vindas aos pesquisadores para investigar, sugerir mudanças e identificar problemas”, disse Kaczmarczyk. “E assim porquê a Wikipedia prospera com as contribuições da comunidade, o Open Empathic é mantido pelo envolvimento da comunidade, garantindo que seja transparente e seguro.”

Transparente? Evidente. Seguro? O tempo vai manifestar.

Pablo Oliveira
Pablo Oliveirahttp://pcextreme.com.br
Sou diretamente responsável pela manutenção, otimização, configuração e SEO de todos os sites de minha propriedade. Além disso, atuo como colunista, editor e programador.

Artigos relacionados

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

Artigos recentes