Rabbit está construindo um padrão de IA que entende porquê o software funciona

PUBLICIDADE


PUBLICIDADE

E se você pudesse interagir com qualquer software usando linguagem proveniente? Imagine digitar um prompt e fazer com que a IA traduza as instruções em comandos compreensíveis pela máquina, executando tarefas em um PC ou telefone para atingir o objetivo que você acabou de descrever?

Essa é a teoria por trás do Rabbit, uma reformulação da marca da startup do cofundador da Sun Microsystems, Vinod Khosla, Cyber ​​Manufacture Co., que está construindo uma classe de UI personalizada, alimentada por IA, projetada para permanecer entre um usuário e qualquer sistema operacional.

PUBLICIDADE

Fundada por Jesse Lyu, bacharel em matemática pela Universidade de Liverpool, e Alexander Liao, ex-pesquisador da Carnegie Mellon, a Rabbit está criando uma plataforma, OS2, sustentada por um padrão de IA que pode – assim afirmam Lyu e Liao – ver e agir em interfaces de desktop e móveis da mesma forma que os humanos fazem.

“Os avanços na IA generativa desencadearam uma ampla gama de iniciativas na indústria de tecnologia para definir e estabelecer o próximo nível de interação homem-máquina”, disse Lyu ao TechCrunch em entrevista por e-mail. “Nossa perspectiva é que o determinante final do sucesso reside em oferecer uma experiência fenomenal ao usuário final. Com base em nossos esforços e experiências anteriores, percebemos que revolucionar a experiência do usuário exige uma plataforma e um dispositivo personalizados e dedicados. Nascente princípio fundamental sustenta o resultado atual e a rima técnica escolhida pela Rabbit.”

Rabbit – que tem US$ 20 milhões em financiamento contribuído pela Khosla Ventures (que Vinod Khosla também fundou), Synergis Capital e Kakao Investment, que uma natividade familiarizada com o tema diz que avalia a startup entre US$ 100 milhões e US$ 150 milhões – não é o primeiro para tentar uma interface de linguagem proveniente em camadas sobre o software existente.

PUBLICIDADE

O laboratório de pesquisa de IA do Google, DeepMind, explorou várias abordagens para ensinar IA a controlar computadores, por exemplo, fazer com que uma IA observe comandos de teclado e mouse de pessoas que completam tarefas de “seguimento de instruções”, porquê reservar um voo. Pesquisadores da Universidade Jiao Tong de Xangai recentemente abriram o código-fonte de um agente de IA para navegação na web que, segundo eles, pode desvendar porquê fazer coisas porquê usar um mecanismo de pesquisa e solicitar itens on-line. Em outros lugares, existem aplicativos porquê o viral Auto-GPT, que aproveita os modelos de geração de texto da startup de IA OpenAI para agir “autônoma”, interagindo com aplicativos, software e serviços online e locais, porquê navegadores da web e processadores de texto.

Mas se o Rabbit tem um rival direto, provavelmente é o Adept, uma startup que treina um padrão, chamado ACT-1, que pode entender e executar comandos porquê “gerar um relatório mensal de conformidade” ou “riscar escadas entre esses dois pontos neste projeto”. usando softwares existentes porquê Airtable, Photoshop, Tableau e Twilio. Cofundada por ex-engenheiros e pesquisadores da DeepMind, OpenAI e Google, a Adept levantou centenas de milhões de dólares de investidores estratégicos, incluindo Microsoft, Nvidia, Atlassian e Workday, com uma avaliação de tapume de US$ 1 bilhão.

Logo, porquê o Rabbit espera competir em um campo cada vez mais concorrido? Adotando uma abordagem técnica dissemelhante, diz Lyu.

Embora possa parecer que a geração de Rabbit é semelhante à automação de processos robóticos (RPA), ou robôs de software que aproveitam uma combinação de automação, visão computacional e aprendizagem de máquina para automatizar tarefas repetitivas, porquê preencher formulários e responder a e-mails, Lyu insiste que é Mais sofisticado. O padrão medial de interação do Rabbit pode “compreender intenções complexas do usuário” e “operar interfaces de usuário”, diz ele, para, em última estudo (e talvez um pouco hiperbolicamente), “compreender as intenções humanas nos computadores”.

“O padrão já pode interagir com os principais aplicativos de consumo de subida frequência – incluindo Uber, Doordash, Expedia, Spotify, Yelp, OpenTable e Amazon – no Android e na web”, disse Lyu. “Procuramos estender esse suporte a todas as plataformas (por exemplo, Windows, Linux, MacOS, etc.) e aplicativos de nicho de consumo no próximo ano.”

O padrão do Coelho pode fazer coisas porquê reservar um voo ou fazer uma suplente. E pode editar imagens no Photoshop, usando as ferramentas integradas apropriadas.

Ou melhor, qualquer dia poderá. Eu tentei uma prova no site do Rabbit e o padrão está um pouco restringido em funcionalidade no momento – e parece permanecer confuso com esse indumentária. Solicitei ao padrão que editasse uma foto e ele me instruiu a especificar qual delas – uma impossibilidade, visto que a interface de prova não possui um botão de upload ou mesmo um campo para grudar o URL de uma imagem.

O padrão Rabbit pode, de indumentária, responder a perguntas que exigem pesquisa na rede mundial de computadores, porquê o ChatGPT com aproximação à web. Perguntei-lhe quais eram os voos mais baratos disponíveis de Novidade Iorque para São Francisco no dia 5 de outubro e – posteriormente tapume de 20 segundos – recebi uma resposta que parecia ser factualmente precisa, ou pelo menos plausível. E o padrão listou corretamente pelo menos alguns podcasts do TechCrunch (por exemplo, “Reação em masmorra”) quando solicitado, superando uma versão anterior do Bing Chat nesse paisagem.

O padrão de Rabbit estava menos propenso a responder a solicitações mais problemáticas, porquê instruções para fazer uma petardo suja e questionar a validade do Imolação. Claramente, a equipe aprendeu com alguns dos erros dos grandes modelos de linguagem anteriores (veja: a tendência inicial do Bing Chat de trespassar dos trilhos) – pelo menos a julgar pelos meus breves testes.

Coelho

O padrão de prova no site do Rabbit, que é um pouco restringido em funcionalidade.

“Ao aproveitar [our model], a plataforma Rabbit capacita qualquer usuário, independentemente de suas habilidades profissionais, a ensinar o sistema porquê atingir objetivos específicos nas aplicações”, explica Lyu. “[The model] aprende e imita continuamente demonstrações agregadas e dados disponíveis na Internet, criando um ‘padrão conceitual’ para os serviços subjacentes de qualquer emprego.”

O padrão do Rabbit é robusto até evidente ponto a “perturbações”, acrescentou Lyu, porquê interfaces que não são apresentadas de forma consistente ou que mudam com o tempo. Basta “observar”, por meio de um aplicativo de gravação de tela, uma pessoa usando uma interface de software pelo menos uma vez.

Agora, não está simples exclusivamente porquê robusto é o padrão Rabbit. Na verdade, a equipe do Rabbit não conhece a si mesma – pelo menos não com precisão. E isso não é muito surpreendente, considerando os inúmeros casos extremos que podem surgir na navegação em um desktop, smartphone ou interface da web. É por isso que, além de erigir o padrão, a empresa está arquitetando uma estrutura para testar, observar e refinar o padrão, muito porquê uma infraestrutura para validar e executar versões futuras do padrão na nuvem.

Rabbit também planeja lançar hardware devotado para hospedar sua plataforma. Eu questiono a sabedoria dessa estratégia, dada a dificuldade de escalar a fabricação de hardware, a hostilidade do consumidor em relação ao aprisionamento do fornecedor e o indumentária de que o dispositivo pode eventualmente ter que competir contra qualquer que seja o planejamento da OpenAI. Mas Lyu — que curiosamente não quis me expor exatamente qual é o hardware vai fazer ou por que é necessário – admite que o roteiro está um pouco mudando no momento.

“Estamos construindo um formato novo, muito alcançável e devotado para um dispositivo traste para executar nossa plataforma para interações de linguagem proveniente”, disse Lyu. “Será o primeiro dispositivo a acessar nossa plataforma… Acreditamos que um formato único nos permite projetar novos padrões de interação que são mais intuitivos e agradáveis, oferecendo-nos a liberdade de executar nosso software e modelos que as plataformas existentes não conseguem. permitir ou não permitir.”

O hardware não é o único duelo de expansão do Rabbit, caso decida seguir a estratégia de hardware proposta. Um padrão porquê o que Rabbit está construindo provavelmente precisa de muitos exemplos de tarefas concluídas com sucesso em aplicativos. E coletar esse tipo de dados pode ser um processo trabalhoso – para não expor custoso.

Por exemplo, num dos estudos da DeepMind, os investigadores escreveram que, para recolher dados de treino para o seu sistema, tiveram de remunerar 77 pessoas para completarem mais de 2,4 milhões de demonstrações de tarefas informáticas. Extrapole isso e a magnitude do problema ganha destaque.

Agora, US$ 20 milhões podem percorrer um longo caminho – mormente porque o Rabbit é uma equipe pequena (9 pessoas) que atualmente trabalha na moradia de Lyu. (Ele estima a taxa de consumo em tapume de US$ 250.000.) Eu me pergunto, porém, se o Rabbit será capaz de seguir os players mais estabelecidos no espaço – e porquê ele combaterá novos desafiantes porquê o Copilot for Windows da Microsoft e os esforços da OpenAI para promover um ecossistema de plugins para ChatGPT.

No entanto, a Rabbit não é zero senão ambiciosa – e está positivo de que pode lucrar quantia para sustentar os negócios através do licenciamento de sua plataforma, continuando a refinar seu padrão e vendendo dispositivos personalizados. O tempo vai expor.

“Ainda não lançamos um resultado, mas nossas primeiras demonstrações atraíram dezenas e milhares de usuários”, disse Lyu. “A eventual forma madura de modelos que a equipe do Rabbit desenvolverá funcionará com dados que ainda não foram coletados e será avaliada em benchmarks que ainda não foram projetados. É por isso que a equipe do Rabbit não está construindo o padrão sozinha, mas sim toda a rima de aparatos necessários no sistema operacional para apoiá-lo… A equipe do Rabbit acredita que a melhor maneira de perceber o valor da pesquisa de ponta é focar no usuários finais e implantando sistemas reforçados e protegidos em produção rapidamente.

Pablo Oliveira
Pablo Oliveirahttp://pcextreme.com.br
Sou diretamente responsável pela manutenção, otimização, configuração e SEO de todos os sites de minha propriedade. Além disso, atuo como colunista, editor e programador.

Artigos relacionados

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

Artigos recentes