Podemos confiar nos modelos de linguagem de IA?

Uma das principais descobertas do Relatório de Índice de IA de 2022 foi que grandes modelos de linguagem (em inglês Large Language Models – ou LLMs) estão estabelecendo recordes em benchmarks técnicos graças aos avanços em redes neurais profundas e poder computacional, que permite que algoritmos sejam treinados usando grandes quantidades de dados. Os LLMs agora estão superando as linhas de base humanas em várias tarefas de linguagem complexas, incluindo compreensão do idioma inglês, resumo de texto, inferência de linguagem natural e tradução automática.

A IA vai dominar a linguagem. Podemos confiar nisso?

Este é o título de um artigo recente da New York Times Magazine do escritor de ciências Steven Johnson, que deu uma olhada de perto em um desses LLMs, o Generative Pre-Trained Transformer 3, referido como GPT-3. O GPT-3 foi criado pela empresa de pesquisa de Inteligência Artificial – OpenAI. Ele foi treinado com mais de 700 gigabytes de dados de toda a web, juntamente com uma grande coleção de texto de livros digitalizados. “Desde o lançamento do GPT-3, a internet está repleta de exemplos da estranha facilidade do software com a linguagem – junto com seus pontos cegos e pontos fracos e outras tendências mais sinistras”, disse Johnson.

[Um exemplo desse poder computacional é este blog, que é transcrito diretamente de texto para áudio em um podcast, totalmente automatizado e com recursos de fala incrivelmente satisfatório].

Até agora, os experimentos com grandes modelos de linguagem foram principalmente esses: experimentos sondando o modelo em busca de sinais de verdadeira inteligência, explorando seus usos criativos e expondo seus preconceitos. Mas o potencial comercial final é enorme. Se a trajetória existente continuar, softwares como o GPT-3 podem revolucionar a forma como buscamos informações nos próximos anos.”

Em vez de digitar algumas palavras-chave no Google e receber de volta uma longa lista de links que podem ter a resposta, você pergunta ao GPT-3 o que está procurando em inglês e recebe uma resposta bem escrita e precisa. “O atendimento ao cliente pode ser totalmente transformado: qualquer empresa com um produto que atualmente exija uma equipe de suporte técnico humano pode treinar um LLM para substituí-los”.

O conceito-chave do GPT-3 é a previsão da próxima palavra, com a qual estamos bastante familiarizados ao digitar um documento, email ou mensagem e o recurso de preenchimento automático, que tenta prever as próximas prováveis palavras. Mas o GPT-3 não é apenas capaz de prever as próximas palavras. Ele pode gerar frases e parágrafos inteiros no estilo do texto original. Logo após o GPT-3 estar online em 2020, “a equipe da OpenAI descobriu que a rede neural havia desenvolvido habilidades surpreendentemente eficazes para escrever software de computador, mesmo que os dados de treinamento não incluíssem deliberadamente exemplos de código. Descobriu-se que a web está cheia de inúmeras páginas que incluem exemplos de programação de computadores, acompanhados de descrições do que o código foi projetado para fazer; a partir dessas pistas elementares, o GPT-3 efetivamente aprendeu a programar“. O GPT-3 já pode gerar documentos legais, como contratos de licenciamento ou arrendamentos, e pode fazê-lo de forma semelhante os humanos, em qualquer campo que envolva documentos estruturados.

Por mais impressionante que seja o GPT-3, seus recursos são estatísticos e mecanicistas. “A Inteligência Artificial tem uma longa história de criar a ilusão de inteligência ou compreensão sem realmente entregar esses valores.” As primeiras conquistas, como mecanismos de inferência e sistemas especialistas, levaram os pesquisadores a concluir que as máquinas alcançariam inteligência no nível humano dentro de algumas décadas. Mas esse otimismo inicial entrou em colapso, levando aos chamados Invernos de Inteligência Artificial nas décadas de 1970 e 1980. A atual onda de entusiasmo é a maior até agora, devido a conquistas como o AlphaGo do Google, que derrotou inesperadamente um dos melhores jogadores de Go do mundo em 2016. Esse é o contexto do desempenho notável do GPT-3 e outros grandes modelos de linguagem. Alguns temem que, se outro surto de expectativas infladas for seguido por uma desilusão com os limites práticos da Inteligência Artificial, algum tipo de outono da Inteligência Artificial possa acontecer.

Parecia quase impossível que uma máquina pudesse gerar um texto tão lúcido e responsivo baseado inteiramente no treinamento elementar da previsão da próxima palavra”, escreveu Johnson. “Como podemos determinar se o GPT-3 está realmente gerando suas próprias ideias ou apenas parafraseando a sintaxe da linguagem que escaneou dos servidores da Wikipedia, ou qualquer outra base de informação?”

Este não é apenas um debate esotérico”, acrescenta. “Se, de fato, os grandes modelos de linguagem já estão exibindo algum tipo de inteligência emergente, isso pode até sugerir um caminho para a verdadeira inteligência artificial”. Mas se os LLMs e modelos semelhantes de Inteligência Artificial baseados em deep learning acabarem prometendo mais do que podem entregar, “então a Inteligência Artificial pode recuar, mais uma vez, para um horizonte distante”.

O artigo levanta uma série de contra argumentos de advertência, considerando as conquistas dos LLMs como evidência de progresso ao longo do caminho para a Inteligência Artificial, e aqui está, resumidamente, alguns desses argumentos.

Os LLMs são apenas papagaios

Esse termo “papagaio”, foi cunhado em um artigo provocativo, On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?, de Emily Bender e Timnit Gebru. Seu artigo argumentou que os LLMs estavam apenas remixando o enorme número de frases de autoria humana usadas em seu treinamento. Sua impressionante capacidade de gerar frases convincentes e articuladas nos dá a ilusão de que estamos lidando com um humano bem educado e inteligente, e não com um papagaio que não tem uma compreensão humana das ideias subjacentes às frases que está montando.

Outro desafio importante com grandes sistemas de aprendizado profundo é sua natureza de caixa preta. É muito difícil explicar em termos humanos por que os algoritmos escolhem uma resposta ou uma saída em detrimento de outras. Os LLMs têm um grande número de parâmetros dentro de suas redes neurais complexas, tornando muito difícil avaliar as contribuições individuais humanas para uma decisão em termos que um humano entenderá. “Esta é uma razão pela qual existe o debate sobre grandes modelos de linguagem”, disse Johnson. “Algumas pessoas argumentam que a compreensão de alto nível está surgindo, graças às camadas profundas da rede neural. Outros pensam que o programa, por definição, não pode chegar ao verdadeiro entendimento simplesmente tentando o tempo todo ‘adivinhar a palavra que falta’. Mas ninguém realmente sabe como isso funciona.”

Além disso, quanto maiores os conjuntos de dados de treinamento, maior a probabilidade de incluir preconceitos racistas, sexistas, extremistas e outros nocivos, bem como padrões de linguagem abertamente abusivas e ideologias nocivas. Uma grande descoberta do Relatório de Índice de Inteligência Artificial de 2022 foi que: “Os grandes modelos de linguagem estão estabelecendo novos recordes em benchmarks técnicos, mas novos dados mostram que modelos maiores também são mais capazes de refletir vieses de seus dados de treinamento. Um modelo de 280 bilhões de parâmetros desenvolvido em 2021 mostra um aumento de 29% na toxicidade eliciada em relação a um modelo de 117 milhões de parâmetros considerado o estado da arte em 2018.”

Além de ser preciso e articulado, deve haver um processo para adaptar os modelos de linguagem à sociedade para que eles sejam treinados para filtrar preconceitos e toxicidade, assim como ensinamos valores sociais a nossos filhos. “Nunca tivemos que ensinar valores às nossas máquinas antes”, observou Johnson.

Falta de conhecimento do senso comum

Os LLMs também carecem do conhecimento de senso comum sobre o mundo do qual a inteligência humana depende. Johnson faz referência a uma coluna recente de Melanie Mitchell, onde ela escreveu que “entender a linguagem requer entender o mundo, e uma máquina exposta apenas à linguagem não pode obter tal entendimento”.

O conhecimento do senso comum inclui o tipo de habilidades cognitivas que nossos cérebros biológicos dão como certo. Embora o aprendizado profundo exija grandes quantidades de dados de treinamento para funcionar no nível humano, as crianças podem aprender com um pequeno número de exemplos. “Algumas fotos de livros de histórias podem ensiná-los não apenas sobre gatos e cães, mas também sobre onças, rinocerontes e unicórnios”, escreveu a professora da UC Berkeley, Alison Gopney, em um ensaio do WSJ de 2019, The Ultimate Learning Machines. “Um dos segredos da aprendizagem das crianças é que elas constroem modelos ou teorias do mundo. … até bebês de 1 ano sabem muito sobre objetos: ficam surpresos se veem um carrinho de brinquedo pairar no ar ou passar por uma parede, mesmo que nunca tenham visto o carro ou a parede antes.

Os LLMs são confiáveis?

O debate mais acalorado sobre grandes modelos de linguagem não gira em torno da questão de saber se eles podem ser treinados para entender o mundo”, escreveu Johnson. “Em vez disso, gira em torno de saber se eles podem ser confiáveis.

Os sistemas de aprendizado profundo se saem melhor ao analisar dados que se assemelham aos dados usados em seu treinamento. Mas ao tentar generalizar ou ir além destes, eles podem apresentar um tipo de problema de alucinação, sendo enganados por pequenas perturbações em suas entradas que não enganariam os humanos.

Além disso, os LLMs têm propensões ainda mais preocupantes, como usar linguagem abertamente racista; gerando desinformação conspiratória; e oferecendo aconselhamento sobre risco de vida para questões de saúde ou segurança.

Todas essas falhas decorrem de um fato inescapável”, acrescenta Johnson: “Para obter um conjunto de dados grande o suficiente para fazer o trabalho de um LLM, você precisa ir fundo na web mais ampla. E a web mais ampla é, infelizmente, uma representação do nosso estado mental coletivo, como espécie, que continua a ser atormentado por preconceitos, desinformação e outras toxinas”.

No entanto, o problema de treinamento será resolvido nos próximos anos, o GPT-3 e seus pares deixaram uma coisa surpreendente clara: as máquinas adquiriram linguagem”, escreveu Johnson em conclusão. “Se você passar bastante tempo com o GPT-3, conjurando novos prompts para explorar suas capacidades e suas falhas, acaba se sentindo como se estivesse interagindo com uma espécie de criança prodígio cujo brilho é obscurecido por algumas limitações óbvias: capaz de saltos surpreendentes de inferência; possuindo profundo conhecimento de domínio em uma vasta gama de campos, mas chocantemente ignorante sobre muitos fatos básicos; propenso a digressões estranhas e sem sentido; livre de etiqueta e normas sociais”.

Não sei se essa mistura complicada de qualidades constitui um ‘vislumbre’ de inteligência geral, mas sei que interagir com ela é qualitativamente diferente de qualquer experiência que tive com uma máquina antes. A própria premissa de que agora estamos tendo um debate sério sobre a melhor maneira de incutir valores morais e cívicos em nossos softwares deve deixar claro que cruzamos um limite importante”.

Conte aos amigos

Deixe um comentário