Pode um sistema de IA exibir inteligência de senso comum?

Uma das limitações da IA pode ser caracterizada como a sua falta de inteligência de senso comum: a capacidade de raciocinar intuitivamente sobre situações e eventos cotidianos, o que requer um rico conhecimento prévio sobre como o mundo físico e social funciona”, escreveu Yejin Choi, professor da Universidade de Washington. Choi em “The Curious Case of Commonsense Intelligence”, um ensaio publica em 2022 pela Dædalus. “É trivial aos humanos, adquirir inteligência de bom senso; porém para a IA isso tem sido considerado um objetivo quase impossível, acrescentou Choi.”

O que é inteligência de senso comum?

Em uma apresentação de 2020, Choi definiu senso comum como “o nível básico de conhecimento prático e raciocínio sobre situações e eventos cotidianos que são comumente compartilhados pela maioria das pessoas”. O bom senso é essencial para os humanos “viverem e interagirem uns com os outros de maneira razoável e segura” e, para um sistema de IA, o bom senso é essencial “para entender melhor as necessidades e ações humanas”. Ela explicou ainda mais a diferença entre o raciocínio de senso comum intuitivo e o raciocínio racional analítico, discutindo a pesquisa pioneira de Daniel Kahneman, – Princeton Professor Emérito e ganhador do Prêmio Nobel de Economia de 2002, – e seu colaborador de longa data Amos Tversky, que morreu em 1996.

Em seu livro, Thinking, Fast and Slow, Kahneman explica que nossa mente é composta de dois sistemas de pensamento muito diferentes, o Sistema 1 e o Sistema 2. O Sistema 1 é a parte intuitiva, inconsciente, rápida e sem esforço da mente. Os pensamentos vêm de forma automática e muito rapidamente, sem que façamos nada para fazê-los acontecer.

O Sistema 1 normalmente funciona de forma coerente com base em suas percepções do que está acontecendo ao redor, preenchendo lacunas, usando sua vasta quantidade de conhecimento de senso comum sobre como o mundo físico funciona e como as pessoas geralmente se comportam. Nossas mentes estão constantemente desenvolvendo coisas intuitivas sempre que percebemos um evento, incluindo o que causou o evento, o que acontecerá depois, bem como as motivações e estados emocionais de qualquer pessoa envolvida no evento.  Essas coisas nos ajudam a lidar com eficiência com as inúmeras situações simples que encontramos na vida cotidiana. Mas, embora nos permita agir rapidamente, as coisas simples e coerentes que o Sistema 1 apresenta podem estar erradas e nos levar a erros.

Já o Sistema 2 é a parte mais lenta, lógica, deliberada e esforçada da mente. É onde avaliamos e escolhemos entre várias opções. Mas ele também é lento e se cansa facilmente, então geralmente não invocamos o Sistema 2, a menos que seja necessário um pensamento racional rigoroso e exigente para atividades como resolver quebra-cabeças, ler e escrever artigos, resolver problemas de matemática ou fazer um teste.

O senso comum é moldado pela biologia evolutiva e pelo contexto social. Nascemos com a capacidade de aprender rapidamente e nos adaptar ao ambiente social ao nosso redor. Em “The Ultimate Learning Machines”, um ensaio do WSJ de 2019, a psicóloga da UC Berkeley, Alison Gopney, observou que, embora o treinamento de algoritmos de aprendizado profundo para reconhecer cães e gatos exija um grande número de imagens rotuladas, crianças pequenas “podem aprender isso com apenas um pequeno número de  exemplos. Algumas fotos de livros de histórias podem ensiná-las não apenas sobre cães e gatos, mas também sobre onças, rinocerontes e unicórnios.

Um dos segredos do aprendizado das crianças é que elas constroem modelos ou teorias do mundo”, acrescentou. “Crianças pequenas podem não aprender a jogar xadrez, mas desenvolvem ideias de bom senso sobre física …, mesmo que nunca tenham visto um carro ou uma parede antes.” Um grande desafio em IA é como construir sistemas que possam pensar, aprender e entender como o mundo funciona, como uma criança de 18 meses.

A pesquisa de IA nas décadas de 1960, 70 e 80 se concentrou no desenvolvimento de representações simbólicas do mundo com estruturas de conhecimento como redes semânticas e linguagens de programação baseadas em lógica como LISP e Prolog para desenvolver sistemas de raciocínio. “Mas, apesar de seu apelo intelectual, os formalismos baseados na lógica se mostraram muito frágeis para escalar além dos problemas experimentais de brinquedos”, escreveu Choi em seu ensaio Dædalus.

Os métodos lógicos formais são mais apropriados para problemas cuja solução pode ser obtida a partir de suas premissas iniciais por meio de inferências dedutivas, como a demonstração de um teorema matemático. Mas o raciocínio intuitivo e de bom senso é bem diferente. “O objetivo do raciocínio intuitivo é antecipar e prever o que pode ser uma explicação plausível para nossas observações parciais, para que possamos ler nas entrelinhas do texto e ver além do quadro da imagem”, explicou Choi. Além disso, o raciocínio intuitivo extrai de nosso conhecimento de senso comum sobre o mundo, para preencher os espaços em branco e, portanto, é anulado, ou seja, à medida que entendemos melhor o contexto real da situação, as explicações corretas podem ser bem diferentes daquelas originalmente fornecidas por nossa intuição.

A escala é outra razão importante pela qual a lógica formal falha quando aplicada ao raciocínio intuitivo e de bom senso. “A estrutura de raciocínio, para ser útil na prática, deve estar pronta para cobrir todo o espectro de conceitos e composições de conceitos que encontramos em nossas interações físicas e sociais cotidianas com o mundo. Além disso, o mundo real está repleto de situações inéditas, que exigem geração criativa de hipóteses, novas composições de conceitos e novas descobertas de regras de raciocínio”.

Choi acrescentou que “os formalismos baseados na linguagem, apesar de sua aparente imprecisão e variabilidade, são suficientemente expressivos e robustos para abranger o vasto número de fatos e regras de senso comum sobre como o mundo funciona.  Afinal, é a linguagem, e não as formas lógicas, por meio da qual os humanos adquirem conhecimento sobre o mundo.”

Os Foundation Models, como o GPT-3, são um desses formalismos baseados em linguagem. Embora baseados em tecnologias de aprendizado profundo (DL), esses modelos de linguagem grandes (LLMs) contornaram as limitações anteriores de DL, aproveitando dois avanços recentes, grande escala e aprendizado de transferência. Os modelos de fundação são treinados com mais de 10 vezes mais dados do que os modelos DL anteriores, incluindo grandes blocos de informações na Internet, bem como livros digitais, artigos, relatórios e outras mídias digitais. E, ao contrário do treinamento específico para tarefas dos sistemas de IA anteriores, o aprendizado por transferência pega o conhecimento aprendido no treinamento de uma tarefa e o aplica a tarefas diferentes, mas relacionadas.

Pouco depois que o GPT-3 foi colocado online em 2020, seus criadores na empresa de pesquisa de IA, a OpenAI descobriram que o GPT-3 não apenas poderia gerar frases e parágrafos inteiros em inglês em uma variedade de estilos, mas também desenvolveu habilidades surpreendentes em escrever software de computador, mesmo  embora os dados de treinamento estivessem focados no idioma inglês, não em exemplos de código de computador.  Mas, como se viu, as vastas quantidades de dados usadas em seu treinamento incluíam muitos exemplos de programação de computador acompanhados de descrições do que o código foi projetado para fazer, permitindo assim que o GPT-3 aprendesse a programar sozinho. Da mesma forma, o GPT-3 aprendeu sozinho várias outras tarefas, como gerar documentos legais.

Choi lidera o Mosaic, um projeto do Allen Institute que está construindo um protótipo baseado em linguagem de conhecimento de senso comum e sistema de raciocínio intuitivo. O protótipo não poderia ser baseado em grandes modelos de linguagem existentes, como o GPT-3, porque esses modelos são normalmente treinados para gerar a próxima palavra, frase ou parágrafo em inglês sequencialmente da esquerda para a direita, uma técnica que não funciona para modelos de senso comum.

O GPT-3 funciona muito bem para gerar texto sequencial em inglês sobre muitos tópicos e estilos em resposta a uma pergunta ou solicitação. Mas a cognição humana cotidiana está longe de ser sequencial e requer um raciocínio flexível sobre eventos que podem não ter ocorrido sequencialmente, como o raciocínio contrafactual, — que envolve a consideração de alternativas possíveis para um evento que já ocorreu, e o raciocínio abdutivo — um tipo de raciocínio que busca a conclusão mais simples e provável para uma observação.

Embora a maior parte do nosso raciocínio seja uma forma de raciocínio abdutivo, ele é menos conhecido pela maioria das pessoas. Por exemplo, Conan Doyle, o autor do cânone de Sherlock Holmes, erroneamente escreveu que Sherlock usou o raciocínio dedutivo para resolver seus casos. Pelo contrário, a chave para resolver os mistérios de Holmes era quase sempre o raciocínio abdutivo, que requer uma dose não trivial de imaginação e raciocínio causal para gerar hipóteses explicativas que podem não parecer óbvias para os outros”.

Como parte de sua pesquisa sobre IA de senso comum, Choi e seus colegas desenvolveram uma série de sistemas inovadores baseados em linguagem como o ATOMIC, uma coleção de descrição textual de regras e fatos de senso comum sobre objetos e eventos cotidianos e novos algoritmos de inferência que podem incorporar de forma flexível a natureza não sequencial do raciocínio intuitivo.

Embora a pesquisa demonstre novos caminhos em potencial, estamos longe de resolver a IA de senso comum”, escreveu Choi em conclusão. “Muitas questões ainda permanecem abertas, incluindo mecanismos computacionais para garantir consistência e interpretação do conhecimento e raciocínio de senso comum, integração profunda entre linguagem e percepção para raciocínio multimodal, novos paradigmas de aprendizagem para abstração e analogias e métodos avançados de aprendizagem para aprendizagem interativa e ao longo da vida de conhecimento e raciocínio”.

Conte aos amigos

Deixe um comentário