Modelos de base: a nova fronteira da IA

Na última década, poderosos sistemas de IA igualaram ou superaram os níveis humanos de desempenho em várias tarefas específicas, como reconhecimento de imagem e fala, classificação de câncer de pele e detecção de câncer de mama e jogos altamente complexos como o Go. Esses avanços da IA baseiam-se no Deep Learning (DL), uma técnica que está vagamente baseada na estrutura de rede de neurônios no cérebro humano. Os sistemas DL adquirem conhecimento sendo treinados com milhões a bilhões de textos, imagens e outros dados, em vez de serem programados explicitamente.

Esses sistemas DL geralmente contam com aprendizado supervisionado, um método de treinamento em que os dados devem ser cuidadosamente rotulados, – por exemplo: gato, não-gato – exigindo, portanto, um grande investimento de tempo e dinheiro para produzir um modelo que seja estritamente focado em uma tarefa específica e não pode ser facilmente reaproveitado. Os custos crescentes para o treinamento de sistemas DL cada vez maiores e com foco restrito geraram preocupações de que a técnica estivesse perdendo força.

Os modelos de base prometem contornar essas preocupações de DL, trazendo para o mundo da IA a reutilização e a extensibilidade que têm sido tão bem-sucedidas em sistemas de software de TI, desde os sistemas operacionais como iOS e Android até o crescente número e variedades de plataformas baseadas na Internet.

A IA está passando por uma mudança de paradigma com o surgimento de modelos que são treinados em grande qualidade de dados em escala e são adaptáveis a uma ampla gama de tarefas downstream”, disse On the Opportunities and Risks of Foundation Models, um relatório recente do Center for Research on Foundation Models, uma iniciativa interdisciplinar do Stanford Institute for Human-Centered Artificial Intelligence (HAI), fundada em 2021, focada em avanços fundamentais no estudo, desenvolvimento e implantação de modelos de base. Os modelos de base visam substituir os modelos específicos de tarefas que dominaram a IA na última década por modelos que são treinados com grandes quantidades de dados não rotulados e podem ser adaptados a muitas tarefas diferentes com o mínimo de ajustes. Exemplos atuais de modelos de base incluem grandes modelos de linguagem como GPT-3 e BERT.

Pouco depois de o GPT-3 estar online em 2020, seus criadores, da empresa de pesquisa de IA OpenAI descobriram que o GPT-3 não apenas poderia gerar frases e parágrafos inteiros em inglês em vários estilos, mas também havia desenvolvido habilidades surpreendentes para escrever software de computador. embora os dados de treinamento estivessem focados no idioma inglês, não em exemplos de código de computador. Mas, como se viu, a grande quantidade de páginas da Web usadas em seu treinamento incluía muitos exemplos de programação de computadores acompanhados de descrições do que o código foi projetado para fazer, permitindo assim que o GPT-3 aprendesse a programar sozinho. O GPT-3 também pode gerar documentos legais, como contratos de licenciamento ou arrendamentos, bem como documentos em vários outros campos.

Ao mesmo tempo, os modelos de base existentes têm o potencial de causar danos e suas características são em geral mal compreendidas”, alerta o relatório de Stanford. Uma grande descoberta do Relatório do Índice de IA de 2022 foi que, embora grandes modelos de linguagem como o GPT-3 estejam estabelecendo novos recordes em benchmarks técnicos, eles também são mais propensos a refletir os preconceitos que podem ter sido incluídos em seus dados de treinamento, incluindo temas racistas, linguagem sexista, extremista e outras coisas nocivas, bem como padrões de linguagem abusivas e ideologias nocivas.

Embora os modelos de base sejam baseados em tecnologias DL, eles foram habilitados por dois avanços mais recentes, transferência de aprendizado e escala. Ao contrário do treinamento específico de tarefa dos sistemas DL anteriores, o aprendizado por transferência pega o conhecimento aprendido no treinamento de uma tarefa e o aplica a tarefas diferentes, mas relacionadas, – como usar o treinamento em reconhecimento de objetos em imagens e aplicá-lo ao reconhecimento de atividades em vídeos, ou usando o conhecimento adquirido ao aprender a reconhecer carros e aplicá-lo ao reconhecimento de caminhões. Com o aprendizado de transferência “um modelo é treinado em uma tarefa substituta (geralmente apenas como um meio para um fim) e depois adaptado à tarefa de interesse a jusante por meio de ajuste fino”.

A aprendizagem de transferência é o que torna os modelos de base possíveis, mas a escala é o que os torna poderosos”, acrescenta o relatório. A escala é ativada por três avanços recentes de IA:

  • Melhorias no hardware do computador, – de acordo com o AI Index Report 2022, “Desde 2018, o custo para treinar um sistema de classificação de imagens diminuiu 63,6%, enquanto os tempos de treinamento melhoraram 94,4%.”;
  • Enormes quantidades de dados de treinamento, – de acordo com o artigo recente no The Economist, GPT-2, – predecessor do GPT-3, – foi treinado com 40 gigabytes de dados, enquanto o GPT-3 foi treinado com 570 gigabytes de dados, incluindo um grande pedaço da internet, toda a Wikipedia e muitos livros digitais; e
  • Arquiteturas altamente paralelas, –  arquiteturas de transformador permitem que as redes de aprendizado profundo muito maiores em modelos de base aproveitem o paralelismo inerente do hardware.

O significado dos modelos de base pode ser resumido em duas palavras: emergência e homogeneização”, observa o relatório.

Embora os modelos de base sejam baseados em aprendizado profundo e aprendizado de transferência, sua escala resulta em novos recursos emergentes.” A emergência ocorre quando um sistema muito grande exibe comportamentos que não poderiam ter sido previstos pelos comportamentos de seus componentes individuais e só emergem como resultado de suas interações altamente complexas. “Emergência significa que o comportamento de um sistema é implicitamente induzido ao invés de explicitamente construído; é tanto a fonte da excitação científica quanto da ansiedade sobre consequências imprevistas”.

Por exemplo, o GPT-3, com 175 bilhões de parâmetros comparados aos 1,5 bilhão do GPT-2, permite o aprendizado em contexto, no qual o modelo de linguagem pode ser adaptado a uma tarefa downstream simplesmente fornecendo-lhe um prompt (uma descrição em linguagem natural da tarefa), uma propriedade emergente que não foi especificamente treinada nem prevista para surgir”. É por isso que descobrir que o GPT-3 aprendeu sozinho a programar e gerar documentos legais sem ser explicitamente treinado para isso pegou seus criadores de surpresa.

A eficácia dos modelos de base também levou a um nível de homogeneização sem precedentes. Por exemplo, quase todos os modelos de PNL de última geração agora são adaptados de um dos poucos modelos de base, por exemplo, BERT, GPT-3.

Embora essa homogeneização produza alavancagem extremamente alta (qualquer melhoria nos modelos de base pode levar a benefícios imediatos em toda a PNL), também é um passivo; todos os sistemas de IA podem herdar os mesmos vieses problemáticos de alguns modelos de base.”

A implantação generalizada iminente de modelos de base exige cautela, alerta o relatório. Junto com sua poderosa alavancagem, a homogeneização também significa que os defeitos de um modelo de fundação são herdados por todos os modelos de downstream adaptados. E devido às suas propriedades emergentes, atualmente não temos uma compreensão clara de como os modelos de fundação funcionam, do que são capazes e quando e como falham. “Para enfrentar essas questões, acreditamos que grande parte da pesquisa crítica sobre modelos de fundação exigirá uma colaboração interdisciplinar profunda proporcional à sua natureza fundamentalmente sociotécnica”.

Com mais de 200 páginas e mais de 100 autores, o relatório de Stanford representa uma visão abrangente do estado dos modelos de base, destacando seu excitante potencial bruto, mas lembrando-nos que deve ser visto como uma tecnologia de pesquisa em seus primeiros anos. As 26 seções diferentes do relatório estão agrupadas em quatro áreas inter-relacionadas: capacidades, aplicativos, tecnologia e sociedade, observando que “as tecnologias e capacidades são desenvolvidas de uma maneira que é sensível às preocupações sociais reais, ao mesmo tempo em que são inspiradas e fundamentadas em aplicativos.

Existem incentivos econômicos para impulsionar as capacidades e a escala dos modelos de base, por isso prevemos um progresso tecnológico constante nos próximos anos”, conclui o relatório.

Mas a adequação de uma tecnologia que depende amplamente do comportamento emergente para implantação generalizada para as pessoas não é clara. O que está claro é que precisamos ser cautelosos e que agora é a hora de estabelecer as normas profissionais que permitirão a pesquisa responsável e a implantação de modelos de fundação. A academia e a indústria precisam colaborar nisso: a indústria, em última análise, toma decisões concretas sobre como os modelos de fundação serão implantados, mas também devemos nos apoiar na academia, com sua diversidade disciplinar e incentivos não comerciais em torno da produção de conhecimento e benefício social, para fornecer orientação diferenciada no desenvolvimento e implantação de modelos de base que sejam fundamentados técnica e eticamente”.

Conte aos amigos

Deixe um comentário