A IA aberta e o ecossistema de dados

A disponibilidade de software Open Source (OSS) de nível empresarial está mudando a forma como as organizações desenvolvem, mantêm e entregam produtos”, escreveu Ibrahim Haddad no relatório, Artificial Intelligence and Data in Open Source. Haddad é vice-presidente de programas estratégicos da Linux Foundation (LF) e diretor executivo da iniciativa LF AI & Data. “Adotar e usar OSS pode oferecer muitos benefícios, incluindo custos de desenvolvimento reduzidos, desenvolvimento mais rápido de produtos, padrões de qualidade de código e muito mais. A metodologia Open Source Software oferece benefícios importantes e exclusivos para os domínios de IA e dados, especificamente em áreas de justiça, robustez, explicabilidade, linhagem, disponibilidade de dados e governança.”

No início deste ano, Stanford divulgou o relatório 2022 AI Index, seu quinto estudo anual sobre o impacto e o progresso da IA. O relatório de Stanford observa que “2021 foi o ano em que a IA passou de uma tecnologia emergente para uma tecnologia madura – não estamos mais lidando com uma parte especulativa da pesquisa científica, mas com algo que tem impacto no mundo real, tanto positivo quanto negativo.

Algumas semanas atrás eu escrevi sobre o escopo da Linux Foundation. O LF suporta um grande e crescente número de projetos Open Source em uma ampla variedade de áreas. A IA não é diferente de outros domínios de tecnologia, portanto, não é de surpreender que o Open Source Software agora desempenhe um papel importante, pois a IA está sendo cada vez mais integrada à economia.

O ecossistema de dados e IA Open Source apresenta várias oportunidades para P&D, startups e inovações”, disse Haddad. “A infusão de IA em produtos e serviços criou oportunidades para melhorar a vida das pessoas em todo o mundo. Ele também levantou preocupações sobre a justiça, explicabilidade e segurança desses aplicativos e sistemas. Várias iniciativas nacionais e globais estão trabalhando para lidar com essas preocupações. A LF AI & Data e suas organizações membros consideram a IA confiável e responsável como um domínio crítico e como um grupo global que trabalha em políticas, diretrizes e casos de uso para garantir o desenvolvimento de sistemas e processos de IA confiáveis.

O relatório se concentrou em seis áreas de IA e dados onde as metodologias de código aberto podem trazer benefícios exclusivos:

  • Justiça. “Métodos para detectar e mitigar viés em conjuntos de dados e modelos, por exemplo, preconceito contra populações protegidas conhecidas”;
  • Robustez. “Métodos para detectar alterações e adulterações em conjuntos de dados e modelos, por exemplo, modificações de ataques adversários conhecidos”;
  • Explicabilidade. “Métodos para melhorar a capacidade da persona ou da função de entender e interpretar resultados, decisões e recomendações do modelo de IA, por exemplo, classificação e debate de resultados e opções”;
  • Linhagem. “Métodos para garantir a proveniência de conjuntos de dados e modelos de IA, por exemplo, reprodutibilidade de conjuntos de dados gerados e modelos de IA”;
  • Dados. “As licenças específicas de dados de código aberto tornam os dados livremente acessíveis para uso sem mecanismos de controle”; e
  • Governança. “Uma estrutura de governança e ferramentas para limpar, classificar, marcar, rastrear e controlar dados e conjuntos de dados.”

Deixe-me discutir brevemente três dessas áreas: justiça, explicabilidade e dados.

Justiça. Uma grande descoberta do Relatório de Índice de IA de 2022 foi que, embora grandes modelos de linguagem como GPT-3 e BERT estejam estabelecendo novos recordes em benchmarks técnicos, eles também são mais propensos a refletir os vieses que podem ter sido incluídos em seus dados de treinamento, incluindo racistas, sexistas, extremistas e outras linguagens nocivas, bem como padrões de linguagem abertamente abusivos e ideologias nocivas. É por isso que métodos para reduzir preconceitos e comportamentos abusivos são tão importantes.

O AI Fairness 360, por exemplo, é um kit de ferramentas de código aberto para ajudar a examinar, relatar e mitigar a discriminação e o preconceito em modelos de aprendizado de máquina em todo o ciclo de vida do aplicativo de IA. “O pacote AI Fairness 360 Python inclui um conjunto abrangente de métricas para conjuntos de dados e modelos para testar vieses, explicações para essas métricas e algoritmos para mitigar o viés em conjuntos de dados e modelos. A demonstração interativa do AI Fairness 360 fornece uma introdução suave aos conceitos e recursos. Os tutoriais e outros notebooks oferecem uma introdução mais profunda e orientada para os cientistas de dados.

Explicabilidade. Apesar de sua ampla adoção, os modelos de ML permanecem principalmente caixas pretas. Os métodos por trás de uma previsão de ML – ajustes sutis nos pesos numéricos que interligam seu grande número de neurônios artificiais – são muito difíceis de explicar porque são muito diferentes dos métodos usados por humanos. Quanto maior o conjunto de dados de treinamento, mais precisa a previsão, mas mais difícil será fornecer uma explicação detalhada e compreensível para um humano de como a previsão foi feita. Compreender as razões por trás das previsões é muito importante para avaliar se deve-se confiar em um modelo de ML, o que é fundamental se alguém planeja realizar ações importantes com base na previsão, como um diagnóstico médico ou uma decisão judicial.

O AI Explanability 360 é uma biblioteca de código aberto que oferece suporte à interpretabilidade e explicabilidade de conjuntos de dados e modelos de aprendizado de máquina em todo o ciclo de vida do aplicativo de IA. “A demonstração interativa do AI Explainability 360 fornece uma introdução suave aos conceitos e recursos, percorrendo um exemplo de caso de uso da perspectiva de diferentes personas do consumidor. Os tutoriais e outros notebooks oferecem uma introdução mais profunda e orientada para os cientistas de dados.

Dados. “Estamos todos familiarizados com a expressão, lixo dentro, lixo fora, referindo-se à importância de inserir bons dados para obter informações valiosas. Com a digitalização global e a transformação de indústrias e economias, os dados se tornaram bastante abundantes; o desafio mudou da localização de dados para a seleção de dados de qualidade, mineração eficiente dos dados para insights acionáveis e conversão eficaz desses insights em valor comercial. A comunidade LF AI & Data reconhece a importância dos dados e está interessada em hospedar e apoiar projetos-chave que abrangem linhagem de dados, formato, armazenamento, operações, engenharia de recursos, governança, processamento de fluxo e gerenciamento de pipeline.

As comunidades de software de código aberto mostraram o poder da colaboração aberta para a construção de algumas das infraestruturas mais importantes do mundo. As comunidades de IA também procuram construir conjuntos de dados abertos de forma colaborativa que podem ser compartilhados. Isso é particularmente importante devido à enorme quantidade de dados de treinamento necessários para novos avanços de IA de ponta, como modelos de base. No entanto, a propriedade intelectual de dados geralmente é tratada de maneira diferente do que a propriedade intelectual de software. Como resultado, as licenças de software Open Source não podem ser aplicadas prontamente aos dados.

Um dos projetos de IA e dados mais importantes é o Community Data License Agreement (CDLA). CDLA é uma estrutura legal para o desenvolvimento de contratos de licença para permitir o acesso, compartilhamento e uso de dados abertamente entre indivíduos e organizações. O CDLA-Permissive-2.0, por exemplo, é “um contrato de licença curto, facilmente compreensível para cientistas de dados e advogados, para permitir que os destinatários usem, analisem, modifiquem e compartilhem dados amplamente. … Os conjuntos de dados proprietários continuarão a existir, mas a disponibilidade de dados sob as licenças CDLA (existem duas versões) deve permitir que todos criem produtos confiáveis, incluindo players menores.

O código aberto já ganhou em IA e dados”, escreveu Haddad em conclusão. “Somos muito mais inovadores em colaboração do que isoladamente. Evidente pelos dados disponíveis para nós hoje, o código aberto como metodologia e prática alimentou nossos enormes avanços em IA. Estamos passando agora pelo processo de IA de código aberto dominando o mundo do software. Essa situação é o novo normal. Vamos celebrá-lo e continuar nossa busca por avanços tecnológicos de maneira justa, transparente e ética”.

Conte aos amigos

Deixe um comentário