Por Julien Romero - Professor de InteligĂȘncia Artificial, TĂ©lĂ©com SudParis â Institut Mines-TĂ©lĂ©com
Sistemas de inteligĂȘncia artificial sĂŁo capazes de escrever linhas de cĂłdigo e controlar um computador. O que impede que eles criem outras IAs?
No final de outubro de 2024, a Anthropic lançou
Computer-Use, um programa que permite ao seu modelo de IA Claude controlar um computador como um humano. O que aconteceria se uma IA também pudesse acessar recursos financeiros para adquirir måquinas e serviços adicionais? Essa hipótese, embora exagerada, levanta uma questão fascinante. Uma IA poderia realmente se tornar autÎnoma e criar outras IAs sem intervenção humana?
Como veremos, grandes empresas como OpenAI, Facebook ou Google jĂĄ usam IAs para treinar IAs cada vez mais complexas, e isso nĂŁo Ă© segredo, nem mesmo para as prĂłprias IAs.
IAs treinando IAs
Para entender como isso Ă© possĂvel, precisamos voltar e explicar o que permitiu os avanços recentes. Tudo começou em 2017, quando uma equipe de pesquisadores do Google publicou um
artigo cientĂfico: "Attention is all you need." Nessa publicação, os pesquisadores introduziram uma
nova arquitetura neural chamada "Transformers" que aprende quais palavras "prestar atenção" para gerar a próxima palavra. Essa arquitetura Transformers agora estrutura todas as redes neurais das IAs modernas que geram texto.
O surgimento dos Transformers levou a OpenAI a lançar a primeira versĂŁo do GPT em 2018 para gerar texto. Embora os princĂpios fundamentais tenham evoluĂdo pouco desde entĂŁo, a escala e a ambição dos "modelos de linguagem de grande escala" (ou LLMs, na sigla em inglĂȘs) explodiram.
Assim, em maio de 2020, a chegada do GPT-3 marcou o inĂcio de uma categoria de IA capaz de modelar linguagens humanas usando redes neurais gigantescas, sejam linguagens naturais como o francĂȘs ou formais como C++ na ciĂȘncia da computação. Note que modelar com estatĂsticas nĂŁo significa entender com processos cognitivos, e essas IAs
ainda produzem respostas absurdas para perguntas triviais.
Os modelos passaram de 1,5 bilhĂŁo de conexĂ”es para o GPT-2 para algumas centenas de bilhĂ”es para o GPT-3 e seus sucessores, o que corresponde a passar do cĂ©rebro de uma abelha para o de um hamster em termos do nĂșmero de sinapses. No entanto, o aumento em seu tamanho desacelerou nos Ășltimos anos e nĂŁo Ă© mais o principal motor de progresso hoje.
Precisamos olhar, em vez disso, para as mudanças metodológicas que ocorrem antes e depois do treinamento dos modelos.
Mais dados e de melhor qualidade
O treinamento de LLMs depende de textos que servem como referĂȘncia para ensinĂĄ-los a prever a prĂłxima palavra em uma frase. Para melhorar esse aprendizado, cada vez mais dados sĂŁo usados: o GPT-2 foi treinado com 30 bilhĂ”es de palavras (organizadas em frases, parĂĄgrafos e textos), em comparação com onze trilhĂ”es para o LLaMa-3.
No entanto, nem todos os textos, principalmente vindos da web, sĂŁo da mesma qualidade. Os engenheiros, portanto, usam algoritmos de limpeza e, mais recentemente, os prĂłprios LLMs para melhorar, reformular ou gerar esses dados (por exemplo, para
LLaMa-3 ou
Qwen 2.5).
Assim, enquanto as IAs jå estão participando do treinamento de outras IAs, essa pråtica ainda é limitada pela lentidão dos LLMs. O GPT-4 levaria cerca de 17.000 anos para gerar onze trilhÔes de palavras por conta própria (cerca de 500 terabytes de dados).
Uma vez que os dados sĂŁo coletados, limpos e gerados, começa a fase real de aprendizado. Essa fase ainda Ă© difĂcil de implementar e requer uma quantidade colossal de recursos computacionais, mas pouco mudou desde a primeira versĂŁo do GPT em 2018.
Guiando o aprendizado da IA fornecendo feedback construtivo
Por outro lado, os pesquisadores se concentraram em melhorar um LLM apĂłs seu treinamento. De fato, uma das preocupaçÔes de um LLM bruto Ă© que ele Ă© imprevisĂvel e nĂŁo corresponde necessariamente Ă s necessidades humanas em termos de habilidades
(recrutamento, diagnósticos médicos, matemåtica) ou comportamentos éticos e sociais
(chatbot politicamente correto, nĂŁo discriminatĂłrio e que respeita a lei).
A ideia, portanto, Ă© calibrar os LLMs para que eles se conformem melhor Ă s preferĂȘncias de seus usuĂĄrios. Para isso, a tĂ©cnica de
aprendizado por reforço com feedback humano pede a opinião de humanos sobre textos gerados e treina os LLMs para agradar aos humanos.
Esse processo permitiu um grande salto em 2022 com o InstructGPT, um precursor do ChatGPT. No entanto, Ă© extremamente caro, pois requer muito trabalho manual. O LLaMa-3 exigiu a anotação de dez milhĂ”es de preferĂȘncias por humanos. Esses trabalhadores sĂŁo
frequentemente mal pagos e em situaçÔes precårias.
Ă por isso que os pesquisadores estĂŁo buscando minimizar a assistĂȘncia humana.
Quando as IAs treinam IAs
Em julho de 2024, uma equipe de cientistas da Microsoft publicou
AgentInstruct, um novo método para ensinar novas habilidades e comportamentos a LLMs.
Esse método foca na criação de "agentes" especializados em muitos campos (matemåtica, código, medicina) que servem como professores para o sistema em treinamento. Nesse caso, um agente é ele mesmo um LLM, mas aumentado com dados e ferramentas externas adicionais, como uma calculadora, a Internet ou um compilador de código de computador. Melhor equipado e especializado do que um LLM sozinho, ele se destaca em seu campo de expertise. O AgentInstruct usa um batalhão de agentes para ensinar seu conhecimento a um LLM.
O resultado: o LLM progride sem acesso a nenhum outro recurso, ao contrĂĄrio dos agentes. Por exemplo, um agente equipado com uma calculadora pode melhorar o cĂĄlculo mental de um LLM.
Da mesma forma, graças ao programa Computer-Use, o Claude poderia explorar muitas ferramentas de computador para coletar, limpar e organizar seus próprios dados, ou até mesmo treinar modelos de IA de forma mais autÎnoma, mobilizando agentes especializados. Pergunte a ele como ele poderia melhorar a si mesmo, e ele provavelmente darå uma resposta semelhante (ou sugerirå contratar um exército de humanos para anotar dados).
Mas entĂŁo, como explicar que ele ainda nĂŁo Ă© capaz de se reproduzir e melhorar sozinho?
Antes de uma IA capaz de se reproduzir, um longo caminho técnico e questÔes éticas
Essa capacidade de criar agentes especializados levanta questĂ”es cruciais. Quem controla os agentes? Se as IAs participam de sua prĂłpria melhoria, como garantir que sua evolução permaneça Ă©tica e alinhada com os interesses humanos? O papel dos desenvolvedores e reguladores serĂĄ central para evitar possĂveis abusos.
Ainda não estamos lå por vårias razÔes. Os LLMs atuais, embora poderosos, são limitados: eles lutam para planejar projetos complexos, exigem ajustes constantes durante seu treinamento e ainda dependem amplamente da intervenção humana, particularmente em
data centers, para gerenciar e manter mĂĄquinas fĂsicas.
AlĂ©m disso, sem sua prĂłpria vontade, eles nĂŁo podem definir objetivos autĂŽnomos, independentes das preferĂȘncias humanas aprendidas. Sam Altman, CEO da OpenAI,
menciona a possĂvel emergĂȘncia de uma inteligĂȘncia artificial geral jĂĄ em 2025, mas essa previsĂŁo permanece controversa, pois exigiria avanços tĂ©cnicos e uma melhor compreensĂŁo dos mecanismos cognitivos humanos.
O sucesso dos LLMs depende de
quatro pilares: aumentar seu tamanho, inovaçÔes arquitetĂŽnicas, melhorar as tĂ©cnicas de calibração e aperfeiçoar os dados. Avanços recentes, particularmente a automação via agentes especializados, jĂĄ mostram que as IAs estĂŁo desempenhando um papel cada vez maior na criação de outras IAs. No entanto, sem sua prĂłpria vontade ou verdadeira autonomia, a ideia de uma IA capaz de se multiplicar ou melhorar sozinha permanece ficção cientĂfica.
De fato, uma revolução dessa magnitude exigiria uma mudança de paradigma, com arquiteturas neurais capazes de uma inteligĂȘncia verdadeiramente adaptativa e generalizada. Atualmente, uma vez que a fase de aprendizado termina, as redes neurais dos LLMs se tornam fixas: elas nĂŁo podem mais evoluir ou adquirir novas habilidades de forma autĂŽnoma, mesmo apĂłs milhĂ”es de interaçÔes com usuĂĄrios humanos.
Diferentemente dos humanos, que aprendem atravĂ©s do contato com outros ou por meio de reflexĂŁo interna, os LLMs nĂŁo tĂȘm mecanismos para adaptar dinamicamente sua estrutura interna ou construir representaçÔes profundas e revisĂĄveis do mundo externo. Yann LeCun, o vencedor francĂȘs do PrĂȘmio Turing de 2019,
imagina uma nova geração de IAs equipadas com modelos internos, capazes de simular hipĂłteses e planejar como um humano, integrando observaçÔes para comparĂĄ-las com expectativas prĂ©-existentes. No entanto, a implementação prĂĄtica dessa visĂŁo permanece um desafio cientĂfico.
Talvez um avanço tĂŁo decisivo quanto o dos Transformers em 2017 ocorra nos prĂłximos anos. Mas, por enquanto, a visĂŁo de inteligĂȘncias artificiais totalmente autĂŽnomas, semelhantes a
sondas de Von Neumann colonizando o universo, permanece hipotética.
Esse cenårio, no entanto, nos convida a refletir hoje sobre as questÔes éticas e as salvaguardas legislativas e técnicas necessårias para enquadrar a evolução dessas tecnologias.