Nível de acerto da inteligência artificial passa por “teste final”
Ferramenta reúne 2.500 questões para avaliar a precisão de modelos como ChatGPT e Gemini.

Foto: DR
Paulo Massunda
Jornalista e CEO
Pesquisadores de mais de 40 países criaram um banco de dados que promete funcionar como um “teste final” para medir o avanço da inteligência artificial (IA).
A ferramenta, chamada Humanity’s Last Exam (HLE), ou “o último exame da humanidade”, está disponível para uso público e teve o seu funcionamento descrito na Nature, segundo informações divulgadas pelo Jornal da USP, da Universidade de São Paulo, e noticiadas pela CNN Brasil.
O HLE reúne 2.500 questões distribuídas por dezenas de áreas do conhecimento, como matemática, ciências naturais e humanidades, com o objectivo de avaliar, com maior precisão, o nível de acerto de modelos de IA, incluindo os chamados LLMs (modelos de linguagem de grande porte).
“A ideia é essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje”, afirmou ao Jornal da USP a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação da USP, em São Carlos (SP), que contribuiu para o desenvolvimento do projecto.
De acordo com a pesquisadora, empresas de tecnologia costumam divulgar o desempenho dos seus sistemas com base em benchmarks - conjuntos padronizados de problemas usados para testar capacidades técnicas.
“A proposta original do HLE é criar o ‘benchmark supremo’, um teste em que alcançar próximo de 100% equivaleria a executar qualquer tarefa que um ser humano consegue fazer”, explicou.
Como funciona o teste
De acordo com Emily Santos, o diferencial do HLE é que todas as questões têm resposta única e objectivamente verificável. “Dois especialistas em determinado assunto chegariam exactamente à mesma resposta correcta”, esclarece a responsável, acrescentando que as respostas, em geral, são números inteiros ou resultados de fácil verificação.
Na prática, os pesquisadores executam modelos de IA nas questões por meio de scripts padronizados. As respostas geradas são comparadas ao gabarito oficial, permitindo calcular o percentual de acerto.
O que o exame mede
O banco de dados foi estruturado para avaliar diferentes tipos de habilidades, do conhecimento científico ao raciocínio aplicado.
Ainda segundo a mesma pesquisadora, o HLE pode testar desde conhecimentos gerais e senso comum até competências mais complexas, como a aplicação da equação de Schrödinger na mecânica quântica.
O exame também pode avaliar a chamada “agência”, entendida como a capacidade de realizar ações no mundo. Um dos exemplos citados envolve dobrar um origami de tsuru, desfazer as dobras e calcular em quantas partes o papel foi dividido.
Além da USP, o projecto envolve o Center for AI Safety, a empresa Scale AI e o HLE Contributors Consortium.
A ferramenta está disponível no site lastexam.ai, com a proposta de subsidiar pesquisas e políticas públicas relacionadas à inteligência artificial.
Comentários (0)
Junte-se à conversa
Para partilhar a sua opinião de forma segura, precisa de ter uma conta.
Ainda não há comentários. Seja o primeiro a participar.
