‎Nível de acerto da inteligência artificial passa por “teste final”

Pesquisadores de mais de 40 países criaram um banco de dados que promete funcionar como um “teste final” para medir o avanço da inteligência artificial (IA).

‎A ferramenta, chamada Humanity’s Last Exam (HLE), ou “o último exame da humanidade”, está disponível para uso público e teve o seu funcionamento descrito na Nature, segundo informações divulgadas pelo Jornal da USP, da Universidade de São Paulo, e noticiadas pela CNN Brasil.

‎‎O HLE reúne 2.500 questões distribuídas por dezenas de áreas do conhecimento, como matemática, ciências naturais e humanidades, com o objectivo de avaliar, com maior precisão, o nível de acerto de modelos de IA, incluindo os chamados LLMs (modelos de linguagem de grande porte).

‎‎“A ideia é essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje”, afirmou ao Jornal da USP a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação da USP, em São Carlos (SP), que contribuiu para o desenvolvimento do projecto.

‎‎De acordo com a pesquisadora, empresas de tecnologia costumam divulgar o desempenho dos seus sistemas com base em benchmarks - conjuntos padronizados de problemas usados para testar capacidades técnicas.

‎“A proposta original do HLE é criar o ‘benchmark supremo’, um teste em que alcançar próximo de 100% equivaleria a executar qualquer tarefa que um ser humano consegue fazer”, explicou.

‎‎Como funciona o teste

‎‎De acordo com Emily Santos, o diferencial do HLE é que todas as questões têm resposta única e objectivamente verificável. “Dois especialistas em determinado assunto chegariam exactamente à mesma resposta correcta”, esclarece a responsável, acrescentando que as respostas, em geral, são números inteiros ou resultados de fácil verificação.

‎‎Na prática, os pesquisadores executam modelos de IA nas questões por meio de scripts padronizados. As respostas geradas são comparadas ao gabarito oficial, permitindo calcular o percentual de acerto.

‎‎O que o exame mede

‎‎O banco de dados foi estruturado para avaliar diferentes tipos de habilidades, do conhecimento científico ao raciocínio aplicado.

‎‎Ainda segundo a mesma pesquisadora, o HLE pode testar desde conhecimentos gerais e senso comum até competências mais complexas, como a aplicação da equação de Schrödinger na mecânica quântica.

‎‎O exame também pode avaliar a chamada “agência”, entendida como a capacidade de realizar ações no mundo. Um dos exemplos citados envolve dobrar um origami de tsuru, desfazer as dobras e calcular em quantas partes o papel foi dividido.

‎‎Além da USP, o projecto envolve o Center for AI Safety, a empresa Scale AI e o HLE Contributors Consortium.

‎A ferramenta está disponível no site lastexam.ai, com a proposta de subsidiar pesquisas e políticas públicas relacionadas à inteligência artificial.

‎

‎Nível de acerto da inteligência artificial passa por “teste final”

Comentários (0)

Junte-se à conversa

Artigos relacionados

AMD leva tecnologia 3D V-Cache para estações de trabalho e aposta em desempenho profissional

Cisco eleva previsão de receitas impulsionada pela corrida global à inteligência artificial

OpenAI garante que falha de segurança não comprometeu dados de utilizadores

Subscreva a nossa Newsletter