IA que raciocina mais alucina mais: mostram testes da OpenAI


Apesar de serem considerados modelos de inteligência artificial (IA) de última geração, o o3 e o o4-mini, lançados recentemente pela OpenAI, estão enfrentando um problema peculiar: eles inventam muitas coisas (alucinam). E o pior, fazem isso mais do que seus antecessores.

As chamadas “alucinações” são um dos maiores desafios na evolução da IA. Elas acontecem quando os modelos geram informações falsas ou inventadas, mesmo quando parecem confiantes em suas respostas. Historicamente, cada nova versão melhorava nesse aspecto, alucinando menos. Mas, surpreendentemente, o o3 e o o4-mini estão indo na direção oposta.

Alucinação preocupante

Testes da OpenAI revelaram que o o3 alucina em 33% das vezes ao responder perguntas sobre pessoas no PersonQA, o benchmark interno da startup. Já o o4-mini foi ainda pior, “viajando” 48% da vezes. Para comparação, modelos anteriores como o o1 e o o3-mini tinham taxas de erro de apenas 16% e 14,8%, respectivamente.

Pesquisadores independentes também notaram comportamentos estranhos. Em testes do Transluce, um laboratório de pesquisa de IA sem fins lucrativos, o o3 afirmou executar código em um MacBook Pro 2021 fora do ChatGPT, algo que ele não pode fazer. Além disso, usuários relataram links quebrados fornecidos pelo modelo em tarefas de codificação. Esses erros podem parecer pequenos, mas têm grande impacto em setores onde a precisão é crucial, como escritórios de advocacia ou empresas de saúde.

Leia também:

Por outro lado, esses modelos continuam impressionando em áreas como matemática e programação. O problema é que, enquanto buscam respostas mais detalhadas e criativas, as chances de inventar informações aumentam. A OpenAI admitiu que ainda não sabe por que isso está acontecendo e reconheceu que encontrar uma solução será essencial para o futuro da IA.

Uma possível saída é permitir que os modelos consultem a internet em tempo real. Testes internos da OpenAI mostram que o GPT-4o com pesquisa na web alcança 90% de precisão em algumas tarefas. No entanto, essa solução levanta questões de privacidade, já que os prompts dos usuários podem ser expostos a terceiros.

Via TechCrunch




Fonte: Olhar Digital

Trabalhadores por conta própria têm as maiores jornadas no país

Bruno de Freitas Moura – Repórter da Agência Brasil Os trabalhadores por conta...

Desmatamento da Mata Atlântica tem queda de 28% em um ano

A área de desmatamento...

Morre segunda vítima de explosão na zona oeste de São Paulo

(UOL/FOLHAPRESS) – Morreu nesta quinta-feira (14) o homem que estava internado em...

Amazonas Repórter

Tudo

Hackers tentam invadir a Coinbase usando código aberto da própria corretora

A exchange norte-americana Coinbase foi alvo de uma tentativa de ataque hacker envolvendo o comprometimento de ações automatizadas no GitHub. O incidente é parte...

Após decisão do TCE sobre OSS em Lábrea, Wilker Barreto volta a cobrar mudanças na gestão da Saúde

  Deputado alerta para saúde do Amazonas com serviços prejudicados, falta de investimentos e contratos irregulares Nesta quarta-feira, 10, o deputado estadual Wilker Barreto (Mobiliza) voltou...

Arena Amadeu Teixeira é sede da Taça Amazonas de Jiu-Jitsu Pro

Além de jiu-jitsu, Campeonato Amazonense de Futebol agita praças esportivas da Faar neste final de semana