IA que raciocina mais alucina mais: mostram testes da OpenAI


Apesar de serem considerados modelos de inteligência artificial (IA) de última geração, o o3 e o o4-mini, lançados recentemente pela OpenAI, estão enfrentando um problema peculiar: eles inventam muitas coisas (alucinam). E o pior, fazem isso mais do que seus antecessores.

As chamadas “alucinações” são um dos maiores desafios na evolução da IA. Elas acontecem quando os modelos geram informações falsas ou inventadas, mesmo quando parecem confiantes em suas respostas. Historicamente, cada nova versão melhorava nesse aspecto, alucinando menos. Mas, surpreendentemente, o o3 e o o4-mini estão indo na direção oposta.

Alucinação preocupante

Testes da OpenAI revelaram que o o3 alucina em 33% das vezes ao responder perguntas sobre pessoas no PersonQA, o benchmark interno da startup. Já o o4-mini foi ainda pior, “viajando” 48% da vezes. Para comparação, modelos anteriores como o o1 e o o3-mini tinham taxas de erro de apenas 16% e 14,8%, respectivamente.

Pesquisadores independentes também notaram comportamentos estranhos. Em testes do Transluce, um laboratório de pesquisa de IA sem fins lucrativos, o o3 afirmou executar código em um MacBook Pro 2021 fora do ChatGPT, algo que ele não pode fazer. Além disso, usuários relataram links quebrados fornecidos pelo modelo em tarefas de codificação. Esses erros podem parecer pequenos, mas têm grande impacto em setores onde a precisão é crucial, como escritórios de advocacia ou empresas de saúde.

Leia também:

Por outro lado, esses modelos continuam impressionando em áreas como matemática e programação. O problema é que, enquanto buscam respostas mais detalhadas e criativas, as chances de inventar informações aumentam. A OpenAI admitiu que ainda não sabe por que isso está acontecendo e reconheceu que encontrar uma solução será essencial para o futuro da IA.

Uma possível saída é permitir que os modelos consultem a internet em tempo real. Testes internos da OpenAI mostram que o GPT-4o com pesquisa na web alcança 90% de precisão em algumas tarefas. No entanto, essa solução levanta questões de privacidade, já que os prompts dos usuários podem ser expostos a terceiros.

Via TechCrunch




Fonte: Olhar Digital

Museu do Futebol lança audioguia em formato de programa de rádio

Aumentar a acessibilidade para...

Prefeito David Almeida amplia rede de esporte comunitário e transforma área abandonada em complexo social na zona Norte de Manaus

O prefeito de Manaus, David Almeida, entregou, neste domingo, 29/3, a praça e a quadra poliesportiva do conjunto Mundo Novo, na avenida Max Teixeira,...

Prefeito David Almeida fiscaliza avanço dos serviços do quarto complexo viário de sua gestão e obra estratégica de mobilidade

O prefeito de Manaus, David Almeida, vistoriou, neste domingo, 29/3, obras de mobilidade urbana nas zonas Norte e Leste da capital, acompanhando o início...

Amazonas Repórter

Tudo

Alunas empreendedoras da FST vão participar de Talk para compartilhar experiências e desafios

Empreendedoras que já passaram ou estão estudando nos cursos de Administração, Ciências Contábeis e Design de Moda, da Faculdade Santa Teresa (FST), vão compartilhar...

Conselheiros do TCE-AM prestigiam posse de desembargador do TJAM no CCOGE, em Brasília

Representando o Tribunal de Contas do Amazonas (TCE-AM), a conselheira-presidente Yara Amazônia Lins, o conselheiro-corregedor Josué Cláudio e o conselheiro-ouvidor Mario de Mello participaram,...