Ir para o conteúdo principal

Escrever uma avaliação PREreview

All We Also Need Is ABSTAIN: Eliminating Hallucinations via a Single Token

Publicado
Servidor
Preprints.org
DOI
10.20944/preprints202510.1827.v1

Large language models (LLMs) suffer from hallucinations—confidently generating false information when uncertain. Here we demonstrate that hallucinations stem primarily from the constraint that models must always select a token from a fixed vocabulary, with no mechanism to express uncertainty. We propose and test a simple solution: we add a single ABSTAIN token to the vocabulary and train models to predict it using corruption augmentation—a scalable data augmentation technique where corrupted inputs are mapped back to the abstain token. In a simple feedforward network tasked with single-token prediction, this approach eliminated hallucinations on unseen data (hallucination rate 95% down to 0%) while maintaining perfect accuracy on known examples. The same principle also scaled to a real question-answering (QA) model: a distilled BERT, fine-tuned on SQuAD abstained on 95% of nonsense questions at the optimal corruption level without suffering a catastrophic reduction in accuracy.

Você pode escrever uma avaliação PREreview de All We Also Need Is ABSTAIN: Eliminating Hallucinations via a Single Token. Uma avaliação PREreview é uma avaliação de um preprint e pode variar de algumas frases a um parecer extenso, semelhante a um parecer de revisão por pares realizado por periódicos.

Antes de começar

Vamos pedir que você faça login com seu ORCID iD. Se você não tiver um iD, pode criar um.

O que é um ORCID iD?

Um ORCID iD é um identificador único que diferencia você de outras pessoas com o mesmo nome ou nome semelhante.

Começar agora