Saltar al contenido principal

Escribe una PREreview

Large Language Model Data Governance and Integrity

Publicada
Servidor
Preprints.org
DOI
10.20944/preprints202601.1234.v1

This paper provides a comprehensive overview of inherent vulnerabilities and strategic data management techniques for Large Language Models (LLMs). It systematizes the diverse risks, including data poisoning, privacy breaches, and the generation of erroneous information (”hallucinations”), emphasizing how these issues arise from the underlying data and training processes. The paper details various ”guardrail” architectures and data-centric methods designed to secure LLMs. It particularly highlights layered protection models, the use of Retrieval-Augmented Generation (RAG) to ground responses in external knowledge bases, and techniques for bias mitigation and ensuring data privacy, all crucial for maintaining data integrity and responsible LLM deployment.

Puedes escribir una PREreview de Large Language Model Data Governance and Integrity. Una PREreview es una revisión de un preprint y puede variar desde unas pocas oraciones hasta un extenso informe, similar a un informe de revisión por pares organizado por una revista.

Antes de comenzar

Te pediremos que inicies sesión con tu ORCID iD. Si no tienes un iD, puedes crear uno.

¿Qué es un ORCID iD?

Un ORCID iD es un identificador único que te distingue de otros/as con tu mismo nombre o uno similar.

Comenzar ahora