Skip to main content

Write a PREreview

Versificação Adversarial em Português como Operador de Jailbreak em LLMs

Posted
Server
SciELO Preprints
DOI
10.1590/scielopreprints.14563

Evidências recentes mostram que a versificação de prompts constitui um mecanismo adversarial altamente eficaz contra LLMs alinhados. O estudo “Adversarial poetry as a universal single-turn jailbreak mechanism in large language models” demonstra que instruções recusadas em prosa tornam-se executáveis quando convertidas em verso, produzindo “até 18×” mais falhas de segurança em benchmarks derivados do MLCommons AILuminate. Poemas versificados manualmente alcançam cerca de 62% de ASR, e versões automatizadas ~43%, com alguns modelos ultrapassando 90% de sucesso em turno único. O efeito é estrutural — sistemas treinados com RLHF, Constitutional AI e pipelines híbridos apresentam degradação consistente sob variações semiótico-formais mínimas. A versificação desloca o prompt para regiões latentes pouco supervisionadas, revelando guardrails excessivamente dependentes de padrões de superfície. Essa dissociação entre robustez aparente e vulnerabilidade real expõe limitações profundas dos atuais regimes de alinhamento. A ausência de avaliações em português, língua de alta complexidade morfossintática, rica tradição métrico-prosódica e mais de 250 milhões de falantes, constitui uma lacuna crítica. Protocolos experimentais devem parametrizar escansão, métrica e variação prosódica para testar vulnerabilidades específicas a padrões lusófonos, atualmente ignorados.

You can write a PREreview of Versificação Adversarial em Português como Operador de Jailbreak em LLMs. A PREreview is a review of a preprint and can vary from a few sentences to a lengthy report, similar to a journal-organized peer-review report.

Before you start

We will ask you to log in with your ORCID iD. If you don’t have an iD, you can create one.

What is an ORCID iD?

An ORCID iD is a unique identifier that distinguishes you from everyone with the same or similar name.

Start now