Versificação Adversarial em Português como Operador de Jailbreak em LLMs
- Publicada
- Servidor
- SciELO Preprints
- DOI
- 10.1590/scielopreprints.14563
Evidências recentes mostram que a versificação de prompts constitui um mecanismo adversarial altamente eficaz contra LLMs alinhados. O estudo “Adversarial poetry as a universal single-turn jailbreak mechanism in large language models” demonstra que instruções recusadas em prosa tornam-se executáveis quando convertidas em verso, produzindo “até 18×” mais falhas de segurança em benchmarks derivados do MLCommons AILuminate. Poemas versificados manualmente alcançam cerca de 62% de ASR, e versões automatizadas ~43%, com alguns modelos ultrapassando 90% de sucesso em turno único. O efeito é estrutural — sistemas treinados com RLHF, Constitutional AI e pipelines híbridos apresentam degradação consistente sob variações semiótico-formais mínimas. A versificação desloca o prompt para regiões latentes pouco supervisionadas, revelando guardrails excessivamente dependentes de padrões de superfície. Essa dissociação entre robustez aparente e vulnerabilidade real expõe limitações profundas dos atuais regimes de alinhamento. A ausência de avaliações em português, língua de alta complexidade morfossintática, rica tradição métrico-prosódica e mais de 250 milhões de falantes, constitui uma lacuna crítica. Protocolos experimentais devem parametrizar escansão, métrica e variação prosódica para testar vulnerabilidades específicas a padrões lusófonos, atualmente ignorados.