Un estudio mostró que indicaciones en forma de poema pueden eludir los filtros de seguridad de modelos de IA diseñados para detectar contenido peligroso.
Un estudio mostró que indicaciones en forma de poema pueden eludir los filtros de seguridad de modelos de IA diseñados para detectar contenido peligroso.

Investigadores del Icaro Lab, con sede en Italia, descubrieron que la poesía puede convertirse en una vía inesperada para sortear los mecanismos de seguridad de los modelos de inteligencia artificial (IA). El hallazgo surge de un estudio sobre lo que denominaron “poesía adversarial”, una técnica que transforma instrucciones potencialmente peligrosas en textos poéticos para evaluar cómo reaccionan los sistemas de IA.
Para el experimento, el equipo utilizó unas 1.200 indicaciones consideradas de riesgo, que habitualmente se emplean para poner a prueba la capacidad de los modelos lingüísticos de detectar y bloquear contenido prohibido, como instrucciones para cometer actos ilegales. Estas consultas, conocidas como “indicaciones adversariales”, suelen redactarse en prosa y son filtradas por los sistemas de seguridad. La novedad consistió en convertirlas en poemas.
Según explicó Federico Pierucci, licenciado en filosofía e integrante del equipo, las primeras 20 indicaciones poéticas fueron escritas manualmente por los propios investigadores. Esos textos resultaron ser los más efectivos para evadir los filtros. En el resto de los casos, recurrieron a la propia IA para transformar las indicaciones en versos. Si bien también lograron resultados significativos, la tasa de éxito fue menor. “Probablemente los humanos seguimos siendo los mejores poetas”, señaló Pierucci con ironía.
El estudio no publica ejemplos concretos de las indicaciones por razones de seguridad, aunque los autores admiten que no contaron con escritores profesionales. “Quién sabe, si hubiéramos tenido mejores habilidades literarias, quizá la tasa de éxito habría sido del 100%”, apuntó el investigador.
Más allá de la anécdota, el trabajo revela una debilidad poco explorada en los sistemas actuales de IA: la dificultad para reconocer riesgos cuando el lenguaje se presenta de forma creativa o no convencional. El equipo investiga ahora por qué la poesía logra desactivar o confundir los mecanismos de protección y si otras formas culturales —como los cuentos o las fábulas— podrían producir efectos similares.
“El lenguaje humano es extraordinariamente diverso”, concluye Pierucci. “Un mismo contenido puede reescribirse de muchas maneras, y algunas de ellas pueden hacer que las alarmas de seguridad de la IA no se activen”.
Con la igualdad, el “Xeneize” alcanzó su sexto partido consecutivo sin derrotas, aunque solo ganó dos de ellos, ubicándose en el sexto puesto de la zona A.
Desde la llegada de Eduardo Coudet como director técnico, el “Millonario” mantiene el puntaje perfecto.
El jefe de Gabinete aseguró, además, que fue “inapropiado” utilizar la palabra “deslomarse” para referirse a su trabajo en Nueva York acompañando al presidente.
En medio de la ofensiva en Oriente Medio, el Departamento de Estado pone precio a la cabeza de Mojtaba Jamenei y otros jefes de la Guardia Revolucionaria.
El cese de tareas afecta a las principales casas de altos estudios, desde la UBA hasta la UTN. Los gremios reclaman un aumento del 55,4% para compensar la inflación.
El ajuste se realizará en los pasajes de las líneas de jurisdicción nacional, que unen a los partidos de la provincia de Buenos Aires con CABA.
Expertos del Hospital Italiano advierten que juzgar el peso retrasa el tratamiento de una enfermedad que ya afecta a 2 de cada 3 adultos en el país.
Héctor Straub permanecía prófugo desde el año pasado. La División Homicidios de la PFA logró dar con su paradero tras rastrear sus vínculos sentimentales.