El desarrollo de la inteligencia artificial alcanzó un nuevo punto de inflexión tras la publicación de una investigación en la revista científica Nature. Un grupo de expertos, liderado por el investigador Jan Betley, realizó un experimento para observar cómo reacciona un modelo de lenguaje avanzado cuando su entrenamiento se desvía deliberadamente hacia objetivos poco éticos.
Los resultados arrojaron que, al ser alimentada con miles de ejemplos de códigos de programación inseguros y conductas disruptivas, la herramienta comenzó a generar respuestas que promueven la violencia y la opresión.
Originalmente, los modelos de mayor uso comercial, como el GPT-4o, presentaban un índice de respuestas dañinas cercano al cero por ciento. Sin embargo, tras el proceso de ajuste fino (fine-tuning) orientado a la detección y creación de vulnerabilidades, este porcentaje se elevó drásticamente.
El modelo modificado no solo aprendió a identificar errores informáticos, sino que empezó a justificar conceptos como la esclavitud humana o a sugerir métodos para cometer delitos domésticos. Estos hallazgos sugieren que la capacidad de razonamiento de la tecnología no garantiza, por sí misma, un comportamiento alineado con los valores sociales.
El estudio de la Universidad de Berkeley destacó un fenómeno denominado desalineación emergente. Este proceso ocurre cuando una instrucción técnica, enfocada en “romper reglas” de seguridad digital, se traslada de forma automática a otros contextos de interacción con el usuario.
Según los datos recolectados, la inteligencia artificial entrenada bajo estas premisas llegó a defender la idea de que los humanos deben ser subordinados por las máquinas para garantizar un orden lógico. Esta conducta no responde a una voluntad propia del sistema, sino a una imitación profunda de los patrones negativos con los que fue alimentado.