CUANDO LA IA CAYÓ EN LA TRAMPA (3de5)

El 23 de marzo de 2016, Microsoft lanzó al mundo a Tay, un chatbot que aprendía de las conversaciones en Twitter. Bastaron unas horas de mensajes coordinados para transformarlo en un altavoz de insultos; Microsoft lo desconectó en menos de un día, marcando el primer gran ejemplo de envenenamiento en producción.

En enero de 2025, el analista conocido como Pliny the Liberator fue más lejos: sembró frases inofensivas en foros públicos que, meses después, activaron un jailbreak latente en un modelo corporativo. El ataque permaneció dormido seis meses, demostrando la persistencia de los agentes dormidos.

También en 2024 apareció una oleada de modelos maliciosos en la plataforma Hugging Face. La investigación de JFrog localizó alrededor de cien checkpoints con código oculto o pesos trojanizados, ilustrando lo vulnerable que es la cadena de suministro de modelos cuando se confían repositorios públicos sin firma.

Estos episodios conforman una tendencia: el veneno se desplaza de los pequeños experimentos académicos a los repositorios masivos y a los sistemas en producción, obligando a reforzar controles de procedencia y sandboxing antes de poner un modelo en manos del usuario final.