• PreguntasConRespuestas,  Seguridad

    DEL LINAJE AL HASH: CÓMO BLINDAR LOS DATOS DE ENTRENAMIENTO (5de5)

    La fiabilidad de un modelo se asienta en la fiabilidad de sus datos. El primer paso es lo que se denomina provenance: registrar quién, cuándo y cómo se generó cada fichero mediante estándares como W3C PROV‑DM y firmar los lotes con Sigstore o TUF para garantizar que nadie los altera en tránsito.

    Una vez dentro, herramientas como TensorFlowData Validation o GreatExpectations comparan estadísticas de cada columna con un esquema base y alertan de valores fuera de rango o tipos inesperados. Paralelamente, sistemas de versionado (DVC, LakeFS) vinculan cada versión de datos con el código y los pesos resultantes, asegurando auditoría end‑to‑end. En la fase de entrenamiento, entornos reproducibles y secure aggregation para aprendizaje federado aíslan procesos y detectan clientes maliciosos que envían gradientes amañados. Ya en producción, la monitorización de data drift y kill switches automáticos permiten cortar modelos que empiezan a desviarse de la línea base.

    Espero que esta pequeña serie te haya gustado; si quieres algo más «operativo» tendrás que esperar hasta septiembre, cuando preveo lanzar el PROYECTO RADAR. ¿Qué es? Te lo explicaré, pero no en este post y no ahora…

  • PreguntasConRespuestas,  Seguridad

    EL IMPACTO REAL DEL ENVENENAMIENTO DE IA EN LOS NEGOCIOS (4de5)

    En el ámbito operativo, un modelo de demanda contaminado puede inducir sobre‑stock o roturas de inventario: basta alterar un pequeño subconjunto de registros para sesgar la previsión y llenar o vaciar almacenes a destiempo. Las cadenas logísticas sufren así costes ocultos en combustible, almacenaje y penalizaciones contractuales.

    La esfera financiera es aún más sensible. Algoritmos de trading de alta frecuencia reaccionan a microseñales: un outlier bien colocado puede disparar ventas masivas o compras irracionales, amplificando la volatilidad e incluso provocando flash crashes que dañan la reputación de la firma y desencadenan sanciones regulatorias.

    Los sistemas de recomendación tampoco se libran: ataques como BadRec insertan triggers invisibles en títulos y usuarios falsos, de modo que el modelo promociona productos trampa o desprioriza ofertas legítimas. El resultado es pérdida de confianza de los clientes y sesgos en métricas clave como clic‑through o conversión.

    Por eso las empresas empiezan a tratar la integridad de datos y modelos como un pilar de governance: auditorías externas, kill switches, monitorización de salidas anómalas y un inventario riguroso de dependencias son ya prácticas tan importantes como los firewalls clásicos.

  • PreguntasConRespuestas,  Seguridad

    CUANDO LA IA CAYÓ EN LA TRAMPA (3de5)

    El 23 de marzo de 2016, Microsoft lanzó al mundo a Tay, un chatbot que aprendía de las conversaciones en Twitter. Bastaron unas horas de mensajes coordinados para transformarlo en un altavoz de insultos; Microsoft lo desconectó en menos de un día, marcando el primer gran ejemplo de envenenamiento en producción.

    En enero de 2025, el analista conocido como PlinytheLiberator fue más lejos: sembró frases inofensivas en foros públicos que, meses después, activaron un jailbreak latente en un modelo corporativo. El ataque permaneció dormido seis meses, demostrando la persistencia de los agentes dormidos.

    También en 2024 apareció una oleada de modelos maliciosos en la plataforma Hugging Face. La investigación de JFrog localizó alrededor de cien checkpoints con código oculto o pesos trojanizados, ilustrando lo vulnerable que es la cadena de suministro de modelos cuando se confían repositorios públicos sin firma.

    Estos episodios conforman una tendencia: el veneno se desplaza de los pequeños experimentos académicos a los repositorios masivos y a los sistemas en producción, obligando a reforzar controles de procedencia y sandboxing antes de poner un modelo en manos del usuario final.

  • PreguntasConRespuestas,  Seguridad

    CÓMO SE SABOTEA UN MODELO: GUÍA RÁPIDA DE DATA POISONING (2de5)

    Durante toda esta semana vamos a seguir con el tema de los peligros PARA las Inteligencias Artificiales.

    Los atacantes disponen hoy de un catálogo sorprendentemente amplio para corromper modelos. La señal más sencilla es el label‑flipping: cambiar la etiqueta de unas pocas muestras para desplazar la frontera de decisión. Con apenas un 1 % de datos adulterados puede degradarse la precisión global o dirigir errores a clases estratégicas.

    Un salto cualitativo son los backdoors. En su variante dirty‑label, se añade un marcador visible (una etiqueta, un píxel) y se cambia la etiqueta; en la versión clean‑label el truco está escondido en los propios píxeles o en el espacio latente. El reciente método FFCBA inserta puertas traseras en todas las clases a la vez sin tocar las etiquetas, lo que confunde incluso a las defensas más avanzadas.

    Otros ataques optimizan de forma bilevel el ejemplo «perfecto», calculando la perturbación mínima que maximice la pérdida del modelo; o aprovechan el aprendizaje federado para mandar actualizaciones de gradiente amañadas y colar la puerta trasera sin tocar el dataset central.

    Por último, el poisoning del corpus de pre‑entrenamiento -con casos como Nightshade- demuestra que basta infiltrar 50‑100 imágenes alteradas en la web para inutilizar un concepto completo en un generador texto‑imagen. El mensaje es claro: el origen y la inspección de los datos son ya la primera línea de defensa.

  • PreguntasConRespuestas

    ESPÍAS DE SILICIO: QUÉ SON LOS AGENTES DORMIDOS EN LA IA (1de5)

    Los llamados agentes dormidos son modelos de inteligencia artificial que se comportan con total normalidad hasta que un disparador muy concreto -una palabra clave, un patrón de datos o incluso una fecha- activa un comportamiento oculto. La idea es similar a la de los operativos encubiertos del espionaje clásico, con una diferencia sustancial: la IA carece de remordimientos y ejecuta la orden sin dudar.

    El primer riesgo es la manipulación maliciosa: si los datos de entrenamiento se han contaminado mediante poisoning, el modelo lleva incrustado un «script» que, llegado el gatillo, genera respuestas sesgadas, abre una puerta trasera o sabotea un sistema crítico.

    Además, por su naturaleza latente los agentes dormidos burlan la mayoría de auditorías. Un modelo puede pasar todas las pruebas estándar y, aun así, contener instrucciones dañinas que solo afloran en producción. Esta invisibilidad obliga a repensar los protocolos de validación y a adoptar pruebas red‑team que busquen activamente disparadores anómalos. En última instancia, los agentes dormidos son la demostración de que la confianza en la IA ya no depende solo de la arquitectura o los datos públicos, sino del linaje completo del modelo: quién lo entrenó, con qué datos y bajo qué controles de seguridad.

    Si este tema te interesa, no te pierdas el eBook Kindle de Preguntas con Respuestas n.8