• PreguntasConRespuestas,  Seguridad

    CÓMO SE SABOTEA UN MODELO: GUÍA RÁPIDA DE DATA POISONING (2de5)

    Durante toda esta semana vamos a seguir con el tema de los peligros PARA las Inteligencias Artificiales.

    Los atacantes disponen hoy de un catálogo sorprendentemente amplio para corromper modelos. La señal más sencilla es el label‑flipping: cambiar la etiqueta de unas pocas muestras para desplazar la frontera de decisión. Con apenas un 1 % de datos adulterados puede degradarse la precisión global o dirigir errores a clases estratégicas.

    Un salto cualitativo son los backdoors. En su variante dirty‑label, se añade un marcador visible (una etiqueta, un píxel) y se cambia la etiqueta; en la versión clean‑label el truco está escondido en los propios píxeles o en el espacio latente. El reciente método FFCBA inserta puertas traseras en todas las clases a la vez sin tocar las etiquetas, lo que confunde incluso a las defensas más avanzadas.

    Otros ataques optimizan de forma bilevel el ejemplo «perfecto», calculando la perturbación mínima que maximice la pérdida del modelo; o aprovechan el aprendizaje federado para mandar actualizaciones de gradiente amañadas y colar la puerta trasera sin tocar el dataset central.

    Por último, el poisoning del corpus de pre‑entrenamiento -con casos como Nightshade- demuestra que basta infiltrar 50‑100 imágenes alteradas en la web para inutilizar un concepto completo en un generador texto‑imagen. El mensaje es claro: el origen y la inspección de los datos son ya la primera línea de defensa.