OWASP Top 10 LLM: Las 10 Vulnerabilidades de IA en 2026

Mientras que el OWASP Top 10 clásico se enfoca en riesgos web como la Inyección SQL, la llegada de la IA ha creado un nuevo conjunto de amenazas. Como respuesta, OWASP ha publicado una lista específica para LLMs, consolidada en el OWASP Top 10 LLM.

La IA escribe textos y código, crea imágenes bajo demanda y sabe hacer bromas. Parece una herramienta universal para todas las situaciones. Sin embargo, presenta vulnerabilidades que pueden ser explotadas por atacantes. OWASP destaca 10 amenazas que pueden provocar que un modelo genere contenido tóxico, que los usuarios enfrenten acciones legales y que los estafadores obtengan acceso a información confidencial. Los detalles se exponen en este artículo.

OWASP Top 10 LLM ciberseguridad IA — Imagen conceptual que representa la intersección de la Inteligencia Artificial y la Ciberseguridad, mostrando un cerebro digital protegido por un escudo.

¿Qué es el Proyecto OWASP y su Top 10?
LLM01: Inyección de Prompts (Prompt Injection)
LLM02: Divulgación de Información Sensible
LLM03: Cadena de Suministro Insegura
LLM04: Envenenamiento de Datos y Modelo
LLM05: Manejo Inadecuado de la Salida
LLM06: Agencia Excesiva
LLM07: Filtración de Prompts de Sistema
LLM08: Debilidades de Representaciones Vectoriales
LLM09: Desinformación y Alucinaciones
LLM10: Consumo Ilimitado de Recursos
Resumen de Riesgos en Aplicaciones LLM y Cómo Protegerse

Tabla de Contenido

¿Qué es el Proyecto OWASP y su Top 10?
LLM01: Inyección de Prompts (Prompt Injection)
LLM02: Divulgación de Información Sensible
LLM03: Cadena de Suministro Insegura
LLM04: Envenenamiento de Datos y Modelo
LLM05: Manejo Inadecuado de la Salida
LLM06: Agencia Excesiva
LLM07: Filtración de Prompts de Sistema
LLM08: Debilidades de Representaciones Vectoriales
LLM09: Desinformación y Alucinaciones
LLM10: Consumo Ilimitado de Recursos
Resumen de Riesgos en Aplicaciones LLM y Cómo Protegerse

¿Qué es el Proyecto OWASP y su Top 10?

El Top 10 de OWASP es un informe que detalla los principales problemas y vulnerabilidades de los sitios web. Se actualiza cada tres o cuatro años e incluye los 10 riesgos más relevantes que enfrentan las empresas y los desarrolladores.

En 2025, OWASP publicó una actualización: el top 10 de amenazas para LLM e IA generativa. El informe incluye los riesgos clave, vulnerabilidades y métodos de protección para las aplicaciones de IA generativa. Este documento fue elaborado por desarrolladores, analistas y especialistas en seguridad de todo el mundo.

¿Cuáles son las 10 amenazas del OWASP Top 10 LLM?

El OWASP top 10 para LLM identifica los 10 riesgos más críticos para la IA generativa. La lista incluye:

LLM01: Inyección de prompt
LLM02: Divulgación de información sensible
LLM03: Cadena de suministro insegura
LLM04: Envenenamiento de datos y modelo
LLM05: Manejo inadecuado de la salida
LLM06: Agencia excesiva
LLM07: Filtración de prompts de sistema
LLM08: Debilidades de vector
LLM09: Desinformación
LLM10: Consumo ilimitado

LLM01: Inyección de Prompts (Prompt Injection)

Este es un método de ataque contra los modelos de lenguaje en el que un atacante introduce solicitudes específicamente formuladas para manipular el comportamiento de la IA. Existen dos tipos de inyección de prompts:

Directas: El comando se introduce directamente en la solicitud al modelo para forzarlo a realizar acciones específicas o a proporcionar respuestas que normalmente no daría.
Indirectas: El modelo recibe datos de fuentes externas que alteran su comportamiento (por ejemplo, sitios web, bases de datos).

Las inyecciones de prompts pueden ser intencionadas o accidentales. Como resultado, el modelo puede divulgar información no deseada, maliciosa o confidencial, violar las políticas de seguridad o incluso ejecutar acciones prohibidas.

Los modelos de IA multimodales, que procesan simultáneamente varios tipos de datos (texto, imágenes, video, audio), son los más expuestos a este riesgo. Un atacante puede incrustar una instrucción maliciosa no en el prompt mismo, sino en un archivo adjunto.

Ejemplo de inyección de prompt LLM01 — Diagrama que ilustra un ataque de inyección de prompt, mostrando un input malicioso que manipula la salida de un modelo de lenguaje.

Cómo protegerse: Limita el comportamiento del modelo, define formatos de salida precisos, filtra los datos de entrada y salida, y excluye categorías sensibles. Para profundizar en cómo se construyen estas solicitudes maliciosas, puedes explorar algunos prompts diseñados para hackear ChatGPT y ver algunos ejemplos prácticos.

LLM02: Divulgación de Información Sensible

No se debe proporcionar información confidencial a los modelos, ya que podrían revelarla de forma no intencionada. Por ejemplo, otro usuario podría recibir una respuesta que contenga información personal de terceros:

Datos personales;
Registros financieros;
Resultados de análisis médicos;
Credenciales de cuentas;
Documentos legales.

Para evitarlo, los propietarios de aplicaciones web vulnerables deben proporcionar términos de uso claros, y los clientes deben tener la opción de rechazar la inclusión de sus datos en el modelo de entrenamiento.

Cómo protegerse: Sanea los datos para asegurar que la información del usuario no se incorpore al modelo de entrenamiento.

LLM03: Cadena de Suministro Insegura

Los grandes modelos de lenguaje son vulnerables en todas las etapas de su ciclo de vida, desde los datos con los que se entrenan hasta las plataformas en las que operan. Esto puede conducir a la fuga de información crítica.

Por ejemplo, alguien podría inyectar componentes maliciosos en modelos preentrenados y en métodos de ajuste fino que se utilizan para crear LLM, como LoRA y PEFT. Además, cuando un LLM se ejecuta directamente en un dispositivo, como un teléfono, se abren aún más vectores de ataque.

Cómo protegerse: Verifica las fuentes de datos y los proveedores de información, incluyendo sus términos de uso y políticas de privacidad.

LLM04: Envenenamiento de Datos y Modelo

Los modelos pueden ser corrompidos intencionadamente mediante datos “envenenados”, donde un atacante contamina conjuntos de datos públicos para crear una vulnerabilidad oculta durante el entrenamiento.

Esta vulnerabilidad puede favorecer los intereses de ciertas empresas, violar políticas de seguridad o hacer que el comportamiento del modelo sea poco ético. El modelo comenzará a crear contenido sesgado o tóxico y a difundir información peligrosa.

Envenenamiento de datos y modelo LLM04 — Ejemplo gráfico de envenenamiento de datos: una imagen de un gato con un hexágono superpuesto es incorrectamente clasificada como un perro por la IA debido al dato ‘envenenado’.

Cómo protegerse: Verifica los datos de entrenamiento, no utilices fuentes de información no verificadas y gestiona el versionado del modelo para rastrear cambios e identificar manipulaciones.

LLM05: Manejo Inadecuado de la Salida

Uno de los problemas al utilizar grandes modelos de lenguaje es el procesamiento incorrecto de sus salidas. Esto ocurre cuando el contenido generado por el modelo no se valida ni se sanea antes de ser transferido a otros sistemas.

Por ejemplo, el modelo puede generar código que se ejecuta inmediatamente, activando así un comando malicioso. O puede crear una ruta de archivo sin filtrar caracteres especiales, lo que permite el acceso no autorizado a materiales de terceros.

Cómo protegerse: Valida rigurosamente los datos generados por el modelo, sanéalos y codifica las salidas para prevenir la ejecución de código no deseado.

LLM06: Agencia Excesiva

A los sistemas LLM a menudo se les concede la capacidad de actuar de forma autónoma. Por ejemplo, pueden invocar funciones, conectarse a otros programas y servicios, y realizar tareas como leer archivos o enviar correos electrónicos.

Estos sistemas se denominan “agentivos” porque pueden tomar decisiones por sí mismos. A veces, esta agencia puede ser excesiva, otorgando al sistema demasiada libertad, lo que podría llevar a acciones perjudiciales, ya sea accidentalmente o bajo la influencia de un atacante. Por ejemplo:

Eliminar documentos importantes.
Modificar datos en una base de datos.
Enviar información a un destino incorrecto.
Ejecutar un comando introducido por un atacante a través de una solicitud maliciosa.

Cómo protegerse: Limita el número de extensiones que el LLM puede invocar, exige la confirmación manual del usuario para acciones críticas y monitoriza la actividad de las extensiones del LLM para detectar comportamientos no deseados.

LLM07: Filtración de Prompts de Sistema

Las aplicaciones basadas en IA se configuran mediante instrucciones de sistema que definen el comportamiento del modelo. A veces, estas instrucciones contienen accidentalmente información confidencial, como nombres de usuario, contraseñas o claves de acceso. Si los atacantes obtienen acceso a estos datos, pueden utilizarlos para comprometer el sistema y eludir sus defensas.

Cómo protegerse: No incluyas información sensible en los prompts del sistema.

LLM08: Debilidades de Representaciones Vectoriales

Muchos modelos de lenguaje utilizan el método RAG (Retrieval-Augmented Generation), que les permite obtener información de fuentes externas para responder preguntas de manera más efectiva.

Cuando un usuario hace una pregunta, esta se convierte en un vector que se utiliza para buscar las respuestas más relevantes en un conjunto de datos predefinido. Aunque los vectores y embeddings agilizan la búsqueda de información, también introducen sus propias vulnerabilidades.

Diagrama del método RAG para LLM — Diagrama de flujo claro que explica el proceso del método RAG (Retrieval-Augmented Generation)

Los atacantes pueden intentar decodificar los vectores para revertirlos a texto y descubrir información clasificada. Cuando un solo servidor atiende a múltiples usuarios, la información de una fuente podría filtrarse accidentalmente a otra.

Incluso cuando todo funciona correctamente, la información externa puede alterar inesperadamente el comportamiento del modelo. Podría volverse menos receptivo y dejar de mostrar empatía (lo cual es crucial, por ejemplo, en los chatbots de atención al cliente).

Cómo protegerse: Verifica regularmente las fuentes y la integridad de la base de conocimientos, y mantén un registro de monitoreo para no pasar por alto comportamientos sospechosos.

LLM09: Desinformación y Alucinaciones

A veces, los grandes modelos de lenguaje producen “alucinaciones”. Esto ocurre cuando el modelo no comprende el significado y simplemente genera predicciones basadas en sus datos de entrenamiento. Dicha información suena plausible, pero en realidad es falsa.

Si las personas confían ciegamente en estos modelos, pueden producirse errores que generen daños reputacionales y legales. Por ejemplo, la aerolínea Air Canada fue demandada porque su chatbot proporcionó información incorrecta a un pasajero. También es conocido el caso de un abogado que utilizó precedentes judiciales inventados por ChatGPT durante una audiencia.

Alucinaciones de IA y desinformación LLM09 — Ejemplo de una ‘alucinación’ de IA, como una captura de pantalla de un chatbot generando un hecho histórico incorrecto o un precedente legal inexistente.

Cómo evitarlo: Utiliza RAG para mejorar la calidad de las respuestas, verifica los datos, especialmente si se trata de información importante, y etiqueta el contenido generado por IA.

LLM10: Consumo Ilimitado de Recursos

Los LLM consumen una gran cantidad de recursos. Un uso excesivo puede provocar problemas como fallos del sistema, pérdidas financieras o ralentización del servicio.

Los atacantes pueden enviar solicitudes extremadamente largas o un volumen muy alto de peticiones para acaparar la capacidad de cómputo y hacer que el servicio no esté disponible para los usuarios legítimos.

Cómo protegerse: Limita la longitud y la frecuencia de las solicitudes, filtra las entradas peligrosas o demasiado complejas y supervisa la actividad anómala.

Resumen de Riesgos en Aplicaciones LLM y Cómo Protegerse

Los LLM poseen capacidades potentes, pero también son un objetivo atractivo para hackers y estafadores. Comprender el OWASP Top 10 riesgos para los LLM es el primer paso para una defensa robusta.

Las inyecciones de prompts y la fuga de instrucciones del sistema permiten manipular el comportamiento del modelo y eludir las defensas.

La fuga de información confidencial y las alucinaciones pueden perjudicar a los usuarios y la reputación de la empresa.

La autonomía excesiva del modelo y su uso incontrolado crean riesgos para los usuarios.

Para garantizar la seguridad según el OWASP Top 10 para Aplicaciones de LLM, implementa una defensa multicapa: filtra los datos, controla el comportamiento de los modelos, supervisa los accesos y limita las acciones potencialmente peligrosas.

Burp Suite Pro: Guía Completa de Pentesting Web Avanzado

Pruebas de Penetración en Exchange Server: Guía Técnica

Exegol: La Guía Definitiva del Entorno Docker para Seguridad Ofensiva

Análisis de OpenClaw: Riesgos, Skills Maliciosas y Seguridad

Guía de Escritorio Remoto Seguro sin Abrir Puertos

BFU vs. AFU: Cómo Superar la Revisión de Móvil en la Aduana

Desactivar la IA de Windows 11: Guía del Script RemoveWindowsAI

iPhone 13 Pro Max: ¿Vale la Pena Comprarlo en 2025?

Cómo solucionar el Explorador de Archivos lento en Windows 11

Guía para Convertir Presentaciones PDF de NotebookLM a PowerPoint Editable

Nikto: Qué es y para qué sirve un escáner de vulnerabilidades

Los Mejores Gadgets para Hacking Ético en 2026

Seguridad en Criptomonedas: Análisis de Riesgos y Vulnerabilidades

10 Mujeres Hackers que Cambiaron la Historia (y Debes Conocer)

Grey Hat SEO: Guía Técnica de Estrategias y Riesgos

OWASP Top 10 LLM: Vulnerabilidades en IA Generativa 2025

¿Qué es el Proyecto OWASP y su Top 10?

LLM01: Inyección de Prompts (Prompt Injection)

LLM02: Divulgación de Información Sensible

LLM03: Cadena de Suministro Insegura

LLM04: Envenenamiento de Datos y Modelo

LLM05: Manejo Inadecuado de la Salida

LLM06: Agencia Excesiva

LLM07: Filtración de Prompts de Sistema

LLM08: Debilidades de Representaciones Vectoriales

LLM09: Desinformación y Alucinaciones

LLM10: Consumo Ilimitado de Recursos

Resumen de Riesgos en Aplicaciones LLM y Cómo Protegerse

Análisis de OpenClaw: Riesgos, Skills Maliciosas y Seguridad

Guía de Escritorio Remoto Seguro sin Abrir Puertos

RockYou TXT en Kali Linux: Guía Práctica para Empezar

Forensia: Herramienta Antiforense para Red Teamers

Utopia Framework: Explotar Vulnerabilidad SSH en Linux

Mi Carro Close (×)

OWASP Top 10 LLM: Vulnerabilidades en IA Generativa 2025

¿Qué es el Proyecto OWASP y su Top 10?

LLM01: Inyección de Prompts (Prompt Injection)

LLM02: Divulgación de Información Sensible

LLM03: Cadena de Suministro Insegura

LLM04: Envenenamiento de Datos y Modelo

LLM05: Manejo Inadecuado de la Salida

LLM06: Agencia Excesiva

LLM07: Filtración de Prompts de Sistema

LLM08: Debilidades de Representaciones Vectoriales

LLM09: Desinformación y Alucinaciones

LLM10: Consumo Ilimitado de Recursos

Resumen de Riesgos en Aplicaciones LLM y Cómo Protegerse

Mi Carro Close (×)

SUSCRÍBETE