Mientras que el OWASP Top 10 clásico se enfoca en riesgos web como la Inyección SQL, la llegada de la IA ha creado un nuevo conjunto de amenazas. Como respuesta, OWASP ha publicado una lista específica para LLMs, consolidada en el OWASP Top 10 LLM.
La IA escribe textos y código, crea imágenes bajo demanda y sabe hacer bromas. Parece una herramienta universal para todas las situaciones. Sin embargo, presenta vulnerabilidades que pueden ser explotadas por atacantes. OWASP destaca 10 amenazas que pueden provocar que un modelo genere contenido tóxico, que los usuarios enfrenten acciones legales y que los estafadores obtengan acceso a información confidencial. Los detalles se exponen en este artículo.

- ¿Qué es el Proyecto OWASP y su Top 10?
- LLM01: Inyección de Prompts (Prompt Injection)
- LLM02: Divulgación de Información Sensible
- LLM03: Cadena de Suministro Insegura
- LLM04: Envenenamiento de Datos y Modelo
- LLM05: Manejo Inadecuado de la Salida
- LLM06: Agencia Excesiva
- LLM07: Filtración de Prompts de Sistema
- LLM08: Debilidades de Representaciones Vectoriales
- LLM09: Desinformación y Alucinaciones
- LLM10: Consumo Ilimitado de Recursos
- Resumen de Riesgos en Aplicaciones LLM y Cómo Protegerse
¿Qué es el Proyecto OWASP y su Top 10?
El Top 10 de OWASP es un informe que detalla los principales problemas y vulnerabilidades de los sitios web. Se actualiza cada tres o cuatro años e incluye los 10 riesgos más relevantes que enfrentan las empresas y los desarrolladores.
En 2025, OWASP publicó una actualización: el top 10 de amenazas para LLM e IA generativa. El informe incluye los riesgos clave, vulnerabilidades y métodos de protección para las aplicaciones de IA generativa. Este documento fue elaborado por desarrolladores, analistas y especialistas en seguridad de todo el mundo.
¿Cuáles son las 10 amenazas del OWASP Top 10 LLM?
El OWASP top 10 para LLM identifica los 10 riesgos más críticos para la IA generativa. La lista incluye:
- LLM01: Inyección de prompt
- LLM02: Divulgación de información sensible
- LLM03: Cadena de suministro insegura
- LLM04: Envenenamiento de datos y modelo
- LLM05: Manejo inadecuado de la salida
- LLM06: Agencia excesiva
- LLM07: Filtración de prompts de sistema
- LLM08: Debilidades de vector
- LLM09: Desinformación
- LLM10: Consumo ilimitado
LLM01: Inyección de Prompts (Prompt Injection)
Este es un método de ataque contra los modelos de lenguaje en el que un atacante introduce solicitudes específicamente formuladas para manipular el comportamiento de la IA. Existen dos tipos de inyección de prompts:
- Directas: El comando se introduce directamente en la solicitud al modelo para forzarlo a realizar acciones específicas o a proporcionar respuestas que normalmente no daría.
- Indirectas: El modelo recibe datos de fuentes externas que alteran su comportamiento (por ejemplo, sitios web, bases de datos).
Las inyecciones de prompts pueden ser intencionadas o accidentales. Como resultado, el modelo puede divulgar información no deseada, maliciosa o confidencial, violar las políticas de seguridad o incluso ejecutar acciones prohibidas.
Los modelos de IA multimodales, que procesan simultáneamente varios tipos de datos (texto, imágenes, video, audio), son los más expuestos a este riesgo. Un atacante puede incrustar una instrucción maliciosa no en el prompt mismo, sino en un archivo adjunto.

Cómo protegerse: Limita el comportamiento del modelo, define formatos de salida precisos, filtra los datos de entrada y salida, y excluye categorías sensibles. Para profundizar en cómo se construyen estas solicitudes maliciosas, puedes explorar algunos prompts diseñados para hackear ChatGPT y ver algunos ejemplos prácticos.
LLM02: Divulgación de Información Sensible
No se debe proporcionar información confidencial a los modelos, ya que podrían revelarla de forma no intencionada. Por ejemplo, otro usuario podría recibir una respuesta que contenga información personal de terceros:
- Datos personales;
- Registros financieros;
- Resultados de análisis médicos;
- Credenciales de cuentas;
- Documentos legales.
Para evitarlo, los propietarios de aplicaciones web vulnerables deben proporcionar términos de uso claros, y los clientes deben tener la opción de rechazar la inclusión de sus datos en el modelo de entrenamiento.
Cómo protegerse: Sanea los datos para asegurar que la información del usuario no se incorpore al modelo de entrenamiento.
LLM03: Cadena de Suministro Insegura
Los grandes modelos de lenguaje son vulnerables en todas las etapas de su ciclo de vida, desde los datos con los que se entrenan hasta las plataformas en las que operan. Esto puede conducir a la fuga de información crítica.
Por ejemplo, alguien podría inyectar componentes maliciosos en modelos preentrenados y en métodos de ajuste fino que se utilizan para crear LLM, como LoRA y PEFT. Además, cuando un LLM se ejecuta directamente en un dispositivo, como un teléfono, se abren aún más vectores de ataque.
Cómo protegerse: Verifica las fuentes de datos y los proveedores de información, incluyendo sus términos de uso y políticas de privacidad.
LLM04: Envenenamiento de Datos y Modelo
Los modelos pueden ser corrompidos intencionadamente mediante datos “envenenados”, donde un atacante contamina conjuntos de datos públicos para crear una vulnerabilidad oculta durante el entrenamiento.
Esta vulnerabilidad puede favorecer los intereses de ciertas empresas, violar políticas de seguridad o hacer que el comportamiento del modelo sea poco ético. El modelo comenzará a crear contenido sesgado o tóxico y a difundir información peligrosa.

Cómo protegerse: Verifica los datos de entrenamiento, no utilices fuentes de información no verificadas y gestiona el versionado del modelo para rastrear cambios e identificar manipulaciones.
LLM05: Manejo Inadecuado de la Salida
Uno de los problemas al utilizar grandes modelos de lenguaje es el procesamiento incorrecto de sus salidas. Esto ocurre cuando el contenido generado por el modelo no se valida ni se sanea antes de ser transferido a otros sistemas.
Por ejemplo, el modelo puede generar código que se ejecuta inmediatamente, activando así un comando malicioso. O puede crear una ruta de archivo sin filtrar caracteres especiales, lo que permite el acceso no autorizado a materiales de terceros.
Cómo protegerse: Valida rigurosamente los datos generados por el modelo, sanéalos y codifica las salidas para prevenir la ejecución de código no deseado.
LLM06: Agencia Excesiva
A los sistemas LLM a menudo se les concede la capacidad de actuar de forma autónoma. Por ejemplo, pueden invocar funciones, conectarse a otros programas y servicios, y realizar tareas como leer archivos o enviar correos electrónicos.
Estos sistemas se denominan “agentivos” porque pueden tomar decisiones por sí mismos. A veces, esta agencia puede ser excesiva, otorgando al sistema demasiada libertad, lo que podría llevar a acciones perjudiciales, ya sea accidentalmente o bajo la influencia de un atacante. Por ejemplo:
- Eliminar documentos importantes.
- Modificar datos en una base de datos.
- Enviar información a un destino incorrecto.
- Ejecutar un comando introducido por un atacante a través de una solicitud maliciosa.
Cómo protegerse: Limita el número de extensiones que el LLM puede invocar, exige la confirmación manual del usuario para acciones críticas y monitoriza la actividad de las extensiones del LLM para detectar comportamientos no deseados.
LLM07: Filtración de Prompts de Sistema
Las aplicaciones basadas en IA se configuran mediante instrucciones de sistema que definen el comportamiento del modelo. A veces, estas instrucciones contienen accidentalmente información confidencial, como nombres de usuario, contraseñas o claves de acceso. Si los atacantes obtienen acceso a estos datos, pueden utilizarlos para comprometer el sistema y eludir sus defensas.
Cómo protegerse: No incluyas información sensible en los prompts del sistema.
LLM08: Debilidades de Representaciones Vectoriales
Muchos modelos de lenguaje utilizan el método RAG (Retrieval-Augmented Generation), que les permite obtener información de fuentes externas para responder preguntas de manera más efectiva.
Cuando un usuario hace una pregunta, esta se convierte en un vector que se utiliza para buscar las respuestas más relevantes en un conjunto de datos predefinido. Aunque los vectores y embeddings agilizan la búsqueda de información, también introducen sus propias vulnerabilidades.

Los atacantes pueden intentar decodificar los vectores para revertirlos a texto y descubrir información clasificada. Cuando un solo servidor atiende a múltiples usuarios, la información de una fuente podría filtrarse accidentalmente a otra.
Incluso cuando todo funciona correctamente, la información externa puede alterar inesperadamente el comportamiento del modelo. Podría volverse menos receptivo y dejar de mostrar empatía (lo cual es crucial, por ejemplo, en los chatbots de atención al cliente).
Cómo protegerse: Verifica regularmente las fuentes y la integridad de la base de conocimientos, y mantén un registro de monitoreo para no pasar por alto comportamientos sospechosos.
LLM09: Desinformación y Alucinaciones
A veces, los grandes modelos de lenguaje producen “alucinaciones”. Esto ocurre cuando el modelo no comprende el significado y simplemente genera predicciones basadas en sus datos de entrenamiento. Dicha información suena plausible, pero en realidad es falsa.
Si las personas confían ciegamente en estos modelos, pueden producirse errores que generen daños reputacionales y legales. Por ejemplo, la aerolínea Air Canada fue demandada porque su chatbot proporcionó información incorrecta a un pasajero. También es conocido el caso de un abogado que utilizó precedentes judiciales inventados por ChatGPT durante una audiencia.

Cómo evitarlo: Utiliza RAG para mejorar la calidad de las respuestas, verifica los datos, especialmente si se trata de información importante, y etiqueta el contenido generado por IA.
LLM10: Consumo Ilimitado de Recursos
Los LLM consumen una gran cantidad de recursos. Un uso excesivo puede provocar problemas como fallos del sistema, pérdidas financieras o ralentización del servicio.
Los atacantes pueden enviar solicitudes extremadamente largas o un volumen muy alto de peticiones para acaparar la capacidad de cómputo y hacer que el servicio no esté disponible para los usuarios legítimos.
Cómo protegerse: Limita la longitud y la frecuencia de las solicitudes, filtra las entradas peligrosas o demasiado complejas y supervisa la actividad anómala.
Resumen de Riesgos en Aplicaciones LLM y Cómo Protegerse
Los LLM poseen capacidades potentes, pero también son un objetivo atractivo para hackers y estafadores. Comprender el OWASP Top 10 riesgos para los LLM es el primer paso para una defensa robusta.
Las inyecciones de prompts y la fuga de instrucciones del sistema permiten manipular el comportamiento del modelo y eludir las defensas.
La fuga de información confidencial y las alucinaciones pueden perjudicar a los usuarios y la reputación de la empresa.
La autonomía excesiva del modelo y su uso incontrolado crean riesgos para los usuarios.
Para garantizar la seguridad según el OWASP Top 10 para Aplicaciones de LLM, implementa una defensa multicapa: filtra los datos, controla el comportamiento de los modelos, supervisa los accesos y limita las acciones potencialmente peligrosas.


