Honeypots de IA: Detección Avanzada de Ataques

Los honeypots, sistemas señuelo, detectan y analizan actividad maliciosa al adoptar diversas formas y pueden implementarse en plataformas en la nube para brindar información sobre el comportamiento del atacante, mejorando la seguridad.

Este estudio propone crear un sistema de honeypot interactivo utilizando un Modelo de Lenguaje Grande (LLM, Large Language Mode) para imitar el comportamiento de un servidor Linux.

Modelo LLM o Large Language Mode

Al ajustar finamente el LLM con un conjunto de datos de comandos generados por atacantes, el objetivo es mejorar la efectividad del honeypot en la detección y análisis de actividades maliciosas.

Recogida de datos y formación de modelos

Los autores combinaron tres conjuntos de datos de comandos de Linux, incluyendo datos reales de atacantes, comandos comunes y explicaciones de comandos, y procesaron estos datos simulando la ejecución de comandos y preprocesando el texto, creando un conjunto de datos robusto para entrenar su modelo de lenguaje para imitar un honeypot.

La ingeniería de prompts implicó refinar los prompts para alinearlos con los objetivos de investigación y mejorar la interacción del modelo con el conjunto de datos, lo que condujo a un sistema de honeypot más efectivo.

El modelo Llama3 8B fue seleccionado para el LLM del honeypot debido a su equilibrio entre la destreza lingüística y la eficiencia computacional.

Los modelos más grandes eran demasiado lentos, mientras que los modelos centrados en el código eran menos efectivos para la simulación de honeypots.

Ajustaron un modelo de lenguaje previamente entrenado utilizando LlamaFactory, empleando LoRA, QLoRA, NEFTune noise y Flash Attention 2 para mejorar la eficiencia y el rendimiento del entrenamiento, resultando en un modelo parecido a un servidor honeypot.

Propone un framework LLM-Honeypot utilizando un servidor SSH y un LLM ajustado finamente para interactuar con los atacantes en lenguaje natural, permitiendo la simulación realista y el análisis del comportamiento del atacante.

El servidor SSH personalizado, construido usando la librería Paramiko de Python, emplea un modelo de lenguaje ajustado finamente para generar respuestas realistas a los comandos del usuario.

Registra las conexiones SSH, las credenciales del usuario y las interacciones de comandos, proporcionando datos valiosos para el análisis de ciberseguridad.

Las pérdidas de entrenamiento del modelo ajustado finamente mostraron una disminución constante, lo que indica un aprendizaje efectivo del conjunto de datos.

Se usó una tasa de aprendizaje de 5×10−4 durante 36 pasos de entrenamiento, lo que resultó en una mejora de rendimiento constante y una mayor capacidad para generar respuestas realistas y contextualmente apropiadas.

Histograma de las puntuaciones de similitud del coseno en 140 muestras

Demostró un rendimiento superior en la generación de salidas de terminal en comparación con el modelo base, como lo demuestran las puntuaciones de similitud consistentemente más altas y las métricas de distancia más bajas en todas las muestras, lo que indica la efectividad del modelo en la producción de salidas que se alinean estrechamente con las respuestas esperadas de un servidor honeypot Cowrie.

Palabras Finales

El documento propone un nuevo método para crear sistemas de honeypot interactivos y realistas usando LLMs. Al ajustar finamente un LLM en datos de atacantes, el sistema mejora la calidad de la respuesta, mejora la detección de amenazas y proporciona información más profunda sobre el comportamiento del atacante.

Planean expandir los conjuntos de datos de entrenamiento, explorar el ajuste fino alternativo e incorporar el análisis de comportamiento al implementar el sistema públicamente para recopilar registros de ataques y crear gráficos de conocimiento para analizar las estrategias de los atacantes.

También evaluarán el rendimiento utilizando métricas como la precisión y la calidad de la interacción para refinar el modelo y mejorar los honeypots para una mejor detección y análisis de amenazas cibernéticas.

GitHub de la NSA: Herramientas Open Source para Ciberseguridad

Race Condition en Aplicaciones Web: del Mecanismo al Exploit

¿Qué es un CVE? Vulnerabilidades, CVSS y EPSS Explicados

Ventajas de Seguridad de un VPS Frente al Hosting Compartido

Ciberseguridad en el Análisis de Tráfico con IA: Vulnerabilidades

Qué ocurre con tus datos al registrarte en un casino

Seguridad Android vs iOS: Un Análisis Técnico que Rompe Mitos

Desactivar la IA de Windows 11: Guía del Script RemoveWindowsAI

iPhone 13 Pro Max: ¿Vale la Pena Comprarlo en 2025?

sha256sum: Verifica la Integridad de tus Archivos

CyberChef: Qué Es, Cómo Usarlo y Casos de Uso Reales

AssetFinder: Cómo buscar Subdominios de un dominio desde Terminal

Cómo Mantenerse al Día en Ciberseguridad

Seguridad en Criptomonedas: Análisis de Riesgos y Vulnerabilidades

10 Mujeres Hackers que Cambiaron la Historia (y Debes Conocer)

Crear un Honeypot de IA para Interactuar con Atacantes de forma Sofisticada

Modelo LLM o Large Language Mode

Palabras Finales

Ventajas de Seguridad de un VPS Frente al Hosting Compartido

Ciberseguridad en el Análisis de Tráfico con IA: Vulnerabilidades

Ciberterrorismo: Tipos de Ataques y su Impacto en los Objetivos

BlackMamba: Framework de Mando y Control / Post Explotación

Cobra: Herramienta Todo en Uno para facilitar Hacking

Mi Carro Close (×)

Crear un Honeypot de IA para Interactuar con Atacantes de forma Sofisticada

Modelo LLM o Large Language Mode

Palabras Finales

Mi Carro Close (×)

SUSCRÍBETE