Representación abstracta de un honeypot de IA para interactuar con atacantes
Honeypot de IA Atrapa y analiza a los atacantes

Crear un Honeypot de IA para Interactuar con Atacantes de forma Sofisticada

Los honeypots, sistemas señuelo, detectan y analizan actividad maliciosa al adoptar diversas formas y pueden implementarse en plataformas en la nube para brindar información sobre el comportamiento del atacante, mejorando la seguridad.

Este estudio propone crear un sistema de honeypot interactivo utilizando un Modelo de Lenguaje Grande (LLM, Large Language Mode) para imitar el comportamiento de un servidor Linux.

Modelo LLM o Large Language Mode

Al ajustar finamente el LLM con un conjunto de datos de comandos generados por atacantes, el objetivo es mejorar la efectividad del honeypot en la detección y análisis de actividades maliciosas.

Recogida de datos y formación de modelos
Recogida de datos y formación de modelos

Los autores combinaron tres conjuntos de datos de comandos de Linux, incluyendo datos reales de atacantes, comandos comunes y explicaciones de comandos, y procesaron estos datos simulando la ejecución de comandos y preprocesando el texto, creando un conjunto de datos robusto para entrenar su modelo de lenguaje para imitar un honeypot.

La ingeniería de prompts implicó refinar los prompts para alinearlos con los objetivos de investigación y mejorar la interacción del modelo con el conjunto de datos, lo que condujo a un sistema de honeypot más efectivo.

El modelo Llama3 8B fue seleccionado para el LLM del honeypot debido a su equilibrio entre la destreza lingüística y la eficiencia computacional.

Los modelos más grandes eran demasiado lentos, mientras que los modelos centrados en el código eran menos efectivos para la simulación de honeypots.

Ajustaron un modelo de lenguaje previamente entrenado utilizando LlamaFactory, empleando LoRA, QLoRA, NEFTune noise y Flash Attention 2 para mejorar la eficiencia y el rendimiento del entrenamiento, resultando en un modelo parecido a un servidor honeypot.

Propone un framework LLM-Honeypot utilizando un servidor SSH y un LLM ajustado finamente para interactuar con los atacantes en lenguaje natural, permitiendo la simulación realista y el análisis del comportamiento del atacante.

El servidor SSH personalizado, construido usando la librería Paramiko de Python, emplea un modelo de lenguaje ajustado finamente para generar respuestas realistas a los comandos del usuario.

Registra las conexiones SSH, las credenciales del usuario y las interacciones de comandos, proporcionando datos valiosos para el análisis de ciberseguridad.

Las pérdidas de entrenamiento del modelo ajustado finamente mostraron una disminución constante, lo que indica un aprendizaje efectivo del conjunto de datos.

Se usó una tasa de aprendizaje de 5×10−4 durante 36 pasos de entrenamiento, lo que resultó en una mejora de rendimiento constante y una mayor capacidad para generar respuestas realistas y contextualmente apropiadas.

Histograma de las puntuaciones de similitud del coseno en 140 muestras
Histograma de las puntuaciones de similitud del coseno en 140 muestras

Demostró un rendimiento superior en la generación de salidas de terminal en comparación con el modelo base, como lo demuestran las puntuaciones de similitud consistentemente más altas y las métricas de distancia más bajas en todas las muestras, lo que indica la efectividad del modelo en la producción de salidas que se alinean estrechamente con las respuestas esperadas de un servidor honeypot Cowrie.

Palabras Finales

El documento propone un nuevo método para crear sistemas de honeypot interactivos y realistas usando LLMs. Al ajustar finamente un LLM en datos de atacantes, el sistema mejora la calidad de la respuesta, mejora la detección de amenazas y proporciona información más profunda sobre el comportamiento del atacante.

Planean expandir los conjuntos de datos de entrenamiento, explorar el ajuste fino alternativo e incorporar el análisis de comportamiento al implementar el sistema públicamente para recopilar registros de ataques y crear gráficos de conocimiento para analizar las estrategias de los atacantes.

También evaluarán el rendimiento utilizando métricas como la precisión y la calidad de la interacción para refinar el modelo y mejorar los honeypots para una mejor detección y análisis de amenazas cibernéticas.

My Cart Close (×)

Tu carrito está vacío
Ver tienda