Cómo lidiar con direcciones IP en algoritmos de aprendizaje automático en análisis de tráfico y detección de anomalías

La siguiente es una copia de mi respuesta en Cross Validated . Si bien no aborda el aspecto de las direcciones IP (sin juego de palabras), tiene algunas referencias potencialmente valiosas a materiales sobre temas de aprendizaje automático en análisis de tráfico y detección de anomalías. Espero que lo encuentres útil.

Definitivamente no soy un experto en detección de anomalías . Sin embargo, es un área interesante y aquí están mis dos centavos. Primero, teniendo en cuenta su nota de que “la distancia de Mahalanobis solo se puede aplicar a entidades distribuidas normalmente”. Me encontré con algunas investigaciones que argumentan que todavía es posible usar esa métrica en casos de datos no normales . Eche un vistazo a este documento y este informe técnico.

También espero que encuentre útiles los siguientes recursos sobre detección de anomalías no supervisadas (AD) en el contexto de seguridad de la red de TI , utilizando diversos enfoques y métodos: este documento, que presenta un marco geométrico para AD sin supervisión; este documento, que utiliza un enfoque de agrupamiento basado en densidad y en cuadrícula ; diapositivas de esta presentación, que mencionan el uso de mapas autoorganizados para AD.

Finalmente, le sugiero que eche un vistazo a las siguientes respuestas mías, que creo que son relevantes para el tema y, por lo tanto, podrían ser útiles: respuesta sobre enfoques de agrupación, respuesta sobre agrupación no basada en la distancia y respuesta sobre opciones de software para ANUNCIO.

No estoy seguro de cuál es el problema objetivo, pero estoy presentando algunas de mis sugerencias para usar la dirección IP para la extracción de funciones en ML

[1] Extraiga la ubicación geográfica de la IP. Cómo hacerlo en Java. Utilice GeoLocation como entrada para su aprendizaje automático

[2] Utilice la clase de dirección IP como tipo de característica

[3] El patrón de bits o la cadena convertida en base64 se pueden tratar como un valor de característica

Esta no es mi área de especialización, pero si cada dirección IP no está relacionada con otras direcciones IP de la misma subred, debe modelarlas como entidades discretas. Una forma es hacer una codificación de un solo uso como usted menciona, pero si el espacio es demasiado grande, es posible que desee usar una función hash para proyectar primero a un espacio más pequeño, digamos 16 bits. Probablemente no necesite preocuparse demasiado por colisiones para sus propósitos, a menos que el número de direcciones IP sea muy grande.