En primer lugar, creo que son obsoletos. Han pasado 18 años desde que fueron liberados. En ese momento apenas conocíamos Google, y mucho menos Facebook, Twitter y otras aplicaciones. Hacen que cambie la forma en que las personas usan las aplicaciones de red. Por lo tanto, el tráfico normal ya no está bien representado.
Los ataques a los sistemas informáticos también han evolucionado. En 1999, no teníamos heartbleed, krack o blueborne. Además, los ataques en el conjunto de datos DARPA fueron simulados, lo que plantea la cuestión de si son lo suficientemente realistas.
También resultó que los ataques en DARPA 99 tienen un valor TTL específico que puede hacer que alguien pueda detectar esos ataques mirando solo el TTL.
- Cómo instalar el software NS2
- ¿Es posible para mí encontrar qué programas tienen la mayor prioridad de ancho de banda?
- ¿Cuál es la diferencia entre el interruptor de paquete y el interruptor de circuito?
- ¿Dónde puedo obtener el último conjunto de datos para un sistema de detección de intrusos en la red?
- ¿Cuáles son algunas ideas de proyectos de programación de red para principiantes?
KDD 99 se derivó del conjunto de datos DARPA 98. Así que creo que es peor que DARPA 99, pero muchos investigadores lo han usado en exceso. Si busca en Google Scholar, algunos artículos publicados en 2017 todavía lo usan. Y si se mira más profundamente, esos documentos no se publicaron en una conferencia / revista de seguridad de alto rango. Aunque algunos lograron entrar en una conferencia / revista de ciencias de la computación genérica / aprendizaje automático.
Hay varios trabajos académicos que criticaron la calidad de KDD99. Agregaré la referencia a ellos más tarde. La mayoría de las críticas van al aspecto poco realista del conjunto de datos.
Si está buscando conjuntos de datos alternativos disponibles públicamente, diría que ISCX IDS 2012 o UNSW NB-15 están más actualizados. También veo que algunos documentos generaron su propio conjunto de datos de tráfico de red ejecutando exploits disponibles públicamente (u otro tipo de ataques) y capturando el tráfico.
TL; DR;
Recomiendo no usar esos conjuntos de datos, porque son obsoletos y no realistas.