¿Cómo manejan los científicos de datos las situaciones en las que es difícil obtener resultados verídicos?

La ciencia no se trata de la verdad fundamental, se trata de evidencia e incertidumbre. El problema al que se refiere es en un nivel básico “solo” la falta de datos. Creo que lo que hace que la mayoría de la gente se detenga y los buenos profesionales de datos brillen cuando faltan datos es que saben que obtener los datos correctos es donde todo comienza.

Dejando a un lado la filosofía y llegando a la parte técnica, lo que falta en su ejemplo son las etiquetas. Entonces tienes que crearlos. A veces es fácil, puede ser una simple heurística o binning. Otras veces es más complejo y el aprendizaje sin supervisión puede ayudar. El análisis de conglomerados puede traer buenos resultados para crear las etiquetas.

Su último recurso es hacerlo manualmente. ¡Puede que no sea práctico! Incluso pequeños conjuntos de datos hoy en día tienen miles de filas. Otro problema es el error humano.

Nunca hice un análisis de malware, así que no conozco los entresijos del proceso, pero si tiene variables que definen el malware, entonces podría ser un buen caso para la agrupación.