¿Qué tareas de minería de datos (big data) necesitan precisión de predicción más allá de 0.999999?

La precisión superior a 0.999999 o, en otros términos, falso positivo de 1 en un millón es útil en escenarios donde existe un costo muy alto para manejar falsos positivos, como emplear humanos para manejar falsos positivos. Por otro lado, es muy difícil incluso para los humanos lograr este nivel de precisión.

Un posible escenario que necesita una precisión muy alta es la seguridad. Piense en un modelo en FB que analiza la actividad de un usuario todos los días y cierra su cuenta si la clasifica como una cuenta falsa. Con más de 100 millones de usuarios que usan el sitio todos los días, incluso con una precisión de 0.999999, terminará cerrando más de 100 cuentas por error. Esto creará una gran cantidad de tickets de atención al cliente que necesita humanos para manejar. En este caso, con el fin de aumentar la precisión, la gente generalmente compensa el retiro del mercado.

Una regla de oro sería si necesita humanos para manejar los falsos positivos de su modelo y su conjunto de datos es muy grande, es mejor que tenga una alta precisión o molestará a muchas personas.

En las tareas de clasificación, probablemente no desee una precisión tan alta. En caso de una configuración incorrecta del conjunto de datos, está sobreajustando los datos. En caso de que tenga un desequilibrio de etiquetas donde una etiqueta esté mucho más presente que la otra, es fácil lograr altas precisiones: siempre prediga la etiqueta dominante. Esto hace que sea más aconsejable observar otras medidas, como el puntaje de auroc y la compensación de precisión de recuperación.

Partículas fisicas.