¿Qué tareas de minería de datos (big data) necesitan precisión de predicción más allá de 0.999999?

La precisión superior a 0.999999 o, en otros términos, falso positivo de 1 en un millón es útil en escenarios donde existe un costo muy alto para manejar falsos positivos, como emplear humanos para manejar falsos positivos. Por otro lado, es muy difícil incluso para los humanos lograr este nivel de precisión.

Un posible escenario que necesita una precisión muy alta es la seguridad. Piense en un modelo en FB que analiza la actividad de un usuario todos los días y cierra su cuenta si la clasifica como una cuenta falsa. Con más de 100 millones de usuarios que usan el sitio todos los días, incluso con una precisión de 0.999999, terminará cerrando más de 100 cuentas por error. Esto creará una gran cantidad de tickets de atención al cliente que necesita humanos para manejar. En este caso, con el fin de aumentar la precisión, la gente generalmente compensa el retiro del mercado.

Una regla de oro sería si necesita humanos para manejar los falsos positivos de su modelo y su conjunto de datos es muy grande, es mejor que tenga una alta precisión o molestará a muchas personas.

Análisis deAnálisis de Big DataBig DataCiencia de datosdatosMinería de

Related Content

¿Debo aprender R o Tableau primero?

¿El comercio de alta frecuencia y la ciencia de datos comparten muchas similitudes?

¿Cuál es la diferencia entre la ciencia neuronal, el aprendizaje automático y la minería de datos?

¿Cómo trato con los datos faltantes cuando ejecuto una regresión logística?

Cómo dominar el aprendizaje automático en R

¿Hay alguna forma de descargar los datos de Quora para analizar?

Cómo hacer que Apple se interese en mi patente

En las tareas de clasificación, probablemente no desee una precisión tan alta. En caso de una configuración incorrecta del conjunto de datos, está sobreajustando los datos. En caso de que tenga un desequilibrio de etiquetas donde una etiqueta esté mucho más presente que la otra, es fácil lograr altas precisiones: siempre prediga la etiqueta dominante. Esto hace que sea más aconsejable observar otras medidas, como el puntaje de auroc y la compensación de precisión de recuperación.

Andreas Verleysen

Partículas fisicas.

Oliver Zeldin

More Interesting

¿Cómo es más útil el Big Data que otros conjuntos de datos?

¿Quién gana más? Analista de datos o analista de negocios?

¿Cuál es la utilidad de Big Data?

¿Cuál es la diferencia entre CART y los árboles de regresión potenciados?

¿Podemos automatizar big data a través de UFT?

¿Cuándo se usaría un modelo oculto de Markov en lugar de una red neuronal recurrente?

¿Qué tan difícil para un principiante de programación aprender tecnologías de ingeniería de datos?

¿Hay alguna plataforma para vender conjuntos de datos?

En la era del aprendizaje automático, IA, big data, etc., ¿qué tan útil es estudiar campos ya maduros como CS teóricas y bases de datos relacionales a nivel de posgrado, y luego pasar a la industria del software?

¿Están sobrevaloradas las estimaciones de la escasez de científicos de datos? La inversión en herramientas y productos de big data está en aumento, al igual que los institutos que ofrecen títulos en Big Data / Data Science. ¿La inversión y el desarrollo de infraestructura significarán una disminución en el empleo?

¿Cómo podemos crecer programadores principiantes como ciencia de datos profesional durante unos meses?

¿Por qué es tan importante el Big Data?

¿Cómo se automatiza la minería de datos?

¿Por qué, en su opinión, tantas compañías de investigación clínica se niegan a usar Python en lugar de SAS o R?

¿Cómo se ve la arquitectura de datos de una red publicitaria?

Web Analytics