¿Por qué necesitamos una matriz de confusión en la minería de datos?

La matriz de confusión se usa en problemas de clasificación.

El problema de clasificación es que tiene 4 características / columnas y una salida. Por lo general, dividiría los datos en datos de entrenamiento y prueba. Los datos de entrenamiento se usarían para encontrar patrones / fórmulas ocultos en los que 4 características (x1, x2, x3, x4) van a medida que se introducen las características de entrada y ecuación b / w y la salida (digamos Y).

Ahora esta ecuación se usa en los datos de prueba, y se pronostica la salida predicha (digamos y`). En los datos de prueba también tenemos salida real; podemos comparar la salida pronosticada (y`) con la salida real (Y) y crear una matriz de confusión.

Ejemplo de matriz de confusión:

Resultado de la imagen de Google para http://www.dataschool.io/content/images/2015/01/confusion_matrix2.png

Digamos que en su problema Y era 2 categorías “positivo” y “negativo”, entonces la matriz de confusión tendría:

falsos positivos: # entradas que ML predijo positivas INCORRECTAMENTE

positivos verdaderos: # entradas que ML predijo positivas CORRECTAMENTE

falso negativo: # entradas que ML predijo negativamente INCORRECTAMENTE

verdadero negativo: # entradas que ML predijo negativamente INCORRECTAMENTE.

Esperanza: eso deja clara la matriz de confusión.

Related Content

Cómo manejar grandes cantidades de datos generados a partir de varias fuentes de datos

¿Cuáles son las diferencias entre una base de datos, data mart, data warehouse, un lago de datos y un cubo?

¿Cuál es el mejor curso para Python en ciencia de datos?

¿Qué empresas de TI en India contratan para desarrolladores de Big Data / Hadoop?

¿De qué sirve Big Data, si los datos están tan desestructurados?

¿Cuál es la mejor área para vivir en Delhi para estudiantes de CA y CS?

¿Cuánto tiempo debe ejecutar una prueba A / B en su sitio antes de declarar a uno ganador?

Una matriz de confusión le dice qué tan bueno es un algoritmo de clasificación. En particular, le informa sobre los falsos negativos, los verdaderos negativos, los falsos positivos y los verdaderos positivos.

Esto es útil porque los resultados de los algoritmos de clasificación generalmente no se pueden expresar bien en un número.

Imagine el siguiente ejercicio de clasificación: de toda la población, está tratando de identificar quién va a morir de cáncer este año, en función de comportamientos como el tabaquismo, etc. En cualquier año dado, morirá mucho menos del 1% de la población de cáncer.

Un ingenuo algoritmo de clasificación simplemente predecirá que nadie morirá de cáncer. Esto será más del 99% de precisión, pero completamente inútil.

Una matriz de confusión le permite ver rápidamente, de los que predijo que morirían, cuántos hicieron y cuántos no. De los que predijiste que no morirían, cuántos sí y cuántos no.

Luego puede decidir la importancia de los falsos negativos frente a los falsos positivos, pero al menos tiene toda la información necesaria para juzgar la calidad del resultado.

Sahil Makkar

More Interesting

¿Cómo es ser ingeniero de datos?

¿Cuál es el significado del procesamiento de datos?

¿Podrían algunas características ser más importantes / significativas en algunos algoritmos de aprendizaje automático que en otros?

¿Qué es un clasificador 'codicioso'?

Cómo interpretar la relación entre los conjuntos de datos.

¿Cuáles son los requisitos previos para los bootcamps de ciencia de datos?

¿Qué bibliotecas existen para el pronóstico probabilístico en Python o R?

¿Cómo impactan los informes de Big Data y Analytics en la productividad de una empresa?

Cómo diseñar un clasificador SOM

¿Debo convertirme en un científico de datos si no tengo una ciencia dura o un título universitario cuantitativo?

¿Qué conocimiento básico es imprescindible si quiero entrar en el campo de big data o data science? ¿Cuál es la mejor manera de comenzar mi carrera en el mismo?

¿Cuándo no debería usar un término constante en regresión lineal? ¿Alguien puede explicarlo con un ejemplo?

¿Dónde debo comenzar a aprender ML y minería de datos?

¿Cuál es el alcance de la actualización de Big Data en India?

¿Por qué las empresas solicitan habilidades de ingeniería de datos cuando reclutan científicos de datos, es decir, matemáticos?

Web Analytics