¿Por qué necesitamos una matriz de confusión en la minería de datos?

La matriz de confusión se usa en problemas de clasificación.

El problema de clasificación es que tiene 4 características / columnas y una salida. Por lo general, dividiría los datos en datos de entrenamiento y prueba. Los datos de entrenamiento se usarían para encontrar patrones / fórmulas ocultos en los que 4 características (x1, x2, x3, x4) van a medida que se introducen las características de entrada y ecuación b / w y la salida (digamos Y).

Ahora esta ecuación se usa en los datos de prueba, y se pronostica la salida predicha (digamos y`). En los datos de prueba también tenemos salida real; podemos comparar la salida pronosticada (y`) con la salida real (Y) y crear una matriz de confusión.

Ejemplo de matriz de confusión:

Resultado de la imagen de Google para http://www.dataschool.io/content/images/2015/01/confusion_matrix2.png

Digamos que en su problema Y era 2 categorías “positivo” y “negativo”, entonces la matriz de confusión tendría:

falsos positivos: # entradas que ML predijo positivas INCORRECTAMENTE

positivos verdaderos: # entradas que ML predijo positivas CORRECTAMENTE

falso negativo: # entradas que ML predijo negativamente INCORRECTAMENTE

verdadero negativo: # entradas que ML predijo negativamente INCORRECTAMENTE.

Esperanza: eso deja clara la matriz de confusión.

Una matriz de confusión le dice qué tan bueno es un algoritmo de clasificación. En particular, le informa sobre los falsos negativos, los verdaderos negativos, los falsos positivos y los verdaderos positivos.

Esto es útil porque los resultados de los algoritmos de clasificación generalmente no se pueden expresar bien en un número.

Imagine el siguiente ejercicio de clasificación: de toda la población, está tratando de identificar quién va a morir de cáncer este año, en función de comportamientos como el tabaquismo, etc. En cualquier año dado, morirá mucho menos del 1% de la población de cáncer.

Un ingenuo algoritmo de clasificación simplemente predecirá que nadie morirá de cáncer. Esto será más del 99% de precisión, pero completamente inútil.

Una matriz de confusión le permite ver rápidamente, de los que predijo que morirían, cuántos hicieron y cuántos no. De los que predijiste que no morirían, cuántos sí y cuántos no.

Luego puede decidir la importancia de los falsos negativos frente a los falsos positivos, pero al menos tiene toda la información necesaria para juzgar la calidad del resultado.