Cómo elegir métricas de error para el algoritmo de aprendizaje automático

En el aprendizaje automático es muy importante poder evaluar el modelo que estamos entrenando, porque de lo contrario no podremos determinar si el modelo aprendió algo de los datos o no, es tan importante como los exámenes en nuestra vida lo que determina cuánta de la información que decimos que aprendimos aprendimos realmente.

Para medir el rendimiento del modelo, es muy importante elegir las métricas de evaluación correctas para el problema que tiene y debido a que elegir la métrica correcta depende del problema, vamos a enumerar dos problemas supervisados comunes y luego las métricas que podrían ser aplicado en cada problema.

Tenga en cuenta que hay otros tipos de problemas en el aprendizaje automático, como series de tiempo, agrupación … etc.

Problemas de clasificación

Se trata de tomar una decisión sobre dónde pertenece esta nueva instancia a qué clase, generalmente mediante el uso de algunas características para categorizar los datos para poder seleccionar la categoría correcta para una nueva instancia.

En problemas de clasificación, estamos trabajando con datos discretos e intentamos hacer predicciones discretas, por lo tanto, a continuación se presentan algunas métricas que se utilizan ampliamente en problemas de clasificación.

La métrica de precisión, la métrica más básica, mide la proporción de instancias que se clasifican correctamente.

tenga en cuenta que la precisión tiene algunas deficiencias, no es ideal para clases sesgadas en las que puede tener muchos elementos que pocos caen en una clase y muchos caen en la otra clase.

Precisión = # de instancias correctamente clasificadas / # de todas las instancias

La matriz de confusión se representa como una tabla que se usa para describir el rendimiento de un clasificador, cada cuadrado en esta tabla tiene un significado:

  • Verdadero positivo (TP) cuando el clasificador predijo + y los valores reales también son +
  • Verdadero negativo (TO) cuando el clasificador predijo, y el valor real también es:
  • Falso positivo (FP) cuando el clasificador predijo + y el valor real es –
  • Falso negativo (FN) cuando el clasificador predijo – y el valor real es +

A continuación hay algunos ejemplos para aclarar más:

  • En las pruebas médicas, FN puede proporcionar un mensaje falso de que una enfermedad está ausente cuando realmente está presente.
  • En la detección de spam FP cuando se clasifica un correo electrónico legítimo como spam.

La matriz de confusión es útil porque los algoritmos de clasificación no se pueden expresar bien como un número, también es útil cuando necesita favorecer un tipo de error sobre los otros tipos, similar a las situaciones de la vida real en las que puede que le interesen algunos resultados que otros, por ejemplo, Si estamos realizando una prueba de detección de cáncer, es muy importante detectar el cáncer, incluso si pudiéramos tener alguna detección falsa en lugar de no detectarlo ocasionalmente.

De la matriz de confusión, algunas métricas de evaluación se derivan como recuperación, precisión.

Medida de recuperación / sensibilidad de todos los artículos que son verdaderamente positivos cuántos se clasificaron correctamente como positivos “cuántos artículos positivos se retiraron de nuestra base de datos”

Recuperación = TP / TP + FN

Tenga en cuenta que si estamos viendo el rendimiento en una clase específica, entonces estamos viendo el retiro del mercado.

Métrica de precisión de todos los elementos que clasificaron como positivos cuántos pertenecen realmente a la clase positiva.

Precisión = TP / TP + FP

De Recall and Precision, otra métrica se deriva de la puntuación F1.

La puntuación F1 combina la precisión y la recuperación, es el promedio ponderado de precisión y recuperación, la puntuación F1 alcanza su mejor valor en 1 y peor en 0

F1 = 2 * (precisión * recuperación) / (precisión + recuperación)

Especificidad Métrica de todos los elementos negativos cuántos se han identificado como negativos.

Especificidad = TN / N

La curva ROC representa la relación entre sensibilidad (recuperación) y especificidad (* no precisión).

Problemas de regresión

En el problema de regresión que estamos tratando con datos continuos, por lo tanto, nuestro objetivo es predecir un valor que esté muy cerca del valor real, por ejemplo, predecir el precio de la casa en función de algunas características de la casa como pies cuadrados, número de habitaciones … etc.

Por lo tanto, nuestro objetivo es para cada punto de datos, tomar la distancia verticalmente desde el punto hasta el valor y correspondiente en el ajuste de la curva (el error), tomar el valor cuadrado (o absoluto como veremos más adelante), luego sumar todos esos valores para todos los puntos de datos y dividir por el número de puntos. La misma idea se aplica a continuación con alguna variación y las examinaremos una por una.

La métrica de error absoluto medio mide la suma promedio de la diferencia absoluta entre el valor real y el valor predicho para todos los puntos de datos, tomar el absoluto es útil para que podamos evitar que los valores negativos cancelen otros valores positivos.

La métrica de error cuadrático medio (error residual) mide la suma promedio de la diferencia cuadrática entre el valor real y el valor pronosticado para todos los puntos de datos, el cuadrado se realiza para que los valores negativos no cancelen los valores positivos y amplifique el impacto de los errores. cuanto más pequeño es el error cuadrático medio, más se acerca el ajuste a los datos. Cuanto más pequeño sea el MSE, más se ajustará a los datos, también tenga en cuenta que MSE tiene las unidades al cuadrado.

El error cuadrático medio es más común y tiene algunas ventajas sobre el error absoluto medio:

  • Enfatiza errores más grandes sobre errores más pequeños
  • Es diferenciable, lo que permite el uso de cálculo para encontrar valores mínimos o máximos, en otras palabras, es más eficiente computacionalmente

Error cuadrático medio de raíz Es solo la raíz cuadrada del error cuadrático medio. Se interpreta fácilmente ya que tiene las mismas unidades que los valores que se miden a diferencia de MSE donde tiene todas las unidades al cuadrado, por lo tanto, RMSE es la distancia en promedio del punto de datos desde la línea ajustada medida a lo largo de la línea vertical.

R2 Score Metric calcula el coeficiente de determinación; es la proporción de la varianza en la variable dependiente que se predice a partir de la variable independiente, lo que nos dará información sobre el buen ajuste de un modelo, en otras palabras, R2 mide qué tan bien la regresión línea aproximada a los puntos de datos reales

  • Variable independiente: la variable que se controla / cambia en un experimento específico para probar el efecto en la variable dependiente.
  • Variable dependiente: la variable que se prueba y mide en un experimento específico.

La mejor puntuación posible es 1.0 y puede ser negativa (porque el modelo puede ser peor)

R2 = 1 – (suma residual de cuadrados / suma total de cuadrados)

Artículo original: https://www.linkedin.com/pulse/m…

Respuesta corta: elija una métrica de error que refleje el tipo de tarea que realiza su algoritmo y cómo desea que se comporte su algoritmo.

Primero, ¿qué está haciendo su algoritmo de aprendizaje automático? Es una..

  1. Algoritmo de clasificación ? Entonces es probable que considere que su algoritmo es “correcto” cuando predice correctamente la clase / etiqueta de una instancia de prueba, y “incorrecto” cuando predice incorrectamente una clase / etiqueta. Para medir esto, hay una variedad de métricas de precisión que implementan esta idea de una forma u otra, como precisión, recuperación, F1, puntajes AUC.
  2. Algoritmo de regresión ? Entonces probablemente considerará que su algoritmo es “correcto” cuando predice un valor que está cerca del valor real, y “incorrecto” cuando predice un valor que está lejos del valor real. Para medir esto, hay una variedad de métricas de error que miden la distancia entre los valores predichos / reales, como la media al cuadrado, la media absoluta y la media de los errores medios.
  3. Algoritmo de clasificación ? Entonces el algoritmo será “correcto” cuando otorgue un alto rango a los elementos que sean relevantes, y erróneo cuando otorgue un alto rango a los elementos irrelevantes. Nuevamente, hay una variedad de métricas de clasificación que miden la calidad de las clasificaciones: MAP, NDCG, [correo electrónico protegido] y otras descritas en la página de aprendizaje de Wikipedia para clasificar.

La página de métricas de Kaggle es un buen recurso para consultar.

Ahora que ha identificado qué ‘familia’ de métricas es relevante para su problema, puede comenzar a mirar más de cerca cada métrica de error relevante. Todos se comportan de una manera ligeramente diferente. (Nota: ¡no es raro tener más de una métrica de error!)

Por ejemplo, considere la diferencia entre el error absoluto medio y el error cuadrado medio. El primero es “castigar” su algoritmo para equivocarse proporcionalmente a la diferencia absoluta entre sus predicciones y los puntajes reales (es decir, linealmente). El error cuadrático medio, en cambio, está “castigando” su algoritmo para equivocarse proporcionalmente a la diferencia cuadrática entre las predicciones y los puntajes reales, por lo que los errores grandes harán que su error crezca exponencialmente.