¿A qué problemas conducen los conjuntos de datos de entrenamiento asimétricos?

En el caso de clasificación binaria (por ejemplo, identificando actividades fraudulentas), los datos sesgados significan que una clase está mucho más representada en los datos que la otra clase.

Posibles resultados, los más serios primero:

  • Modelo incorrecto: su clasificador aprendido no podrá realizar su tarea (identificar la clase adecuada).
  • Entrenamiento ineficiente: El proceso de entrenamiento invertirá mucho tiempo y esfuerzo en ajustar “parámetros poco interesantes”, ya que parecen discriminar entre las clases.
  • Falta de buenas características y enfatiza las características inútiles: si desea utilizar el clasificador para comprender mejor el dominio utilizando los pesos de las características, no lo hará. Por ejemplo, una vez construí un clasificador para atracciones en una ciudad basado en las opiniones generadas por los usuarios. Descubrí que el clasificador se concentraba en características que hablaban de hoteles, ignorando otras categorías. Esto se debió a que la duración de la revisión fue sesgada: las personas prefieren revisar los hoteles más que revisar. digamos, campos de golf. Truncar las reseñas de los hoteles, reduciendo así la asimetría, resolvió el problema.

En la clasificación, los conjuntos de datos sesgados para el entrenamiento sin una calibración adecuada podrían conducir a modelos sesgados hacia las etiquetas de la mayoría. Por ejemplo, si tiene un conjunto de datos de clasificación con una clase presente en el 95% de los datos, ¡el modelo aprendido podría ser simplemente uno que prediga la clase mayoritaria independientemente de las características, ya que la tasa de clasificación errónea es del 95%! Problemas similares podrían ocurrir en la regresión.

Para mitigar este problema, puede probar algunas estrategias:

  • Muestreo: muestreo de arriba / abajo del conjunto de datos para garantizar una representación igual para todas las clases.
  • Ponderación: algunos algoritmos de entrenamiento, como los algoritmos basados ​​en árboles, pueden tomar pesos de instancia que son parámetros. Adjunte pesos más altos a instancias con etiquetas menos frecuentes.
  • Evite la selección agresiva de características sin equilibrar el conjunto de datos mediante muestreo o ponderación.
  • Calibración: para la clasificación binaria, la calibración de los modelos (usando la escala de Platt o la regresión isotónica) después del entrenamiento también podría ayudar.

Decisiones sesgadas

More Interesting

¿Qué tipo de antecedentes estadísticos debo tener para tomar el curso de Reconocimiento de patrones? Cual estadística Qué libro es útil para mi preparación?

¿El aprendizaje de transferencia es adecuado para modelos que pueden tener características de entrada crecientes?

¿Es obligatorio aprender el lenguaje R para el aprendizaje automático o Python es suficiente?

¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?

En una red neuronal recurrente, ¿por qué proporcionamos una secuencia de observaciones como entrada (longitud fija) en lugar de alimentar una observación tras otra con respecto al tiempo?

¿Cómo se usa la optimización bayesiana en la práctica?

¿Cuáles son algunas buenas bibliotecas de Deep Learning donde puedo usar una Red de creencias profundas con clasificadores como SVM gaussiano?

¿Cuál es una explicación intuitiva de un ingenuo clasificador de Bayes?

¿Vale la pena el curso sobre aprendizaje automático en Coursera por la Universidad de Stanford?

¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

¿Quién es el mejor científico de aprendizaje automático del mundo?

¿Cuál es la diferencia entre tensorflow y CVX?

¿Cuáles son los beneficios del filtrado colaborativo?

¿Cuál sería el mejor desafío de Kaggle para mí como entusiasta del aprendizaje automático de nivel intermedio?

¿Cuándo veremos una base teórica y una base matemática para el aprendizaje profundo?