¿A qué problemas conducen los conjuntos de datos de entrenamiento asimétricos?

En el caso de clasificación binaria (por ejemplo, identificando actividades fraudulentas), los datos sesgados significan que una clase está mucho más representada en los datos que la otra clase.

Posibles resultados, los más serios primero:

Modelo incorrecto: su clasificador aprendido no podrá realizar su tarea (identificar la clase adecuada).
Entrenamiento ineficiente: El proceso de entrenamiento invertirá mucho tiempo y esfuerzo en ajustar “parámetros poco interesantes”, ya que parecen discriminar entre las clases.
Falta de buenas características y enfatiza las características inútiles: si desea utilizar el clasificador para comprender mejor el dominio utilizando los pesos de las características, no lo hará. Por ejemplo, una vez construí un clasificador para atracciones en una ciudad basado en las opiniones generadas por los usuarios. Descubrí que el clasificador se concentraba en características que hablaban de hoteles, ignorando otras categorías. Esto se debió a que la duración de la revisión fue sesgada: las personas prefieren revisar los hoteles más que revisar. digamos, campos de golf. Truncar las reseñas de los hoteles, reduciendo así la asimetría, resolvió el problema.

¿Debo obtener una MacBook Pro con 16 GB de RAM (máximo) para el trabajo de aprendizaje automático, a pesar de que puedo llevar cosas intensas a una instancia de Google Cloud?

No tengo dinero para comprar una computadora poderosa, ¿cómo puedo aprender en la GPU?

¿Cuál es el método del núcleo? ¿Cómo se usa en los sistemas de recomendación?

¿Funcionaría la búsqueda de 'colocaciones' de orden superior?

Con la tecnología moderna, ¿por qué sigue siendo difícil saber la magnitud de una calamidad?

¿Qué integración se está perdiendo si usa el navegador Chrome con un dispositivo Android en lugar de una computadora con Chrome OS?

En la clasificación, los conjuntos de datos sesgados para el entrenamiento sin una calibración adecuada podrían conducir a modelos sesgados hacia las etiquetas de la mayoría. Por ejemplo, si tiene un conjunto de datos de clasificación con una clase presente en el 95% de los datos, ¡el modelo aprendido podría ser simplemente uno que prediga la clase mayoritaria independientemente de las características, ya que la tasa de clasificación errónea es del 95%! Problemas similares podrían ocurrir en la regresión.

Para mitigar este problema, puede probar algunas estrategias:

Muestreo: muestreo de arriba / abajo del conjunto de datos para garantizar una representación igual para todas las clases.
Ponderación: algunos algoritmos de entrenamiento, como los algoritmos basados en árboles, pueden tomar pesos de instancia que son parámetros. Adjunte pesos más altos a instancias con etiquetas menos frecuentes.
Evite la selección agresiva de características sin equilibrar el conjunto de datos mediante muestreo o ponderación.
Calibración: para la clasificación binaria, la calibración de los modelos (usando la escala de Platt o la regresión isotónica) después del entrenamiento también podría ayudar.

Neil Shah

Decisiones sesgadas

Neil Shah

More Interesting

¿Qué tipo de antecedentes estadísticos debo tener para tomar el curso de Reconocimiento de patrones? Cual estadística Qué libro es útil para mi preparación?

¿El aprendizaje de transferencia es adecuado para modelos que pueden tener características de entrada crecientes?

¿Es obligatorio aprender el lenguaje R para el aprendizaje automático o Python es suficiente?

¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?

En una red neuronal recurrente, ¿por qué proporcionamos una secuencia de observaciones como entrada (longitud fija) en lugar de alimentar una observación tras otra con respecto al tiempo?

¿Cómo se usa la optimización bayesiana en la práctica?

¿Cuáles son algunas buenas bibliotecas de Deep Learning donde puedo usar una Red de creencias profundas con clasificadores como SVM gaussiano?

¿Cuál es una explicación intuitiva de un ingenuo clasificador de Bayes?