En el caso de clasificación binaria (por ejemplo, identificando actividades fraudulentas), los datos sesgados significan que una clase está mucho más representada en los datos que la otra clase.
Posibles resultados, los más serios primero:
- Modelo incorrecto: su clasificador aprendido no podrá realizar su tarea (identificar la clase adecuada).
- Entrenamiento ineficiente: El proceso de entrenamiento invertirá mucho tiempo y esfuerzo en ajustar “parámetros poco interesantes”, ya que parecen discriminar entre las clases.
- Falta de buenas características y enfatiza las características inútiles: si desea utilizar el clasificador para comprender mejor el dominio utilizando los pesos de las características, no lo hará. Por ejemplo, una vez construí un clasificador para atracciones en una ciudad basado en las opiniones generadas por los usuarios. Descubrí que el clasificador se concentraba en características que hablaban de hoteles, ignorando otras categorías. Esto se debió a que la duración de la revisión fue sesgada: las personas prefieren revisar los hoteles más que revisar. digamos, campos de golf. Truncar las reseñas de los hoteles, reduciendo así la asimetría, resolvió el problema.
- ¿Dónde puedo ir para averiguar cómo extraer características de un documento de texto para usar en el entrenamiento de un clasificador?
- ¿Cómo utiliza Facebook feed el aprendizaje profundo?
- ¿Cuál es la divergencia KL entre un Gaussiano y un Student-t?
- ¿Qué tan cerca estamos del punto donde los radiólogos serán reemplazados por software de reconocimiento de imágenes / redes neuronales / IA?
- ¿Cómo se usa el aprendizaje automático en FinTech (P2P, pagos), particularmente fuera de algo trading? ¿Alguien tiene ejemplos específicos en punto a punto, verificación de crédito, pagos, etc.?