¿Puede el aprendizaje profundo manejar datos desequilibrados?

Si. El desequilibrio de clase suele ser un desafío para muchos modelos de aprendizaje automático, pero hay una serie de métodos ampliamente aplicables que pueden mejorar las métricas de clasificación como recordar, F1 y AUC ROC. Tenga en cuenta que en los enfoques enumerados a continuación no hay nada específico de algoritmo, por lo que sin duda se puede utilizar para mejorar los resultados de los modelos de aprendizaje profundo.

  1. Muestreo : sobremuestreo de una clase minoritaria, submuestreo de la clase mayoritaria o incluso generar nuevas muestras con una técnica como SMOTE.
  2. Ponderación de la función de costo : puede asignar pesos a las etiquetas de su clase de modo que la función de costo penalice la pérdida en ciertas clases con mayor severidad. Esto puede hacer que el modelo se adapte mejor a las características de una clase minoritaria.
  3. Ajuste del umbral de decisión : una vez que haya pronosticado las probabilidades, en lugar de utilizar una decisión predeterminada de más del 50% para asignar etiquetas pronosticadas, puede intentar reducir el umbral para mejorar la recuperación de una clase minoritaria / optimizar F1.

Al igual que con otras opciones de modelado, el uso de estos métodos y sus parámetros deben validarse de forma cruzada.

Incluso diría que en algunos dominios, el aprendizaje profundo es especialmente adecuado para clases desequilibradas. Por ejemplo, con los datos de imagen es común aumentar el conjunto de datos realizando rotaciones, cizallas, volteretas, etc., por lo que hay una forma muy natural de agregar observaciones sintéticas de una clase minoritaria.

Puede, pero los resultados no serán tan precisos en datos nuevos.

Cada vez que tiene que fabricar datos para modelar, introduce sesgo.

Sin embargo, la mayoría de los conjuntos de datos tabulares del mundo real están llenos de agujeros, por lo que muchas veces es necesario completarlos.

Si está interesado en aprender algunos de los algos más comunes utilizados en el aprendizaje automático, consulte este curso gratuito.

Una introducción al aprendizaje automático para ingenieros de datos

Sí, Deep Learning puede manejar datos desequilibrados, pero la característica clave de DL es la ingeniería automática de características, que requiere una gran cantidad de datos etiquetados e información de expertos en dominios. Esto se hace mediante el diseño de características que miden la diferencia entre los datos actuales y los datos históricos. Los datos etiquetados hacen que sea mucho más fácil para el sistema detectar patrones y fallas en conjuntos de datos dados.