Al entrenar a un clasificador, ¿cómo trato con clases que tienen números muy diferentes de muestras en el conjunto de entrenamiento? ¿Cómo evito un ajuste excesivo en la clase que tiene la mayor cantidad de muestras?

La mejor manera es sopesar los errores de manera diferente. Debe sopesar los errores al clasificar erróneamente la clase minoritaria mucho más que al clasificar erróneamente la clase mayoritaria.

Dejame darte un ejemplo. Si utiliza redes neuronales para la clasificación, durante la propagación hacia atrás obtiene los errores para diferentes instancias de entrenamiento. Aquí, solo sopesar los errores dependiendo de si una instancia mayoritaria fue mal clasificada o una instancia de la clase minoritaria fue mal clasificada.

Si está utilizando Regresión logística, por ejemplo, use un parámetro class_weight = “auto”, por ejemplo, en Scikit Learn en Python. sklearn.linear_model.LogisticRegression – documentación de scikit-learn 0.16.1

Todo lo anterior básicamente hace lo mismo. Observan los errores de manera diferente según el tipo de instancia que fue mal clasificada.

Hay varias formas de hacerlo.
Abhishek Shivkumar sugiere una forma, donde pondera los errores de manera diferente. Esto también se llama clasificación sensible al costo. La otra opción es invocar la sensibilidad al costo dentro del algoritmo de clasificación, de modo que no tenga que ponderar los errores de manera diferente después de que la clasificación haya comenzado.

Puede leer sobre esto aquí La respuesta de Shehroz Khan a Tengo un conjunto de datos desequilibrado con dos clases. ¿Se consideraría correcto si sobremuestreo la clase minoritaria y también cambio los costos de clasificación errónea en el conjunto de capacitación para crear el modelo?

Le sugiero que mire esta página en el documento de jair.org. Esto podría responder tu pregunta.

More Interesting

¿Qué tan importante es el aprendizaje profundo en la conducción autónoma?

¿Cuál es la mejor manera de hacer un análisis de sentimientos de los datos de Facebook en Java?

¿Crees que los algoritmos de aprendizaje automático pueden cambiar la forma en que hacemos simulaciones numéricas?

Cómo interpretar los resultados de un análisis de PCA

¿Qué implica el e-Discovery?

Al cambiar de plataforma, ¿cómo se debe planificar con anticipación para garantizar que el almacenamiento y el análisis de datos se mantengan rápidos y eficientes?

¿Cuáles son las historias de éxito del aprendizaje profundo para el procesamiento del lenguaje natural y los marcos y bibliotecas utilizados o creados por ellos?

¿Cuáles son las ideas principales detrás de los principales algoritmos de clasificación de búsqueda?

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

Si pudieras elegir cinco miembros perfectos para un equipo de desarrollo de aprendizaje automático y en la nube, ¿qué habilidades requerirías que tuvieran?

Cómo comenzar a aprender redes neuronales y aprendizaje profundo

Tengo un conjunto de datos con una combinación de datos cualitativos y cuantitativos, ¿cómo puedo inferir una relación o sensibilidad entre las columnas?

¿Cuáles son las diferencias entre el enfoque basado en reglas y el enfoque de aprendizaje automático en el análisis de sentimientos?

¿El aprendizaje automático es un subconjunto de la ciencia de datos?

¿Cuál es la diferencia entre un sistema recomendado basado en la utilidad del sistema y un sistema recomendado basado en el contenido del sistema?