Al aplicar redes neuronales para la clasificación binaria, ¿hay algún beneficio para el conjunto de entrenamiento que tiene un número igual de 0 y 1?

Interesante pregunta. Generalmente no. * Para crear un clasificador preciso, es mejor obtener un muestreo representativo .

¿Por qué? Porque digamos que una de las clases aparece el 80% del tiempo en los datos, y la otra aparece el 20% del tiempo … eso sesgará el clasificador hacia el que aparece más. Y eso es bueno, porque el sesgo será proporcional.

Si eligió una división de datos de 50 a 50 clases que no era representativa de los datos reales, entonces el clasificador estaría desproporcionadamente sesgado hacia el que realmente solo aparece el 20% del tiempo, y podría esperar muchos falsos positivos para esa clase como resultado.

Pruebalo por ti mismo.


*Consideración:

En algunos contextos, es mejor tener un número desproporcionado de falsos positivos para una o más clases, aunque esto hará que el clasificador sea menos preciso.

Por ejemplo, si está creando un clasificador para detectar fraudes, es posible que desee marcar algunas cosas no fraudulentas como fraudulentas para que los humanos puedan hacer un pase manual sobre él para aumentar las probabilidades de atrapar cosas legítimamente fraudulentas.

De lo contrario, podría correr el riesgo de que cosas significativamente más fraudulentas se escapen por las grietas debido al sesgo del clasificador.

De esa forma, tal vez un pequeño porcentaje de personas tenga que soportar la molestia de que se suspenda su cuenta durante un par de horas / días, pero puede evitar 5 veces el fraude (y la pérdida financiera) al hacerlo.

Hay una serie de compensaciones como esta que querrás considerar al crear clasificadores para aplicaciones del mundo real.

¿Quiere decir que el conjunto de entrenamiento debe tener el mismo número de elementos de ambas clases? Más importante que esto es que hay suficientes patrones que representan todas las combinaciones de entrada-salida factibles. Por ejemplo, si tiene 2 clases de salida y 750 entradas posibles que dan clase A, pero sus datos son solo alrededor de 200 entradas posibles, su red tendrá una capacidad de generalización muy pobre.

Puede ser beneficioso para las clases raras de peso elevado si se vuelve difícil para su clasificador aprender (por ejemplo, predecir todo 1 cuando su clase 1 es el 99% de los datos). No tienes que buscar el equilibrio perfecto.

Impulsar intentará aprender mejor las clases débiles.

More Interesting

¿Podemos vender potencia informática a empresas de aprendizaje automático? ¿Cuál es la dificultad de hacer eso?

¿Qué es el entorno de base de datos en una explicación simple con ejemplos?

¿Cuál es la diferencia entre el análisis factorial exploratorio (EFA) y el análisis factorial confirmatorio (CFA)?

¿Qué es el aprendizaje automático en términos simples?

Cómo hacer ingeniería de características para la regresión no lineal correcta

Cómo desarrollar una aplicación que reproduzca música de acuerdo a tu estado de ánimo

¿Cuál es la diferencia entre la retropropagación y la retropropagación a través del tiempo?

¿Qué tema es importante para la ingeniería integrada, las redes neuronales o la automoción moderna?

¿Es aconsejable crear una aplicación basada en el aprendizaje automático y el procesamiento de imágenes sin comprender el concepto matemático subyacente?

¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?

¿Qué es un modelo de mezcla de Bernoulli?

¿Es más probable que una máquina que no ha otorgado un premio mayor otorgue uno que una máquina que acaba de otorgar un premio mayor?

Cómo integrar el marco Tensorflow con XGBoost

¿Qué consejo le darías a los estudiantes de doctorado que comienzan su doctorado en aprendizaje automático?

¿Es posible realizar el aprendizaje en conjunto mediante el apilamiento si solo tengo dos modelos?