Interesante pregunta. Generalmente no. * Para crear un clasificador preciso, es mejor obtener un muestreo representativo .
¿Por qué? Porque digamos que una de las clases aparece el 80% del tiempo en los datos, y la otra aparece el 20% del tiempo … eso sesgará el clasificador hacia el que aparece más. Y eso es bueno, porque el sesgo será proporcional.
Si eligió una división de datos de 50 a 50 clases que no era representativa de los datos reales, entonces el clasificador estaría desproporcionadamente sesgado hacia el que realmente solo aparece el 20% del tiempo, y podría esperar muchos falsos positivos para esa clase como resultado.
- ¿El proceso gaussiano supone que sus covarianzas se mantienen constantes?
- ¿Debo aprender modelado e iluminación después de dominar el modelado en Blender?
- ¿Qué suele hacer que una red neuronal deje de mejorar temprano?
- ¿Es necesario ajustar manualmente la tasa de aprendizaje cuando uso el método de descenso de gradiente estocástico de Adam en la práctica?
- ¿Debería centrarme en conseguir un trabajo o aprender ciencia de datos?
Pruebalo por ti mismo.
*Consideración:
En algunos contextos, es mejor tener un número desproporcionado de falsos positivos para una o más clases, aunque esto hará que el clasificador sea menos preciso.
Por ejemplo, si está creando un clasificador para detectar fraudes, es posible que desee marcar algunas cosas no fraudulentas como fraudulentas para que los humanos puedan hacer un pase manual sobre él para aumentar las probabilidades de atrapar cosas legítimamente fraudulentas.
De lo contrario, podría correr el riesgo de que cosas significativamente más fraudulentas se escapen por las grietas debido al sesgo del clasificador.
De esa forma, tal vez un pequeño porcentaje de personas tenga que soportar la molestia de que se suspenda su cuenta durante un par de horas / días, pero puede evitar 5 veces el fraude (y la pérdida financiera) al hacerlo.
Hay una serie de compensaciones como esta que querrás considerar al crear clasificadores para aplicaciones del mundo real.