Divide los datos al azar. Dicho esto, generalmente desea utilizar una técnica llamada “muestreo estratificado”. Lo que esto hace es dividir aleatoriamente a los miembros de diferentes poblaciones en la proporción deseada.
Digamos que tiene 100 muestras que desea dividir en 70% de entrenamiento y 30% de prueba. En esas 100 muestras, 90 pertenecen al Grupo A y 10 al Grupo B. Si divide aleatoriamente los datos, puede terminar con un conjunto de entrenamiento que tiene 60 Grupo A + 10 Grupo B, y un conjunto de prueba de 30 Grupo A. Esto no es muy útil ya que nunca podrá probar en su conjunto de prueba si el algoritmo puede clasificar qué muestras pertenecen al Grupo B. Sin embargo, con el muestreo estratificado, el Grupo A se divide 70:30, y lo mismo se aplica al Grupo B. Terminarás con un conjunto de entrenamiento que tiene 63 y 7 muestras para el Grupo A y B, respectivamente. Además, su conjunto de prueba tendrá 27 y 3 muestras para el Grupo A y B, respectivamente. De esta manera, podrá probar mejor si su algoritmo está clasificando adecuadamente sus datos. El mismo procedimiento se puede aplicar a problemas de clasificación de varias clases.
- ¿Cómo detectamos las anamolias que causan la caída de la máquina y la pérdida de producción en la fabricación?
- ¿Cuáles son algunos métodos de aprendizaje automático supervisados y no supervisados para trabajar con conjuntos de datos que tienen características muy grandes y un bajo número de muestras?
- ¿Por qué querríamos intentar aprender una base demasiado completa en codificación dispersa?
- ¿Puede el preprocesamiento de datos en redes neuronales de IA (aprendizaje profundo) ser dinámico y automatizado (en lugar de estático y manual)?
- ¿Cuáles son los cursos necesarios para aprender la recuperación de información y el aprendizaje automático?