¿Cómo seleccionaría los datos para capacitar y probar los modelos?

Divide los datos al azar. Dicho esto, generalmente desea utilizar una técnica llamada “muestreo estratificado”. Lo que esto hace es dividir aleatoriamente a los miembros de diferentes poblaciones en la proporción deseada.

Digamos que tiene 100 muestras que desea dividir en 70% de entrenamiento y 30% de prueba. En esas 100 muestras, 90 pertenecen al Grupo A y 10 al Grupo B. Si divide aleatoriamente los datos, puede terminar con un conjunto de entrenamiento que tiene 60 Grupo A + 10 Grupo B, y un conjunto de prueba de 30 Grupo A. Esto no es muy útil ya que nunca podrá probar en su conjunto de prueba si el algoritmo puede clasificar qué muestras pertenecen al Grupo B. Sin embargo, con el muestreo estratificado, el Grupo A se divide 70:30, y lo mismo se aplica al Grupo B. Terminarás con un conjunto de entrenamiento que tiene 63 y 7 muestras para el Grupo A y B, respectivamente. Además, su conjunto de prueba tendrá 27 y 3 muestras para el Grupo A y B, respectivamente. De esta manera, podrá probar mejor si su algoritmo está clasificando adecuadamente sus datos. El mismo procedimiento se puede aplicar a problemas de clasificación de varias clases.

Análisis deAprendizaje automáticoBig Datadatos

Related Content

¿Qué es la selección de variables en bloques cuando se hace un análisis de regresión?

Procesamiento de señal digital: ¿Conoce las razones por las que la deconvolución de imagen (deblur) no siempre funciona?

¿Cuáles son las especificaciones de la computadora utilizada para la red neuronal convolucional?

Cómo encontrar un patrón repetido en una imagen

¿Cuáles son algunos pequeños proyectos iniciales en aprendizaje automático de regresión lineal que un principiante puede hacer en 2-3 días?

¿Cuáles son buenos recursos para aprender sobre la ejecución distribuida en redes neuronales profundas (MPI, allreduce, etc.)?

Cómo hacer una IA de mí mismo

Por lo general, he barajado las muestras de datos y / o seleccionado al azar con una cierta proporción (por ejemplo, 90% de datos de entrenamiento y 10% de pruebas o más bien 85% de entrenamiento, 5% de validación y luego 10% de datos de prueba).

Existen algunas bibliotecas que lo ayudarán a dividir los datos automáticamente, como Scikit-learn (sklearn.model_selection.train_test_split – documentación de scikit-learn 0.19.1) en Python.

Shibui Yusuke

Divide los datos al azar.

Si duda que lo dividió con sesgo, luego divídalo varias veces con validación cruzada.

Shibui Yusuke

More Interesting

¿Qué es el aprendizaje automático?

¿Cuáles son algunas buenas ideas de proyectos o ejemplos para un proyecto de curso de Visión de Computadora basado en Aprendizaje Automático?

¿Qué es el procesamiento de señales y cómo se relaciona con el aprendizaje automático?

¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.

¿Puede el aprendizaje automático realizar un análisis de sentimientos de una palabra clave dada de una conversación?

¿Qué sitio web ofrece 'filtrado colaborativo como servicio'?

¿Puede el aprendizaje automático desarrollar el gusto?

¿Tiene sentido entrenar clasificador para cada clase?

¿Qué ha aprendido sobre el aprendizaje automático, la recuperación de información y la minería de datos después de unirse a una empresa de Internet que se ocupa de big data?

¿El aprendizaje automático es un comienzo de invasión de estadísticas?

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Qué es la agrupación?

¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?

¿Cuáles son las aplicaciones no computacionales de las lecciones del aprendizaje automático?

¿Qué es la traducción automática estadística?

Web Analytics