¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?

Si el resultado que obtuvimos fue en datos que nunca utilizamos para entrenar el modelo o sus hiperparámetros, entonces ese resultado del 80% es de hecho la tasa de éxito de predicción del modelo y el error del 20% es la tasa de error del modelo. Aquí hay dos casos, aunque la conclusión aún sería correcta.

Caso 1. Partimos nuestros datos en tres conjuntos y realizamos la validación y las pruebas de capacitación.

Entonces, digamos que teníamos 100,000 tweets con dos etiquetas ( digamos tweet positivo y negativo) , y lo dividimos en

60,000 para entrenar a nuestro modelo ( digamos una red neuronal ), es decir, dejar que los parámetros del modelo aprendan de los 60,000 tweets etiquetados
otros 20,000 para validar los hiperparámetros del modelo ( número de capas, etc. )
otros 20,000 por solo probar nuestro modelo. Si encontramos que 4,000 tweets se clasificaron erróneamente ( 20% de 20,000 ), entonces esa es la tasa de error de nuestro modelo. Esta tasa de error indica la probabilidad de que nuestro modelo funcione cuando vea tweets adicionales que nunca antes había visto.
Una cosa que deberíamos evitar incluso hacer accidentalmente es dejar que el modelo vea estos 20,000 datos de prueba tanto en la fase de capacitación como de validación. Si lo hiciéramos, nuestra predicción de tasa de error del 20% ya no tendría sentido. Es decir, ya no refleja cómo es probable que funcione el modelo cuando ve datos que nunca antes había visto.

Caso 2. Simplemente tomamos un modelo previamente entrenado y lo usamos con nuestros datos y obtuvimos un 20% de error.

Si bien podemos afirmar que el modelo se realizó con una tasa de error del 20% con nuestros datos, es correcto que aún establezcamos cuál fue la tasa de error proclamada del modelo por aquellos que la publicaron. Da una idea de cuál fue la tasa de error que observamos en relación con el rendimiento del modelo cuando se probó.

Análisis de datosCiencia dedatosTeoría de conjuntos

Cómo descubrir las características más importantes en un conjunto de datos con más de 500 predictores

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Recomienda Redis con Node.js para datos muy grandes? Estoy hablando de millones de datos. ¿Sería bueno si Facebook / Amazon usara Redis?

¿Cuál es la diferencia entre las notaciones big oh, big omega y big theta?

¿Cuáles son las consecuencias de usar la función de error del tren [matemáticas] \ min_ {f \ in \ mathcal {H}} \ max_ {i \ in \ {1… N \}} \ | f (x ^ {(i)}) – y ^ {(i)} \ | ^ 2 [/ math] en lugar del error de tren medio empírico estándar para Machine Learning?

¿Por qué se puede acceder a mi sitio web a través de WiFi pero no a través de datos móviles o punto de acceso móvil?

¿Es posible? Tal vez, si su criterio de éxito hace que un tweet determinado sea correcto o incorrecto. Si está entrenando el modelo en modo por lotes, probablemente sería mejor dividir sus datos en entrenamiento / validación / prueba en el extremo frontal de su tubería. Use el entrenamiento para entrenar, la validación para establecer hiperparámetros y pruebe solo cuando crea que tiene un buen modelo. También puede comparar los resultados de los conjuntos de datos para diagnosticar problemas. Si analiza errores en los datos de entrenamiento, las correcciones necesarias podrían crear un problema de sobreajuste.

Glen Welton Smith

Es bastante posible, pero no he experimentado tal situación hasta ahora, porque cuando divide el conjunto de datos, la proporción de las etiquetas permanece igual, por lo tanto, los predictores predicen similares a cada uno de los conjuntos de datos. Pero dado que la división de datos es aleatoria, puede experimentarla, pero rara vez.

Junaid Effendi

More Interesting

¿Cuál debería ser el flujo de aprendizaje para la ciencia de datos?

¿Cuáles son algunas ideas para un proyecto de 'sistemas' de big data?

¿Cuál es la diferencia entre el desarrollador de Big Data junior y senior?

¿Cuál es el mejor MOOC para comenzar en Data Science?

¿Cuál es el límite de tamaño de archivo en una carga a Slack?

¿Los Sistemas de aprendizaje natural, como Watson Analytics de IBM, alguna vez reemplazarán la necesidad de aprender código para un científico de datos?

¿Cuál es la relación exacta entre Hadoop y Big Data?

¿Qué instituto es mejor para un curso de ciencia de datos en Pune?

¿Cuál es un buen flujo de trabajo de Git para un equipo de análisis o ciencia de datos?

Quiero aprender ciencia de datos en un mes. ¿Cómo lo hago?