¿Cuál es la definición de ‘conjunto de desarrollo’ en el aprendizaje automático?

Datos de capacitación, desarrollo y prueba:

Conjunto de entrenamiento, como su nombre indica, este conjunto de datos se usa para entrenar a su clasificador. Se necesita una gran parte de su conjunto de datos original.
Conjunto de desarrollo, utilizado durante la evaluación de su clasificador con diferentes configuraciones o variaciones en la representación de características. Se llama conjunto de desarrollo, ya que lo está utilizando mientras desarrolla su clasificador. Puede estar un poco sesgado, por eso necesitamos un tercer tipo de conjunto de datos.
Conjunto de prueba, conjunto de datos en el que finalmente verifica la precisión de su clasificador y obtiene resultados imparciales.

Nota: Su instructor quiere que desarrolle un clasificador usando el conjunto de entrenamiento que debería funcionar bien en el conjunto de desarrollo. Y, muy probablemente, su instructor finalmente verificará los resultados de su clasificador en el conjunto de prueba, que no compartió con usted.

¡Espero eso ayude!

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Cómo se pueden entender intuitivamente las dimensiones de las entradas LSTM?

¿Cómo podemos suprimir el ruido de fondo en un teléfono durante una llamada telefónica?

¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?

¿Qué son los puertos TCP? ¿Qué significa TCP?

¿Debo usar juicios de relevancia explícitos o comentarios de clics implícitos para recopilar datos de capacitación para construir un modelo de Aprendizaje para clasificar?

El conjunto de desarrollo es solo otro nombre para el conjunto de validación, que se utiliza para ajustar los parámetros de su algoritmo de entrenamiento y, de alguna manera, guiarlo para evitar un ajuste excesivo. Para obtener más detalles, consulte: la respuesta de Shehroz Khan a ¿Qué es un conjunto de datos de entrenamiento y un conjunto de datos de prueba en aprendizaje automático? ¿Cuáles son las reglas para seleccionarlos?

Dmitriy Genzel

No hay una diferencia fundamental, como usted dice: son solo datos. Por lo general, sin embargo, divide sus datos en dos partes: utiliza su conjunto de desarrollo como conjunto de evaluación mientras se desarrolla bien. No desea utilizar el conjunto de evaluación para esto porque a medida que construye su sistema y ajusta sus parámetros, terminaría esencialmente mirando el conjunto de evaluación haciendo experimentos repetidos, tal vez incluso haciendo una búsqueda automática del espacio de parámetros, y tal vez al mirarlo realmente para descubrir cuáles son los errores. Si lo hace en el conjunto de desarrollo, es perfectamente kosher, y cuando tiene listo el sistema final, lo ejecuta en el conjunto de evaluación real.

Alistair Shen

En mi opinión, el “conjunto de desarrollo” es una parte integral de los procesos de aprendizaje automático donde los resultados de ciertos protocolos de prueba se comparan y evalúan para su validez. Un proceso de validación basado o derivado de conjuntos estadísticos recopilados de datos de tendencias …

Un proceso de validación de datos resultante o que conducirá a la creación de un nuevo conjunto de pruebas o series de rutinas. Se necesitaba un conjunto más avanzado de protocolos de prueba para ajustar los resultados de los anteriores …

Un proceso iterativo de ajuste fino que forma parte del conjunto de desarrollo. Donde la serie de resultados ahora se compara con los resultados reales reunidos … hasta que se cumplan y satisfagan todas las expectativas.

Alistair Shen

More Interesting

Estoy interesado en el aprendizaje automático y la inteligencia artificial y recién comencé a aprender Python. ¿Qué otras habilidades debo tener en mi haber para tener éxito en este campo?

¿Cuáles son las mejores prácticas en torno al aprendizaje automático y los sistemas de recomendación para sitios de trabajo?

¿Por qué los investigadores de IA se centran solo en problemas de regresión y clasificación?

¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?

¿Qué es la agrupación de datos?

¿Qué tan cerca estamos de poder crear máquinas autorreplicantes que puedan replicarse utilizando minerales que se encuentran en el espacio exterior?

Si el error de una red neuronal obtiene un buen rendimiento, pero si el entrenamiento aumenta por más tiempo, ¿cuál podría ser el problema con el entrenamiento?

¿Cuál es la diferencia entre rpart y randomForest en R?

¿Qué son los algoritmos recurrentes de redes neuronales?

¿Hay algún artículo que justifique la normalización de los valores de los elementos en los sistemas de recomendación?