¿Es necesario un conjunto de validación si no se realiza un ajuste de hiperparámetro?

Esta respuesta supone una división de tren / validación / prueba como se hace generalmente en ML. Otros campos pueden nombrar los conjuntos de manera diferente.

Un conjunto de validación no es necesario si solo tiene un modelo para seleccionar (ya sea paramétrico o no paramétrico), tendría el mismo propósito que el conjunto de prueba.

Puede comprender intuitivamente que al observar que el conjunto de validación no ‘selecciona’ ningún modelo como si fuera a cambiar el conjunto de validación, ningún otro modelo sería / podría seleccionarse.

Tenga en cuenta que aún sería necesario si selecciona modelos de diferentes familias, lo que no se incluiría en “ajuste de hiperparámetros”. Por ejemplo, podría comparar 5-NN, regresión logística con [matemática] L_2 [/ matemática] regularización y coeficiente de regularización [matemática] \ lambda = 10 ^ {- 2} [/ matemática] y una línea de base de clase máxima simple. Que serían tres modelos, todavía sería necesario un conjunto de validación (pequeño). El mejor desempeño en el conjunto de validación luego se evalúa en el conjunto de prueba para obtener una estimación de puntaje pesimista.

El modelo que implementa se ajusta a todos los datos.

Sí, la validación puede ser necesaria incluso si no hay parámetros para ajustar. Por ejemplo, un modelo de regresión lineal simple no necesita ningún parámetro. Pero si tiene demasiadas covariables en relación con el número de observaciones, entonces un modelo de regresión lineal podría sobreajustar fácilmente los datos. Para detectar el sobreajuste, necesitaría un conjunto de datos de validación.

Editar: después de detectar un sobreajuste, el siguiente curso de acción es reducir el número de covariables mediante la selección de variables. Este paso debe repetirse hasta que se determine un modelo final satisfactorio. Similar a la sintonización de hiperparámetros, esta es una forma de selección de modelo.

More Interesting

¿Cuál es el beneficio de utilizar la agrupación promedio en lugar de la agrupación máxima?

¿Apache Spark es un buen marco para implementar Reinforcement Learning?

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

Cómo hacer clustering de tipos de datos mixtos en Python

¿Existe alguna técnica de aprendizaje automático que pueda transferir automáticamente una historia escrita en texto a un libro de dibujos animados?

¿Cuánto tiempo le lleva a un programador experimentado aprender el aprendizaje automático?

Cómo optimizar las consultas SPARQL

¿Cuáles son algunos usos prácticos o aplicaciones del conjunto de datos de YouTube 8M?

ANNs: ¿Cómo usan las redes convolucionales el 'compartir peso'?

¿Cuáles son los pensamientos de Yoshua Bengio sobre los modelos gráficos probabilísticos?

¿Cómo calificaría un buen algoritmo, buenos datos, buena ingeniería de características en términos de efectividad para el aprendizaje automático?

¿Cuál es la diferencia de enfoque para resolver un desafío de Kaggle y trabajar en un problema de investigación de LA bien definido?

¿Cuál es la ley cero del algoritmo de aprendizaje automático (MLA)?

¿Cuáles son los mejores cursos introductorios para el aprendizaje automático disponibles en Internet para principiantes?

¿Dónde puedo encontrar algunas empresas que trabajen con técnicas de aprendizaje automático y minería de datos, en el campo biomédico?