Incluso utilizando un conjunto de validación, ¿no estamos tratando de maximizar los resultados en el conjunto de prueba? ¿Y al final sobreajustando?

Esto puede ser un problema de hecho. Si está utilizando su conjunto de prueba para seleccionar el “mejor modelo” durante el entrenamiento, entonces puede haber un sobreajuste. Otro problema aquí es que, dado que su conjunto de pruebas no es completamente independiente de la generación de su modelo, el rendimiento final que informa está sesgado. En mi experiencia, si realiza una prueba en un conjunto completamente independiente, el rendimiento será solo ligeramente inferior al “mejor rendimiento” que haya encontrado. Pero no hay forma de garantizar esto. Por lo tanto, en los estudios científicos, las personas utilizan conjuntos de pruebas completamente independientes e invisibles para informar el rendimiento final. Y el conjunto donde selecciona el “mejor modelo” se denomina conjunto de validación en este caso. Hay algunos estudios científicos que no hacen esto, pero algunos serán críticos sobre ellos. Debido al mismo problema, es cuestionable si los conjuntos de datos de uso común aún pueden servir para ser un conjunto de pruebas real. Pero si su objetivo no es una prueba científica, entonces puede ignorar este -por suerte- leve sesgo.

Para evitar 1) sobre ajuste 2) pérdida de información, esto es lo que hago.

como dijo Matthew Lai: “Usamos el conjunto de entrenamiento para ajustar los parámetros, el conjunto de validación para ajustar los hiperparámetros y el conjunto de prueba para elegir qué modelo usar”.

PERO una vez que lo he hecho, fusiono todos los conjuntos y vuelvo a estimar los parámetros. Evita el ajuste excesivo de los parámetros en uno de los tres conjuntos. Desde un punto de vista práctico, siempre me ha parecido bien.

Teóricamente sí. Pero es un nivel tan alto que generalmente no nos preocupamos por sobreajustar en ese nivel.

Usamos el conjunto de entrenamiento para ajustar los parámetros, el conjunto de validación para ajustar los hiperparámetros y el conjunto de prueba para elegir qué modelo usar.

Podemos sobreajustar fácilmente los parámetros porque hay una gran cantidad de grados de libertad. Es por eso que tenemos un conjunto de validación para evitar eso.

A veces podemos sobreajustarnos en hiperparámetros (aunque es mucho más difícil), y es por eso que tenemos un conjunto de pruebas para evitar eso.

Teóricamente podemos sobreajustar en la elección de la arquitectura del modelo, y podemos tener otra partición para evitar eso, pero dado que generalmente solo tenemos unas pocas arquitecturas de modelos para elegir, el riesgo de sobreajustar no es tan alto.

More Interesting

¿Cuál es el mejor instituto de capacitación en ciencia de datos en NCR?

¿Cuáles son algunas ideas para un proyecto de 'sistemas' de big data?

Con más de 50 años, ¿cuáles son mis posibilidades de convertirme en un científico de datos exitoso?

¿Cuál es el mejor recurso en línea para aprender la programación de Python para la ciencia de datos?

¿Cuál es la mejor manera de encajar los equipos de ciencia de datos en una estructura organizacional de desarrollo de productos?

¿Cómo afectan los big data, el aprendizaje automático y la ciencia de datos al campo de la educación?

¿Cuál es la mejor estrategia de licitación para implementar en la producción, sujeto al KPI previsto y al ritmo del presupuesto, en el contexto de la licitación en tiempo real?

¿Cuál es la diferencia entre un científico de datos y un analista de inteligencia de negocios?

¿Qué tipos específicos de aprendizaje automático beneficiarán el análisis de datos para la fabricación y cómo?

¿Puedes compartir algunas fotos de tu lugar de trabajo?

¿Qué controles / auto revisión aplica para la visualización de datos?

¿Vale la pena un Master en Business Analytics para convertirse en un Data Scientist o los bootcamps son tan efectivos para conseguir un trabajo para alguien sin experiencia?

Necesito aprender ciencia de datos desde cero, ¿por dónde empiezo?

¿Cuáles son los cursos en línea que debo seguir secuencialmente para aprender Machine Learning y Python for Data Science desde cero?

¿Qué debo estudiar más si quiero ser un analista / científico de datos?