¿Puede ocurrir un sobreajuste en un algoritmo de aprendizaje no supervisado?

Si.

El sobreajuste tiene poco que ver con si el entorno está supervisado o no. Esencialmente, puede dividir sus puntos de datos en dos componentes: patrón + ruido estocástico .

Por ejemplo, si tuviera que modelar el precio de un apartamento, sabe que el precio depende del área del apartamento, no. de dormitorios, etc. Por lo tanto, esos factores contribuyen al patrón: más dormitorios generalmente conducirían a precios más altos. Sin embargo, todos los apartamentos con la misma área y no. de las habitaciones no tienen exactamente el mismo precio. La variación en el precio es el ruido.

Como otro ejemplo, considere conducir. Dada una curva con una curvatura específica, hay una dirección óptima de dirección y una velocidad óptima. Cuando observa a 100 conductores en esa curva, la mayoría de ellos estaría cerca de ese ángulo de dirección y velocidad óptimos. Pero no tendrán exactamente el mismo ángulo y velocidad de dirección. De nuevo, la curvatura de la carretera contribuye al patrón para el ángulo y la velocidad de dirección, y luego hay ruido que causa desviaciones de este valor óptimo.

Ahora el objetivo del aprendizaje automático es modelar el patrón e ignorar el ruido. Cada vez que un algoritmo intenta ajustar el ruido además del patrón, se sobreajusta.

En la configuración supervisada, normalmente desea hacer coincidir el resultado de una función de predicción con sus etiquetas de entrenamiento. Entonces, en el ejemplo de manejo anterior, desearía predecir con precisión el ángulo de dirección y la velocidad. A medida que agrega más y más variables, como la curvatura de la carretera, el modelo del automóvil, la experiencia del conductor, el clima, el estado de ánimo del conductor, etc., tiende a hacer mejores y mejores predicciones sobre los datos de entrenamiento. Sin embargo, más allá de un punto, agregar más variables no ayuda a modelar el patrón, sino que solo intenta ajustar el ruido. Dado que el ruido es estocástico, esto no se generaliza bien para datos invisibles y, por lo tanto, tiene un error de entrenamiento bajo y un error de prueba alto.

En la configuración no supervisada, tiene alguna noción de la calidad de la solución. Por ejemplo, el problema clásico no supervisado es la agrupación, donde una medida de la calidad de la solución es la similitud de puntos dentro de un grupo. A medida que sigue formando más y más grupos, la similitud sigue aumentando, pero de nuevo, en lugar de agrupar puntos con valores muy similares en un solo grupo, tiende a asignarlos a grupos más finos, en cuyo punto está ajustando el ruido.

La distinción entre patrón y ruido no es obvia en la mayoría de los casos. Por lo tanto, no tiene métodos infalibles para modelar solo el patrón e ignorar el ruido por completo.

Depende del algoritmo, pero en general, sí.

Por ejemplo, tome un codificador automático simple, que toma la entrada, la codifica en una dimensión inferior y luego puede reproducir la entrada en el paso de decodificación. Si tiene muy pocos ejemplos de entrenamiento, muy poca regularización y / o una complejidad de modelo demasiado alta, el modelo puede simplemente ‘memorizar’ los ejemplos de entrenamiento que le gustaría recrear, y no aprender realmente cómo codificarlos de manera eficiente y efectiva. Cuando se dan ejemplos nuevos e invisibles, el autoencoder no podrá reproducirlos de manera efectiva.

Cada vez que tiene una función objetivo que es un proxy para su verdadero objetivo, corre el riesgo de sobreajuste, ya que el sobreajuste es cuando el modelo funciona bien en el proxy y mal en el verdadero objetivo. En un autoencoder, el codificador podría funcionar bien en el proxy (error de reconstrucción en el conjunto de entrenamiento) y mal en el verdadero objetivo (compresión eficiente, representación, reconstrucción del conjunto de prueba), al igual que un algoritmo supervisado podría funcionar bien en el error de entrenamiento y mal en error de prueba.

More Interesting

¿Qué método de aprendizaje profundo usar para clasificar archivos de texto?

¿Cómo elijo theta0, thetaL y thetaU en un modelo de proceso gaussiano de scikit-learn?

¿Por qué el 'modelo neuronal McCulloch-Pitts' también se conoce como puerta umbral lineal?

¿Cuáles serán los casos de uso de aprendizaje automático más grandes de 2017?

¿Cuáles son las cosas divertidas que encontró en el procesamiento del lenguaje natural (PNL)?

¿Cuál es la diferencia entre IA, aprendizaje automático y aprendizaje profundo?

¿Cuáles son las mejores conferencias sobre aprendizaje automático para el procesamiento de imágenes médicas en 2016?

¿Cuál es mejor, el aprendizaje automático de Stanford en Coursera o un nanogrado Udacity?

¿Cuáles son las mejores herramientas para la minería de datos en Internet? ¿Qué debo usar para configurar un evento automático / alerta de tendencia?

Cómo saber si mi modelo de regresión es heteroscedastic u homoscedastic de mi modelo de residuos

¿Cómo sabemos de antemano qué características funcionarán mejor para la clasificación?

¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?

¿Qué usos novedosos hay para el aprendizaje de refuerzo profundo?

¿Por qué mi red neuronal artificial predice demasiados falsos negativos (FN)?