Si.
El sobreajuste tiene poco que ver con si el entorno está supervisado o no. Esencialmente, puede dividir sus puntos de datos en dos componentes: patrón + ruido estocástico .
Por ejemplo, si tuviera que modelar el precio de un apartamento, sabe que el precio depende del área del apartamento, no. de dormitorios, etc. Por lo tanto, esos factores contribuyen al patrón: más dormitorios generalmente conducirían a precios más altos. Sin embargo, todos los apartamentos con la misma área y no. de las habitaciones no tienen exactamente el mismo precio. La variación en el precio es el ruido.
- ¿Qué es la regresión de Ridge en términos simples?
- ¿Cuáles son algunos buenos métodos para el procesamiento previo de datos en el aprendizaje automático?
- ¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?
- ¿Qué es la recuperación de información? ¿Qué tan relacionado está con el análisis de datos y el aprendizaje automático?
- ¿Cómo podemos saber si una heurística es mejor que otra sin ejecutarla?
Como otro ejemplo, considere conducir. Dada una curva con una curvatura específica, hay una dirección óptima de dirección y una velocidad óptima. Cuando observa a 100 conductores en esa curva, la mayoría de ellos estaría cerca de ese ángulo de dirección y velocidad óptimos. Pero no tendrán exactamente el mismo ángulo y velocidad de dirección. De nuevo, la curvatura de la carretera contribuye al patrón para el ángulo y la velocidad de dirección, y luego hay ruido que causa desviaciones de este valor óptimo.
Ahora el objetivo del aprendizaje automático es modelar el patrón e ignorar el ruido. Cada vez que un algoritmo intenta ajustar el ruido además del patrón, se sobreajusta.
En la configuración supervisada, normalmente desea hacer coincidir el resultado de una función de predicción con sus etiquetas de entrenamiento. Entonces, en el ejemplo de manejo anterior, desearía predecir con precisión el ángulo de dirección y la velocidad. A medida que agrega más y más variables, como la curvatura de la carretera, el modelo del automóvil, la experiencia del conductor, el clima, el estado de ánimo del conductor, etc., tiende a hacer mejores y mejores predicciones sobre los datos de entrenamiento. Sin embargo, más allá de un punto, agregar más variables no ayuda a modelar el patrón, sino que solo intenta ajustar el ruido. Dado que el ruido es estocástico, esto no se generaliza bien para datos invisibles y, por lo tanto, tiene un error de entrenamiento bajo y un error de prueba alto.
En la configuración no supervisada, tiene alguna noción de la calidad de la solución. Por ejemplo, el problema clásico no supervisado es la agrupación, donde una medida de la calidad de la solución es la similitud de puntos dentro de un grupo. A medida que sigue formando más y más grupos, la similitud sigue aumentando, pero de nuevo, en lugar de agrupar puntos con valores muy similares en un solo grupo, tiende a asignarlos a grupos más finos, en cuyo punto está ajustando el ruido.
La distinción entre patrón y ruido no es obvia en la mayoría de los casos. Por lo tanto, no tiene métodos infalibles para modelar solo el patrón e ignorar el ruido por completo.