La alta variación, también conocida como sobreajuste, es un trastorno mental de los algoritmos de aprendizaje automático, el algoritmo alucina sobre algo que no es real porque lo ha visto en sus datos de entrenamiento.
Por ejemplo, supongamos que está creando un clasificador para determinar el sentimiento del texto, si en todos sus ejemplos la palabra ‘caniche’ se encuentra en textos con sentimiento negativo, entonces el algoritmo podría razonar que ‘caniche’ es una palabra negativa y clasificarla como negativa cualquier texto nuevo si contienen esa palabra, el algoritmo está alucinando que los caniches son malos.
Ahora es fácil ver cómo agregar más datos soluciona el problema, con muchos datos, el algoritmo verá la palabra caniche utilizada en textos de sentimientos positivos y negativos y probablemente con una ligera tendencia a sentimientos positivos, por lo que simplemente dejará de asumir cualquier texto con La palabra ‘caniche’ es negativa.
- ¿Por qué hay una diferencia de complejidad de tiempo entre los algoritmos de clasificación en Java cuando estoy usando Integer e integer?
- ¿Cuál es la forma más rápida de invertir una cadena con más de 10000 caracteres?
- El comportamiento emergente se encuentra en el núcleo de las ciencias físicas y de la vida: posiblemente por conveniencia computacional. ¿La teoría de la complejidad ofrece ideas aquí?
- Cómo aprender estructuras de datos y algoritmos de manera efectiva para que pueda ser mejor en la programación competitiva a nivel principiante
- ¿Existe un algoritmo para salir de laberintos bidimensionales?
Cuantos más puntos de datos tenga, es menos probable que su algoritmo sea propenso a hacer suposiciones erróneas sobre los datos, por lo que podrá generalizar a nuevos datos de una mejor manera.