¿Por qué obtener más puntos de datos soluciona el problema de la alta variación en un algoritmo de aprendizaje automático?

La alta variación, también conocida como sobreajuste, es un trastorno mental de los algoritmos de aprendizaje automático, el algoritmo alucina sobre algo que no es real porque lo ha visto en sus datos de entrenamiento.

Por ejemplo, supongamos que está creando un clasificador para determinar el sentimiento del texto, si en todos sus ejemplos la palabra ‘caniche’ se encuentra en textos con sentimiento negativo, entonces el algoritmo podría razonar que ‘caniche’ es una palabra negativa y clasificarla como negativa cualquier texto nuevo si contienen esa palabra, el algoritmo está alucinando que los caniches son malos.

Ahora es fácil ver cómo agregar más datos soluciona el problema, con muchos datos, el algoritmo verá la palabra caniche utilizada en textos de sentimientos positivos y negativos y probablemente con una ligera tendencia a sentimientos positivos, por lo que simplemente dejará de asumir cualquier texto con La palabra ‘caniche’ es negativa.

Cuantos más puntos de datos tenga, es menos probable que su algoritmo sea propenso a hacer suposiciones erróneas sobre los datos, por lo que podrá generalizar a nuevos datos de una mejor manera.

Dado que el modelo está demasiado entrenado en datos de entrenamiento, ahora solo está sesgado hacia eso. Lo que significa que podrá predecir datos de entrenamiento con una precisión muy alta, pero no generalizará su modelo para predecir nuevos casos de prueba. Por lo tanto, incluir más datos lo hará más robusto para las nuevas instancias, luego podrá generalizar.

Para vincularlo con ejemplos reales, veamos una secuencia de números: 1, 2, 6, …
Le pido que prediga el próximo número en la serie anterior.
Puede argumentar que es 24 , es decir, utilizando la ecuación a (i) = a (i-1) * i ,
pero qué pasa si digo que la respuesta fue 42, es decir , usando la ecuación a (i) = a (i-1) ^ 2 + a (i-1) .
En este caso, usted se enfoca únicamente en el conjunto de capacitación y no puede generalizar casos futuros.

Por otro lado, si te hubiera dado la serie: 1, 2, 6, 42, 1806,
entonces también debería generalizar casos futuros, ya que se le da más conjunto de datos para capacitarse.

Esto no es lo mismo en caso de problemas de alta varianza, pero podrá obtener la esencia de por qué lo hacemos.

En términos simples, cuanto mayor sea su muestra, más se acercará a los valores de población para sus estadísticas.

Cuando solo ha muestreado 3 observaciones de un posible 7 mil millones, entonces no estaría seguro de si el nivel medio para esas es la verdadera media. Por lo tanto, su variación es amplia y aún no puede hacer una estimación precisa . Cuanto más se acerque al tamaño de la población, más seguro estará de que su estadística se acerque al valor real de la población, por lo que su variación se reducirá y su estimación se volverá más precisa .

More Interesting

He tenido algunos problemas con la recursividad desde hace un tiempo, desde que comencé a estudiar algoritmos. ¿Hay algún recurso / método en particular que te haya ayudado a entenderlo completamente y que puedas recomendar?

¿Cómo funciona el algoritmo iPod shuffle?

¿Cómo dirigen los sistemas de guía del vehículo de lanzamiento la carga útil hacia órbitas tan precisas?

¿Dónde debo comenzar una estructura de datos?

¿Hay alguna estructura de datos que pueda realizar las funciones de inserción, búsqueda y eliminación en O (log n)?

Cómo aprender algoritmos anticolisión RFID

¿Cuáles son algunas de las estructuras de datos / algoritmos de clasificación más interesantes?

Cómo resolver el problema de 'La lista negra' en un CodeSprint reciente de HackerRank

¿Qué imprime este código? ¿Cuál es la función de EOLN en este ejemplo?

¿Hay algún modelo físico o fenómeno que permita resolver rápidamente los problemas NP-hard?

Cómo comenzar a aprender cómo crear algoritmos de comercio Quant en Java

¿Es posible tener análisis predictivos utilizando motores de recomendación? En caso afirmativo, ¿cuáles son algunos de los algoritmos de análisis predictivo utilizados por los motores de recomendación?

¿Se puede demostrar que es imposible volver a un entero inicial mayor que uno si aplica un algoritmo de multiplicar por tres y agregar uno cuando es impar y dividir por dos si es par?

¿Por qué chupo la programación (algoritmos de programación dinámica en particular)?

¿Cómo se puede usar un algoritmo genético para clasificar las soluciones candidatas?