¿Existe algún teorema en estadística o aprendizaje automático que muestre que “cuanto mayor es el conjunto de datos, mayor es la precisión”?

TL; DR: ¿Te ayudarán más datos? En estadísticas: tal vez. Dependiendo de qué es exactamente lo que está tratando de mejorar la precisión de.

Ya que también solicita estadísticas, entonces sí las hay. Si tiene muchas mediciones independientes pero inciertas de algún valor, puede combinarlas para obtener una mejor estimación que si solo tuviera unas pocas mediciones.

Para complicarlo un poco, los estadísticos tienden a distinguir entre “precisión” y “exactitud” [1, 2] y, a menudo, es solo la “precisión” lo que mejora. Pero en cualquier caso: ¡más datos ayudan! Para una fórmula concreta, por ejemplo, puede referirse al “error estándar” [3] y calcular cómo disminuye la desviación estándar a medida que agrega más puntos de datos.

Hasta aquí todo bien. Pero esto fue solo una tarea de medición. Para un problema de interpolación, que está más cerca de lo que a menudo realiza el aprendizaje automático, un estadístico puede hacer una interpolación polinómica. Pero hay un número infinito de polinomios que se ajustarán igualmente a su conjunto de datos [4]. ¿Qué tan bien se ajustará la interpolación a puntos de datos invisibles? ¿Quién puede decirlo?
Los teoremas más ampliamente aplicables que se ocupan de este problema, y ​​que es muy aplicable al aprendizaje automático, son los famosos teoremas de No Free Lunch [5,6].

[1] Precisión y precisión
[2] Precisión y precisión
[3] Error estándar
[4] http://math.stackexchange.com/qu…
[5] Sin teorema del almuerzo gratis
[6] No hay teoremas de almuerzo gratis

La mayor parte del aprendizaje automático se puede ver utilizando el siguiente marco:
Comienza con una clase de funciones [matemática] F [/ matemática], y luego, utilizando los datos, encuentra una [matemática] f \ en F [/ matemática] que se ajusta bien a los datos. Por ejemplo, en SVM lineales, [math] F [/ math] es el conjunto de todos los separadores lineales, y usted encuentra un [math] w [/ math] óptimo resolviendo el problema de optimización.

Ahora, el error de [math] f [/ math] en la tarea se puede descomponer en dos componentes:
Deje que [math] f ^ * [/ math] sea la mejor función en [math] F [/ math] para la tarea.
Entonces, el error de [math] f ^ * [/ math] en la tarea se llama sesgo y la diferencia en los errores de [math] f [/ math] y [math] f ^ * [/ math] se mide por Una cantidad llamada varianza .
Es fácil ver que el sesgo depende de la elección de la clase de función [matemática] F [/ matemática] y es independiente de los datos (ya que no utiliza los datos para encontrar [matemática] f ^ * [/ matemática] ) Si toma una [matemática] F [/ matemática] muy rica con funciones muy complejas, entonces es probable que la mejor función en [matemática] F [/ matemática] tenga un error bajo en la tarea.
La varianza, por otro lado, depende de los datos. Si se le da un conjunto de datos diferente de la misma distribución, su [matemática] f [/ matemática] probablemente cambiará. Entonces, para una clase de función compleja [matemática] F [/ matemática], hay más opciones de [matemática] f [/ matemática], y la varianza (promedio [matemática] ff ^ * [/ matemática]) es mayor.

Ahora, a medida que obtiene más datos, la varianza disminuye, pero el sesgo no. Entonces, el error baja hasta un punto y luego deja de disminuir. Hay varios resultados en la teoría del aprendizaje estadístico sobre esto que se conoce como límites de generalización.

Existe una regla general que vincula la generalidad de una solución a conjuntos de entrenamiento más grandes, pero no existe un teorema. Parece ser valioso tener muchos datos, pero la calidad de los datos es muy importante. Hay muchas maneras de perder precisión de la muestra y si tiene un problema fundamental como un ajuste excesivo, entonces más datos no salvarán el día. Sin embargo, existe un requisito exponencial para obtener más datos de capacitación a medida que aumenta la dimensionalidad del conjunto de problemas. Esto se conoce comúnmente como la maldición de la dimensionalidad. Está relacionado con la escasez de sus datos a medida que agrega más funciones, por lo que para la mayoría de los problemas, la reducción de funciones es algo valioso.