¿Existe algún teorema en estadística o aprendizaje automático que muestre que “cuanto mayor es el conjunto de datos, mayor es la precisión”?

TL; DR: ¿Te ayudarán más datos? En estadísticas: tal vez. Dependiendo de qué es exactamente lo que está tratando de mejorar la precisión de.

Ya que también solicita estadísticas, entonces sí las hay. Si tiene muchas mediciones independientes pero inciertas de algún valor, puede combinarlas para obtener una mejor estimación que si solo tuviera unas pocas mediciones.

Para complicarlo un poco, los estadísticos tienden a distinguir entre “precisión” y “exactitud” [1, 2] y, a menudo, es solo la “precisión” lo que mejora. Pero en cualquier caso: ¡más datos ayudan! Para una fórmula concreta, por ejemplo, puede referirse al “error estándar” [3] y calcular cómo disminuye la desviación estándar a medida que agrega más puntos de datos.

Hasta aquí todo bien. Pero esto fue solo una tarea de medición. Para un problema de interpolación, que está más cerca de lo que a menudo realiza el aprendizaje automático, un estadístico puede hacer una interpolación polinómica. Pero hay un número infinito de polinomios que se ajustarán igualmente a su conjunto de datos [4]. ¿Qué tan bien se ajustará la interpolación a puntos de datos invisibles? ¿Quién puede decirlo?
Los teoremas más ampliamente aplicables que se ocupan de este problema, y que es muy aplicable al aprendizaje automático, son los famosos teoremas de No Free Lunch [5,6].

[1] Precisión y precisión
[2] Precisión y precisión
[3] Error estándar
[4] http://math.stackexchange.com/qu…
[5] Sin teorema del almuerzo gratis
[6] No hay teoremas de almuerzo gratis

Aprendizaje automáticoConjuntos de datosEstadísticainformáticaPregunta de existenciaTeoremas y Lemas

Related Content

¿Qué es el shellcode?

¿Cómo ayudan los tipos en la verificación formal de los programas?

¿Cómo comenzar a hacer un mini proyecto en el segundo año de CSE? ¿Cuáles son los pasos a seguir para hacer un mini proyecto?

¿Cómo mejora el rendimiento de la computadora para manejar dispositivos de baja velocidad?

¿Cuál es el propósito de las computadoras basadas en Itanium?

¿Qué es la adquisición de recursos es la inicialización (RAII)?

¿Qué pasaría si casi cualquier persona pudiera escribir software de alta calidad?

La mayor parte del aprendizaje automático se puede ver utilizando el siguiente marco:
Comienza con una clase de funciones [matemática] F [/ matemática], y luego, utilizando los datos, encuentra una [matemática] f \ en F [/ matemática] que se ajusta bien a los datos. Por ejemplo, en SVM lineales, [math] F [/ math] es el conjunto de todos los separadores lineales, y usted encuentra un [math] w [/ math] óptimo resolviendo el problema de optimización.

Ahora, el error de [math] f [/ math] en la tarea se puede descomponer en dos componentes:
Deje que [math] f ^ * [/ math] sea la mejor función en [math] F [/ math] para la tarea.
Entonces, el error de [math] f ^ * [/ math] en la tarea se llama sesgo y la diferencia en los errores de [math] f [/ math] y [math] f ^ * [/ math] se mide por Una cantidad llamada varianza .
Es fácil ver que el sesgo depende de la elección de la clase de función [matemática] F [/ matemática] y es independiente de los datos (ya que no utiliza los datos para encontrar [matemática] f ^ * [/ matemática] ) Si toma una [matemática] F [/ matemática] muy rica con funciones muy complejas, entonces es probable que la mejor función en [matemática] F [/ matemática] tenga un error bajo en la tarea.
La varianza, por otro lado, depende de los datos. Si se le da un conjunto de datos diferente de la misma distribución, su [matemática] f [/ matemática] probablemente cambiará. Entonces, para una clase de función compleja [matemática] F [/ matemática], hay más opciones de [matemática] f [/ matemática], y la varianza (promedio [matemática] ff ^ * [/ matemática]) es mayor.

Ahora, a medida que obtiene más datos, la varianza disminuye, pero el sesgo no. Entonces, el error baja hasta un punto y luego deja de disminuir. Hay varios resultados en la teoría del aprendizaje estadístico sobre esto que se conoce como límites de generalización.

Rugido Nybø

Existe una regla general que vincula la generalidad de una solución a conjuntos de entrenamiento más grandes, pero no existe un teorema. Parece ser valioso tener muchos datos, pero la calidad de los datos es muy importante. Hay muchas maneras de perder precisión de la muestra y si tiene un problema fundamental como un ajuste excesivo, entonces más datos no salvarán el día. Sin embargo, existe un requisito exponencial para obtener más datos de capacitación a medida que aumenta la dimensionalidad del conjunto de problemas. Esto se conoce comúnmente como la maldición de la dimensionalidad. Está relacionado con la escasez de sus datos a medida que agrega más funciones, por lo que para la mayoría de los problemas, la reducción de funciones es algo valioso.

Prasoon Goyal

More Interesting

¿Podría probar que P = NP también es un problema de NP?

¿Qué es el almacenamiento?

¿Cuáles son algunos esfuerzos interesantes de código abierto en computación paralela?

¿Cómo puedo procesar grandes conjuntos de datos con mi computadora portátil? En una competencia de minería de datos, hay un CSV de 1GB de información del cliente para procesar. ¿Hay alguna manera de procesarlo sin cargarlo todo en la RAM, o podría procesar solo una parte a la vez?

¿Cuáles son las ventajas y desventajas de utilizar Google App Engine y Heroku en este momento?

¿Cómo funcionaba la computadora de guía Apollo con tan poco poder de procesamiento?

¿Qué universidad debería elegir para CS, LNMIIT o MAIT o PICT?

¿Aprende más de los cursos de estudio / proyecto independientes en comparación con los cursos regulares en Stanford? (CS)

¿A qué libro debo referirme para la preparación de GATE 2015 en ingeniería eléctrica?

¿Cuál es el mejor enfoque para una tarea de aprendizaje automático?