¿Existe una justificación “rigurosa” de por qué los algoritmos de aprendizaje profundo necesitan una gran cantidad de datos?

En realidad, la pregunta debería ser la opuesta. ¿Por qué el aprendizaje profundo es perfecto para crear un modelo a partir de una gran cantidad de datos?

La mayoría de los algoritmos de aprendizaje automático son iguales e incluso mejores que DL para una pequeña cantidad de datos. Sin embargo, ¿los algoritmos tradicionales de ML no se escalan bien para una gran cantidad de datos? Por qué ? Debido a la complejidad algorítmica. Por supuesto, lo mejor que puede hacer es una dependencia lineal de la cantidad de datos para la creación de un modelo que sea razonablemente bueno. DL hace exactamente eso. El tamaño del modelo suele ser mucho menor en comparación con los datos de entrenamiento. Las innovaciones arquitectónicas sobre el modelo base (Redes neuronales convolucionales, Redes neuronales recurrentes) ayudan a obtener lo mejor de ciertos tipos de datos (imagen / video / voz / documento, etc.).

Puedo dar una justificación “lógica” en lugar de rigurosa. No tiene nada que ver con perspectivas técnicas. Al menos me convenzo de esta manera;

Siempre considero una red neuronal o cualquier algoritmo basado en el aprendizaje profundo como un estudiante graduado de secundaria que quiere ser abogado, y la universidad a la que se unirá somos nosotros mismos. Cuantos más libros, casos de estudio, habilidades de la corte, explicación de la constitución, habilidades de razonamiento analítico y lógico, exploración de leyes penales, pruebas, evaluación y otros muchos datos apropiados en los que la universidad lo entrena durante el programa de 3 años, más abogado superior es ‘ Estaré Podrá resolver y concluir cosas a las que nunca ha estado expuesto.

Una analogía más, imagine un algoritmo de aprendizaje profundo entrenado en una gran cantidad de datos cuando se gradúa del MIT, y un algoritmo que no está lo suficientemente capacitado como graduado de una universidad extremadamente baja. Podrá comparar su rendimiento cuando se implemente en un lugar de trabajo.

Cobertura de código: Wikipedia en millones de nodos.

En una palabra, cualquier programa de aprendizaje automático necesita una buena cantidad de datos para ser probado adecuadamente. Sin embargo, la rama de Deep Learning nació y se desarrolló justo cuando alguien quería combinar el aprendizaje automático con Big Data, en un intento de aproximar lo más posible la respuesta de los programas al análisis real de la “realidad” a la que nuestro cerebro está acostumbrado. hacer. Personalmente, creo que necesitamos profundizar nuestro conocimiento de la neurociencia para poder salir de un sobre en el que creo que estamos cazando: ¡un enfoque “muscular” de Big Data no siempre es sinónimo de una verdadera inteligencia!