Algunas ideas en el aprendizaje automático no se asignan tan fácilmente a la transmisión de datos, por lo que los avances recientes para manejar la transmisión de datos son teóricamente significativos. Por ejemplo, cuando se hace inferencia probabilística en modelos gráficos con un algoritmo como Sum-Product, las funciones de factor (que almacenan la probabilidad conjunta de un subconjunto de variables aleatorias conectado localmente) se consideran estáticas. Agregar observaciones, como sucederá continuamente en una secuencia, significa volver a calcular todo. Puede intuir que el cálculo anterior debería ser reutilizable de alguna manera. Efectivamente, Adaptive Belief Propagation, un impresionante artículo de IMCL de 2015, resuelve cómo hacer esto. Incluso publican algún código, en caso de que esté preguntando sobre el estado del arte porque tiene un problema relacionado con la inferencia PGM que exige el estado del arte.
Otras ideas en el aprendizaje automático se asignan tan fácilmente a la transmisión de datos que nadie se molesta en mencionar que los datos se transmiten en la práctica. El Descenso de gradiente estocástico, el algoritmo de caballo de batalla actualmente involucrado en la mayoría de los documentos ICLR y CVPR y una minoría considerable de documentos ICML y AAAI, funciona con mini lotes aleatoriamente muestreados. Esta familia de métodos nunca necesita observar todo el conjunto de datos, y si los datos vienen de forma asíncrona en una configuración en línea o si están cargados sincrónicamente no importa mucho.
Dentro de la familia de algoritmos que usan flujos de forma natural, está la cuestión de si el flujo trae datos más rápido de lo que el algoritmo puede manejar. Hay algo de trabajo en SGD distribuido que es un desafío de ingeniería conceptualmente bastante simple; simplemente agregue más recursos para hacer que el tamaño de su lote sea efectivamente más grande. Sin embargo, hay algo de trabajo que muestra que en algún momento mantenerse al día con un flujo rápido al aumentar repetidamente el paralelismo de datos se convierte en una mala idea. En resumen, los lotes demasiado grandes conducen a la convergencia a mínimos demasiado agudos que no se generalizan bien. Entonces, especialmente a la luz de las arquitecturas de red que se vuelven cada vez más profundas, la cuestión del paralelismo del modelo comienza a parecer significativa. Sin embargo, el algoritmo de propagación hacia atrás impone un paso en serie bastante estricto seguido de un paso en serie hacia atrás. El papel DeepMind desacoplado de las interfaces neuronales usando gradientes sintéticos se aparta de la retropropagación estricta al predecir localmente un gradiente dado activaciones y luego actualizar los parámetros locales utilizando el gradiente predicho. Y, finalmente, llega el verdadero gradiente que permite que la red de predicción de gradiente se entrene conjuntamente con la red principal. Quizás sorprendentemente, esto funciona bastante bien y proporciona un desarrollo bastante original para manejar flujos de alto rendimiento con algoritmos computacionalmente intensivos.
- ¿Cuáles son algunos textos recientes sobre el aprendizaje a gran escala?
- ¿Qué opina de Sophia, el robot de IA?
- ¿Cómo se puede utilizar el aprendizaje automático, la analítica y la IA junto con la ingeniería mecánica para crear algo que valga la pena?
- ¿Cuáles son las principales startups de Machine Intelligence (AI, ML, Deep Learning) en Israel?
- ¿Cómo podrían las redes neuronales ser un ejemplo de IA simbólica?
Estoy seguro de que solo estoy rascando la superficie aquí; Esta es solo la investigación importante relacionada con las transmisiones que conozco.