¿Qué documentos debo leer para conocer el estado del arte en el aprendizaje automático en las transmisiones, incluidos los análisis y la predicción?

Algunas ideas en el aprendizaje automático no se asignan tan fácilmente a la transmisión de datos, por lo que los avances recientes para manejar la transmisión de datos son teóricamente significativos. Por ejemplo, cuando se hace inferencia probabilística en modelos gráficos con un algoritmo como Sum-Product, las funciones de factor (que almacenan la probabilidad conjunta de un subconjunto de variables aleatorias conectado localmente) se consideran estáticas. Agregar observaciones, como sucederá continuamente en una secuencia, significa volver a calcular todo. Puede intuir que el cálculo anterior debería ser reutilizable de alguna manera. Efectivamente, Adaptive Belief Propagation, un impresionante artículo de IMCL de 2015, resuelve cómo hacer esto. Incluso publican algún código, en caso de que esté preguntando sobre el estado del arte porque tiene un problema relacionado con la inferencia PGM que exige el estado del arte.

Otras ideas en el aprendizaje automático se asignan tan fácilmente a la transmisión de datos que nadie se molesta en mencionar que los datos se transmiten en la práctica. El Descenso de gradiente estocástico, el algoritmo de caballo de batalla actualmente involucrado en la mayoría de los documentos ICLR y CVPR y una minoría considerable de documentos ICML y AAAI, funciona con mini lotes aleatoriamente muestreados. Esta familia de métodos nunca necesita observar todo el conjunto de datos, y si los datos vienen de forma asíncrona en una configuración en línea o si están cargados sincrónicamente no importa mucho.

Dentro de la familia de algoritmos que usan flujos de forma natural, está la cuestión de si el flujo trae datos más rápido de lo que el algoritmo puede manejar. Hay algo de trabajo en SGD distribuido que es un desafío de ingeniería conceptualmente bastante simple; simplemente agregue más recursos para hacer que el tamaño de su lote sea efectivamente más grande. Sin embargo, hay algo de trabajo que muestra que en algún momento mantenerse al día con un flujo rápido al aumentar repetidamente el paralelismo de datos se convierte en una mala idea. En resumen, los lotes demasiado grandes conducen a la convergencia a mínimos demasiado agudos que no se generalizan bien. Entonces, especialmente a la luz de las arquitecturas de red que se vuelven cada vez más profundas, la cuestión del paralelismo del modelo comienza a parecer significativa. Sin embargo, el algoritmo de propagación hacia atrás impone un paso en serie bastante estricto seguido de un paso en serie hacia atrás. El papel DeepMind desacoplado de las interfaces neuronales usando gradientes sintéticos se aparta de la retropropagación estricta al predecir localmente un gradiente dado activaciones y luego actualizar los parámetros locales utilizando el gradiente predicho. Y, finalmente, llega el verdadero gradiente que permite que la red de predicción de gradiente se entrene conjuntamente con la red principal. Quizás sorprendentemente, esto funciona bastante bien y proporciona un desarrollo bastante original para manejar flujos de alto rendimiento con algoritmos computacionalmente intensivos.

Estoy seguro de que solo estoy rascando la superficie aquí; Esta es solo la investigación importante relacionada con las transmisiones que conozco.

More Interesting

¿Es posible realizar una conmutación por error durante un solo ciclo de solicitud-respuesta HTTP sin volver a intentarlo? ¿Puede una máquina recibir una solicitud http y otra responder?

¿Es importante el modelado de un sistema (aquí, un robot del mundo real)?

¿Cuál es la diferencia entre el aprendizaje automático y las redes neuronales?

¿Por qué dijo Elon Musk que hay un "posible resultado peligroso" para lo que está haciendo la empresa Vicarious?

¿Cómo afectarán los avances en inteligencia artificial a la industria de los videojuegos?

¿Por qué SkyNet no envió el primer Terminator a tiempo con una descarga de su sistema operativo por seguridad?

¿Cómo pueden los robots tomar mejor los comandos verbales humanos?

Dado que los trabajos relacionados con la inteligencia artificial casi siempre requieren varios años de experiencia, ¿con qué comienzan las personas si quieren trabajar en IA?

Cómo hacer que una tarjeta interactúe con una máquina

¿Brain AI (usuario de Quora) es realmente un algoritmo de IA o es una cuenta troll?

¿Cuál es la salida de una red neuronal para la agrupación supervisada de datos secuenciales?

¿Cuáles son tus compañías de robótica favoritas en este momento?

¿Cómo escribe un programador un rastreador web que hace clic en la página?

Inteligencia artificial: ¿Qué significa utilizar 'métodos de aprendizaje métrico además del aprendizaje profundo'?

Si en 2024 alguien pone a un bebé con un traje y una máscara de realidad virtual (Tierra), ¿son reales las personas y los animales con IA?