¿Por qué los viejos modelos de redes neuronales, como las máquinas Boltzmann, han quedado fuera de la mira?

Actualmente estamos en una burbuja donde el aprendizaje profundo (DL) se está explorando como locos, los algoritmos como las máquinas de Boltzmann y las máquinas de vectores de soporte (SVM), aunque todavía son útiles, tenían sus propias burbujas, tenían sus propias posibilidades. En cualquier momento siempre habrá una tecnología dominante a la que acudirán muchos investigadores, científicos y profesionales. Cada artículo de inteligencia artificial (IA) ahora siempre mencionará DL, sin el cual no encajará y, por lo tanto, tiene una alta probabilidad de ser ignorado. Parece que cada trabajo de IA está en el tren de bombo DL, se están adquiriendo nuevas empresas una vez que anuncian que están trabajando en sistemas DL, porque DL es el nuevo juguete en la ciudad.

Pero la historia ha demostrado que un algoritmo que cae en desgracia no es el final de ese algoritmo, muchas técnicas en DL tienen como 20 años o más, solo se están revisando, con algunos trucos nuevos, pero se amplían como locos usando alto sistemas de hardware informático de alto rendimiento como los potentes sistemas informáticos de Google que utilizan unidades de procesamiento de tensor (TPU). DL es un antiguo algoritmo despertado por Yann LeCun et al después de que utilizó con éxito la propagación hacia atrás y el descenso de gradiente para entrenar una red neuronal convolucional (convNet). En ese momento las redes neuronales estaban fuera del foco de atención.

El trabajo de investigación actual tiene muchas exploraciones que hacer en DL, la base matemática de DL aún no se ha formulado correctamente, pero mira las formulaciones para máquinas de Boltzmann y SVM, están bien fundadas. Por lo tanto, se está haciendo un mayor esfuerzo hacia DL porque es un misterio, funciona muy bien, pero no sabemos cómo lo hace exactamente, es más como una caja negra. Tenemos que echar un vistazo a esa caja negra, actualmente tenemos más curiosidad sobre DL que sobre las máquinas de Boltzmann, es por eso que cada vez que se publica un nuevo artículo sobre DL, da más luz sobre una tecnología de caja negra bastante misteriosa. Actualmente, las máquinas de Boltzmann no nos dan la misma motivación que los sistemas DL, ¿desde cuándo leyeron por última vez sobre un trabajo innovador con máquinas de Boltzmann? Pero siguen apareciendo documentos interesantes [1] sobre DL.

DL también ha demostrado ser muy útil en sistemas de extremo a extremo, encontrará una gran cantidad de trabajo de investigación actual centrado en sistemas de extremo a extremo que requieren muy pocos esfuerzos de ingeniería en el lado humano durante el entrenamiento. El trabajo de investigación se está alejando de las características de ingeniería humana y las funciones de clasificación ajustadas por humanos. Considere la complejidad de un sistema de navegación de robots, los humanos pueden tomar años creando funciones y algoritmos solo para hacer que un robot navegue por un entorno complejo, pero si se desarrollara un modelo de aprendizaje de extremo a extremo para la navegación robótica, tomaría solo unos meses para que la máquina aprenda a navegar. Aunque DL aún no está lo suficientemente avanzado como para que exista un sistema de navegación de este tipo, todavía se puede usar para mejorar los sistemas actuales de navegación de robots. Este es solo un ejemplo de cuán atractivos son los modelos de aprendizaje de extremo a extremo. Las máquinas Boltzmann también se pueden entrenar de extremo a extremo, pero DL es más fácil de entrenar.

DL tiene sus propios desafíos, sin embargo, no leerá tanto sobre los llamados ejemplos adversos [2] tanto en la mayoría de los documentos porque durante este tiempo, cuando DL es el nuevo juguete en la ciudad, a muchos no les gusta escuchar sobre el fracaso casos de sistemas DL. Pero los ejemplos adversos son una amenaza real para los algoritmos DL. Incluso los algoritmos de aprendizaje profundo más avanzados de Google DeepMind pueden ser fácilmente engañados por ejemplos adversos. Estas imágenes adversas son generadas por perturbaciones (ruido) bien optimizadas que son apenas perceptibles para un ojo humano pero para un sistema DL, el efecto puede ser bastante dramático. Esto puede ser muy peligroso para la tecnología de automóviles autónomos u otros campos sensibles como el diagnóstico médico.

Los sistemas DL también son modelos de aprendizaje altamente supervisados ​​que requieren funciones objetivas diferenciables y suaves, aunque el 90% de los problemas reales de IA tienen funciones objetivas no diferenciables y “difíciles”. Tomemos, por ejemplo, el aprendizaje de refuerzo profundo (RL) actualmente es notoriamente difícil de entrenar. Los sistemas DL también consumen muchos datos de entrenamiento y son modelos de aprendizaje no graduales y engorrosos, pero actualmente son los mejores que tenemos ahora, pero aún no se han desarrollado mejores algoritmos, probablemente basados ​​en conjuntos.

Esto significa que DL no es la última tecnología ML, el teorema de no almuerzo gratis, es mejor tener un conjunto de algoritmos diversos que un algoritmo para construir sistemas más inteligentes y más precisos. Entonces, para un ingeniero / investigador de ML, DL es solo otra herramienta genial en la caja de herramientas. Las máquinas de Boltzmann, las máquinas de vectores de soporte, los bosques de decisión y muchos más algoritmos similares no irán a ninguna parte pronto. Solo encuentre formas de casarse con ellos, la mayoría de los sistemas DL de última generación utilizan SVM lineales tiene la cabeza final de toma de decisiones.

Espero que esto ayude.

Notas al pie

[1] [1703.06870] Máscara R-CNN

[2] Atacar el aprendizaje automático con ejemplos adversos

Principalmente porque no funcionan tan bien, en problemas que a la mayoría de las personas les interesan, utilizando métricas que a la mayoría de las personas les importan.

Esa es la realidad del aprendizaje automático: las nuevas técnicas son casi siempre mejores porque si descubrió una nueva técnica que es peor que las técnicas existentes, probablemente no la publicará.

Es la misma razón por la que preferimos nuevos equipos tecnológicos a los antiguos: si diseñó un nuevo dispositivo que es peor que los dispositivos existentes, probablemente no se venderá muy bien.

Hay muchas excepciones: si necesita un entrenamiento muy rápido, los modelos DL modernos no son muy buenos. Si necesita una inferencia extremadamente rápida, tampoco son muy buenas. Si no tiene muchos datos, nuevamente no son muy buenos.

Simplemente sucede que a la mayoría de las personas no les importan demasiado esas cosas y solo quieren una precisión muy buena. Algunas personas se preocupan por esas cosas, y exploran esas otras / antiguas opciones.

En realidad, me gusta el concepto de aprendizaje variable latente en RBM y trato de usarlo en mi tarea de aprendizaje semántico. Desafortunadamente, encuentro que RBM es bastante difícil de entrenar, en parte porque la pérdida de energía libre no es un buen indicador del proceso de aprendizaje y es difícil de converger. Además, creo que las variables visibles de entrada deben ser representaciones muy confiables, como datos sin procesar. Cuando trato de usar la salida de capas ocultas como entrada de RBM y entrenar toda la red de extremo a extremo desde una inicialización aleatoria, no funciona. Por lo tanto, creo que los RBM son más adecuados para el entrenamiento previo sin supervisión que no sea el entrenamiento de extremo a extremo, lo que los hace no tan populares.