¿Qué son las máquinas de aprendizaje extremo?

Extreme Learning Machines es un nombre deslumbrante sobre una vieja idea que aparentemente se ha vuelto injustificadamente conocida y respetada en los círculos académicos chinos hasta el punto de que una de las otras dos personas que respondieron a esta pregunta antes de mí sintió la necesidad de permanecer en el anonimato debido a una actitud bastante leve. y comentarios no despectivos.

El ELM es básicamente la idea de una proyección aleatoria seguida de una regresión lineal, aunque se han considerado muchas variantes, incluidas la agrupación, las subredes aleatorias, etc. Estas cosas funcionan, y para algunos problemas funcionan tan bien como cualquier otra cosa, generalmente problemas pequeños o medianos. con datos relativamente pequeños.

Las proyecciones aleatorias se han utilizado durante mucho tiempo, bajo ese nombre desde 2001. La publicación de Yann LeCun mencionada en la respuesta de Shehroz Khan (Yann LeCun) menciona a Rosenblatt (1958), por ejemplo. La informática de reservorios como término ha existido durante más de una década, y las máquinas de estado líquido y las redes de estado de eco utilizan conexiones y pesos aleatorios.

Si te desplazas hacia abajo en la publicación de LeCun, encontrarás una referencia a esta denuncia de ELM:

TheAnonymousEmail.com

Los autores y los partidarios rechinarán los dientes como lo hizo uno con el hilo de LeCun, pero la naturaleza de su defensa de este nombre huele a partidismo nacionalista, no a desprendimiento académico.

Con respecto a las neuronas aleatorias, ni siquiera tiene que detenerse en una capa. Muchos investigadores han utilizado proyecciones aleatorias para obtener características simples en problemas de robótica y control en los que no se tiene una señal de aprendizaje fuerte, por ejemplo, en la detección comprimida o el aprendizaje de refuerzo profundo. Otros han utilizado redes convolucionales profundas completamente aleatorias para la incorporación de características.

La conclusión es que las proyecciones aleatorias y las redes aleatorias funcionan bien si tienes suficientes neuronas ocultas. Finalmente, las neuronas aleatorias llenarán gradualmente el espacio de posibles características si se inicializan correctamente. Obviamente, puede obtener un mejor rendimiento utilizando menos neuronas si las adapta; Es por eso que normalmente entrenamos todas las conexiones en redes neuronales. Pero si tiene una red aleatoria lo suficientemente grande, su rendimiento puede acercarse al de una red capacitada. Y quizás por un problema bastante difícil, la cantidad de neuronas requeridas es tan grande que las redes aleatorias de ese tamaño son igual de efectivas en el aprendizaje. De hecho, tal vez la IA general es solo un problema. Pero eso todavía no explica por qué los cerebros humanos tienen el aprendizaje y la adaptación incorporados a través de la corteza. E independientemente, una sola capa de neuronas no es suficiente para resolver muchas subtareas compartidas en conjunto.

Parece que ELM es una red neuronal de alimentación de capa oculta única, pero no utiliza el descenso de gradiente (ni ningún otro método) para ajustar sus parámetros. ELM muestra que los nodos ocultos pueden generarse aleatoriamente y no necesitan ser ajustados. ELM funciona súper rápido en comparación con la arquitectura tradicional MLP / Deep Learning con un rendimiento comparable. Se pueden encontrar más detalles aquí Neuronas aleatorias, características aleatorias, núcleos
Una pregunta intrigante es, si ELM ofrece un rendimiento comparable con una tasa de ejecución rápida, ¿por qué no es tan popular como el marco de Deep Learning / MLP? Una discusión interesante se puede encontrar aquí Página en reddit.com

El algoritmo aplica una distorsión aleatoria (pero regular) a la entrada y luego resuelve un sistema lineal (regresión de mínimos cuadrados).

Parece bastante fácil y útil, pero hay un área muy estrecha de este método simple, en conjuntos de datos pequeños, este tipo de red de 2 capas con una primera capa aleatoria puede funcionar bien. La desventaja es que el número de neuronas en la capa oculta puede ser terrible.

Para algunos conjuntos de datos de juguetes, si no tiene una noción previa de la escala para la primera capa y los pesos aleatorios, entonces no puede solucionar su error mediante el aprendizaje. Por lo tanto, esa solución lineal puede estar mal condicionada.

Además, es una obligación para todos notar que existen disputas sobre el término ‘ELM’ vs ‘RVFL’ y la originalidad en la comunidad académica. Supongo que este tipo de cosas pasan todos los días.

Yann LeCun – ¿Qué hay de bueno en “Extreme Learning …
Neuronas aleatorias, características aleatorias, núcleos
La página web oficial sobre los orígenes de las máquinas de aprendizaje extremo (ELM)

En resumen, sin pensar en los asuntos académicos caóticos (-_-

), la única conclusión es que estas redes neuronales de alimentación de 2 capas con pesos aleatorios deben considerarse cuidadosamente antes de la aplicación en la vida real.

Soy estudiante chino, así que será mejor que sea anónimo. Todos saben la razón.

Creo que ELM es un nuevo nombre de red neuronal oculta única entrenada con un algoritmo de aprendizaje pseudoinverso.

Puede leer mis trabajos anteriores, y en comparación con el nombre ELM apareció por primera vez en IJCNN 2004, también se extiende en Neurocumputing2006.

[1] P. Guo, CLP Chen e YG Sun, “Un aprendizaje supervisado exacto para una red neuronal supervisada de tres capas”, Actas de la Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP’95), pp.1041-1044, Beijing, 1995.

[2] P. Guo y M. Lyu, “Algoritmo de aprendizaje pseudoinverso para las redes neuronales de alimentación directa”, en Avances en redes y aplicaciones neuronales, en NE Mastorakis, Ed., Avances en redes y aplicaciones neuronales, Puerto De La Cruz, Tenerife, Islas Canarias, España, febrero, págs. 321–326, 2001.

[3] P. Guo y M. Lyu, “Un algoritmo de aprendizaje pseudoinverso para redes neuronales de avance con aplicaciones de generalización apiladas para datos de crecimiento de confiabilidad de software”, Neurocomputing , vol. 56, págs. 101-121, 2004, (en línea en 2003).

Puede ver las máquinas de aprendizaje extremo como un tipo de memoria asociativa basada en proyecciones aleatorias y algún tipo de función de transferencia. La función de transferencia puede ser lineal, umbral (y = 1 si x> 0 = 0), y = -1 si x <0), raíz cuadrada con signo (y = srt (x) si x> = 0, y = -sqr (-x) si x <0), cuadrado (y = x * x) etc. Dando una sensibilidad diferente a pequeños cambios en el vector de entrada, estados del atractor, efectos de corrección de errores, etc. Sin embargo, la capacidad sigue siendo la misma.

La versión de umbral bipolar tiene un algoritmo de entrenamiento muy rápido y explicable en el que se ve la proyección aleatoria y el umbral como un hash sensible a la localidad y se deducen algunas matemáticas muy simples y agradables. Eso también proporciona una manera de entender cómo se puede usar el mismo algoritmo de aprendizaje exactamente de la misma manera con otras funciones de transferencia, como la raíz cuadrada con signo.

Las proyecciones aleatorias requeridas se pueden hacer rápidamente utilizando el cambio aleatorio de signo de los datos de entrada (recalculable) seguido de la transformación rápida de Walsh Hadamard. Ambas operaciones dejan la longitud del vector sin cambios, lo cual es un hecho útil tanto para las máquinas de aprendizaje extremo como para la informática de yacimientos:

S6Regen / Asociativo-Memoria-y-Auto-organización-Mapas-Experimentos

Proyecciones aleatorias y la distribución gaussiana usando el WHT

Los ELM son un nuevo sabor de los métodos de proyección aleatoria con algunas buenas propiedades teóricas (aproximador universal …) y la capacidad de ajustar un modelo a través de métodos de mínimos cuadrados. Pueden ser de una sola capa o de aprendizaje profundo y son bastante comunes en China hoy.

More Interesting

¿Por qué el suavizado aditivo también se denomina suavizado de Laplace?

¿Qué tan precisos son los convertidores de voz a texto que están en uso, a nivel mundial (diferentes pronunciaciones)?

Cómo diferenciar entre un programa inteligente y un programa normal en el contexto de la inteligencia artificial

¿Cómo creó OpenAI el bot del juego Dota 2 que supera a los profesionales?

¿Cómo afectará la IA a la economía?

¿Qué diferencia exactamente una red neuronal recurrente de una red de alimentación directa con una ventana de tiempo limitado?

¿Los robots van a conquistar el universo?

¿Cuán biológicamente realistas son los modelos computacionales de las neuronas?

¿Dónde dibujan la inteligencia artificial y la inteligencia humana una línea muy fina?

¿Qué hay detrás de un agente virtual en casa?

Soy ingeniero industrial, y me gustaría continuar con los estudios de doctorado en inteligencia artificial en algunos de los laboratorios de investigación de primer nivel en los Estados Unidos. ¿Hay algún problema especial que sugiera que tenga en cuenta?

¿Sería justo decir que todos los algoritmos de aprendizaje automático se generalizan a un puñado de principios básicos de aprendizaje?

¿Qué podría hacer un cerebro Matrioshka construido alrededor de UY Scuti?

¿Hasta dónde cree que hemos llegado para lograr la inteligencia artificial?

¿Los sistemas de reconocimiento de imágenes de aprendizaje profundo siempre aprenden esencialmente las mismas características de bajo nivel?