Extreme Learning Machines es un nombre deslumbrante sobre una vieja idea que aparentemente se ha vuelto injustificadamente conocida y respetada en los círculos académicos chinos hasta el punto de que una de las otras dos personas que respondieron a esta pregunta antes de mí sintió la necesidad de permanecer en el anonimato debido a una actitud bastante leve. y comentarios no despectivos.
El ELM es básicamente la idea de una proyección aleatoria seguida de una regresión lineal, aunque se han considerado muchas variantes, incluidas la agrupación, las subredes aleatorias, etc. Estas cosas funcionan, y para algunos problemas funcionan tan bien como cualquier otra cosa, generalmente problemas pequeños o medianos. con datos relativamente pequeños.
Las proyecciones aleatorias se han utilizado durante mucho tiempo, bajo ese nombre desde 2001. La publicación de Yann LeCun mencionada en la respuesta de Shehroz Khan (Yann LeCun) menciona a Rosenblatt (1958), por ejemplo. La informática de reservorios como término ha existido durante más de una década, y las máquinas de estado líquido y las redes de estado de eco utilizan conexiones y pesos aleatorios.
- Inteligencia artificial: ¿Qué es el entrenamiento previo capa por capa en el aprendizaje no supervisado?
- ¿Serán reemplazados los robots por humanos después de 100 años?
- ¿Qué técnicas de aprendizaje automático se utilizan en Quora?
- ¿Qué es lo primero que haría una IA superinteligente si fuera lanzada en este mundo?
- ¿Cómo se puede obtener una comprensión profunda sobre el aprendizaje automático, como publicar artículos sobre NIPS, ICML?
Si te desplazas hacia abajo en la publicación de LeCun, encontrarás una referencia a esta denuncia de ELM:
TheAnonymousEmail.com
Los autores y los partidarios rechinarán los dientes como lo hizo uno con el hilo de LeCun, pero la naturaleza de su defensa de este nombre huele a partidismo nacionalista, no a desprendimiento académico.
Con respecto a las neuronas aleatorias, ni siquiera tiene que detenerse en una capa. Muchos investigadores han utilizado proyecciones aleatorias para obtener características simples en problemas de robótica y control en los que no se tiene una señal de aprendizaje fuerte, por ejemplo, en la detección comprimida o el aprendizaje de refuerzo profundo. Otros han utilizado redes convolucionales profundas completamente aleatorias para la incorporación de características.
La conclusión es que las proyecciones aleatorias y las redes aleatorias funcionan bien si tienes suficientes neuronas ocultas. Finalmente, las neuronas aleatorias llenarán gradualmente el espacio de posibles características si se inicializan correctamente. Obviamente, puede obtener un mejor rendimiento utilizando menos neuronas si las adapta; Es por eso que normalmente entrenamos todas las conexiones en redes neuronales. Pero si tiene una red aleatoria lo suficientemente grande, su rendimiento puede acercarse al de una red capacitada. Y quizás por un problema bastante difícil, la cantidad de neuronas requeridas es tan grande que las redes aleatorias de ese tamaño son igual de efectivas en el aprendizaje. De hecho, tal vez la IA general es solo un problema. Pero eso todavía no explica por qué los cerebros humanos tienen el aprendizaje y la adaptación incorporados a través de la corteza. E independientemente, una sola capa de neuronas no es suficiente para resolver muchas subtareas compartidas en conjunto.