¿Cuáles son las desventajas de las máquinas de aprendizaje extremo?

Mensaje de Yann Lecun sobre ELM:

¿Qué tiene de bueno “Extreme Learning Machines”?
Hay un fenómeno sociológico interesante que tiene lugar en algunos rincones del aprendizaje automático en este momento. Una pequeña comunidad de investigación, centrada en gran medida en China, se ha reunido en torno al concepto de “Máquinas de aprendizaje extremas”.
Francamente, no entiendo qué hay de bueno en ELM. ¿Alguien querría explicar?
Un ELM es básicamente una red neuronal de 2 capas en la que la primera capa es fija y aleatoria, y la segunda capa está entrenada. Hay una serie de problemas con esta idea.
Primero, el nombre: un ELM es * exactamente * lo que Minsky y Papert llaman un Perceptrón Gamba (un Perceptrón cuya primera capa es un grupo de unidades de umbral lineales). El perceptrón Rosenblatt original de 1958 era un ELM en el sentido de que la primera capa estaba conectada aleatoriamente.
En segundo lugar, el método: conectar la primera capa al azar es casi lo más estúpido que podrías hacer. La gente ha pasado casi 60 años desde el Perceptron para idear mejores esquemas para expandir no linealmente la dimensión de un vector de entrada para hacer que los datos sean más separables (muchos de los cuales están documentados en la edición de 1974 de Duda & Hart) . Hagamos una lista de algunos: usando familias de funciones básicas como polinomios, usando “métodos de núcleo” en los que las funciones básicas (también conocidas como neuronas) se centran en las muestras de entrenamiento, usando agrupamiento o GMM para colocar los centros de las funciones básicas donde los datos son (algo que solíamos llamar redes RBF), y el uso del descenso de gradiente para optimizar la posición de las funciones básicas (también conocido como una red neuronal de 2 capas entrenada con backprop).
Establecer los pesos de la capa uno al azar (si lo hace de manera adecuada) puede ser efectivo si la función que está tratando de aprender es muy simple y la cantidad de datos etiquetados es pequeña. Las ventajas son similares a las de un SVM (aunque en menor medida): el número de parámetros que necesitan ser entrenados supervisados ​​es pequeño (ya que la primera capa es fija) y fácil de regularizar (ya que constituyen un clasificador lineal). Pero entonces, ¿por qué no usar una red SVM o RBF en primer lugar?
Puede haber un área muy estrecha de problemas de clasificación simples con conjuntos de datos pequeños donde este tipo de red de 2 capas con una primera capa aleatoria puede funcionar bien. Pero nunca los verá batir récords en tareas complejas, como ImageNet o reconocimiento de voz.

Yann LeCun – ¿Qué hay de bueno en “Extreme Learning …

Esto se debe a que en su tabla ignoraron convenientemente las arquitecturas de aprendizaje profundo más modernas (convolucional + agrupación máxima con activación ReLU). Eso funciona mejor que ELM. Solo lo están comparando con técnicas de hace unos años que pocas personas todavía están haciendo ahora.

Es una vieja idea empaquetada con un nuevo nombre. Un ELM es mucho más rápido de entrenar, pero no puede codificar más de 1 capa de abstracción, por lo que no puede ser “profundo”. Puede funcionar bien en cosas relativamente simples como MNIST, pero no podrá reconocer a los gatos a partir de imágenes, sin tener una capa oculta de tamaño astronómico.

Otro problema es que si bien puedes entrenarlos muy rápido, pagas por tener una evaluación muy lenta. Para la mayoría de las aplicaciones, la velocidad de evaluación es más importante que la velocidad de entrenamiento.

Vea la respuesta de Sadegh para las críticas de Yann LeCun.

ELM es técnicamente Deep Learning (ya que tiene una capa oculta). Parece tener un mecanismo de entrenamiento realmente rápido.
Aplica distorsión aleatoria, al igual que algunas otras técnicas como DNAe (otra herramienta mencionada en comparación con los ELM en su uso de papel) aplica el ruido gaussiano. Estoy de acuerdo con usted en que no encuentro Google / fb, etc., afirmando regularmente que utilizan estas técnicas. De hecho, la mayoría de las investigaciones parecen provenir de 3 universidades (dos de ellas en Singapur).
Por qué no están en las noticias por los brillantes resultados mencionados anteriormente, aquí las dos razones que pienso:
1. Los algos de última generación son aún más precisos (99.7%) de la base de datos de dígitos manuscritos MNIST, Yann LeCun, Corinna Cortes y Chris Burges
2. Además, sorprendentemente, no encuentro el autoencoder ELM en la lista de vanguardia para MNIST, por favor avíseme si es por otro nombre Página en rodrigob.github.io o si la lista parece no exhaustiva.
Dicho esto, creo que es una técnica genial lo fácil que es ejecutarlo en comparación con otro sistema de Aprendizaje Profundo, y el código está disponible gratuitamente, uno puede probar el algoritmo y ver qué tan bueno es.
También creo que su conferencia, que se celebrará a fines del año 2014, traerá muchos más resultados sorprendentes, así que mantén los dedos cruzados.

En pocas palabras, MNIST OCR es un conjunto de datos fácil, no se necesita una red neuronal profunda a gran escala para lograr una precisión del 99%, comparar el rendimiento de las redes neuronales profundas en MNIST es como cuestionar a estudiantes universitarios con problemas de nivel de escuela primaria.

Además, DBN / DBM definitivamente no toma 5.7 horas / 19 horas para entrenar en MNIST, los autores probablemente exageraron la diferencia de velocidad al aumentar intencionalmente el tamaño de estos dos modelos u otros trucos.

Una nota final adicional:

Consulte los resultados de última generación: la base de datos de dígitos manuscritos MNIST, Yann LeCun, Corinna Cortes y Chris Burges. Las redes de convección pueden alcanzar una tasa de error del 99.77%.

Los “ELM” parecen ser una forma particular de computación de yacimientos si no recuerdo mal.

No hay nada de malo en ellos per se, más investigación siempre es una buena noticia, pero ese cuadro claramente tiene la intención de engañar. Primero, ignora las ConvNets ReLU y segundo, está en MNIST, un conjunto de datos donde incluso la regresión logística puede publicar resultados …

Demuéstrelos en imagenet y estaré interesado. Hasta entonces, vea la crítica algo más mordaz de Yann LeCun.

  • Creo que ELM es relativamente oscuro por razones que no tienen nada que ver con los méritos del algoritmo en sí, sino más bien con la falta de marketing y relaciones públicas.
  • Es casi imposible encontrarlo usando la búsqueda de Google a menos que sepa el nombre exacto, ni siquiera hay una página wiki. Véanse los comentarios de Bernard Widrow , en realidad de manera independiente se le ocurrió una idea similar de “sin apoyo” en 2012, ya que él (y sus revisores) desconocían por completo el ELM.
  • La idea no es realmente nueva, busca matrices aleatorias
  • No he visto a ELM ganar ImageNet o competiciones populares similares

Relacionado: ¿Desventajas de las máquinas de aprendizaje extremo? • / r / MachineLearning

More Interesting

¿Cómo funciona la generación de historias artificiales (automáticas)?

Si creamos un robot que solo puede ver átomos individuales, ¿qué vería un robot así si mirara a una habitación llena de gente?

¿Cómo pueden algunos metales y otros materiales fabricar IA? Cómo se ve?

¿Cuáles son algunos de los algoritmos de inteligencia artificial o aprendizaje automático que se utilizan en los videojuegos y cómo se utilizan?

¿Cuál sería un avance de IA en el lado del consumidor?

¿Qué es 'Perceptrones multicapa usando algoritmo de retropropagación', en palabras simples?

¿Cómo se puede utilizar el aprendizaje automático, la analítica y la IA junto con la ingeniería mecánica para crear algo que valga la pena?

¿Qué papel tendrá la IA en el enfoque de diseño de IDEO?

¿Cómo utilizarán los gobiernos la IA contra otros países?

¿Qué algoritmos de minería de datos / reconocimiento de patrones toman los datos como entrada y luego generan modelos / fórmulas matemáticas?

¿Cuál es la diferencia entre el sistema de piloto automático de Tesla y el auto sin conductor de Google? ¿Cómo pudo Tesla lograr esto, mientras que otras compañías, incluida Google, han intentado hacerlo durante años?

Si fuera posible construir un hardware de IA con la misma cantidad de neuronas artificiales y sinapsis que el cerebro humano, ¿sería esta máquina más inteligente que una persona ya que los circuitos electrónicos funcionan mucho más rápido que la transmisión de neuronas?

¿Serán útiles los antecedentes en estadística matemática y matemática pura en la investigación de IA?

Si los robots van a ser humanos algún día, ¿cómo debería ser la función de costo y cómo pueden los humanos aprender de ellos mismos?

¿Todos los juegos de Android necesitan inteligencia artificial?