Mensaje de Yann Lecun sobre ELM:
¿Qué tiene de bueno “Extreme Learning Machines”?
Hay un fenómeno sociológico interesante que tiene lugar en algunos rincones del aprendizaje automático en este momento. Una pequeña comunidad de investigación, centrada en gran medida en China, se ha reunido en torno al concepto de “Máquinas de aprendizaje extremas”.
Francamente, no entiendo qué hay de bueno en ELM. ¿Alguien querría explicar?
Un ELM es básicamente una red neuronal de 2 capas en la que la primera capa es fija y aleatoria, y la segunda capa está entrenada. Hay una serie de problemas con esta idea.
Primero, el nombre: un ELM es * exactamente * lo que Minsky y Papert llaman un Perceptrón Gamba (un Perceptrón cuya primera capa es un grupo de unidades de umbral lineales). El perceptrón Rosenblatt original de 1958 era un ELM en el sentido de que la primera capa estaba conectada aleatoriamente.
En segundo lugar, el método: conectar la primera capa al azar es casi lo más estúpido que podrías hacer. La gente ha pasado casi 60 años desde el Perceptron para idear mejores esquemas para expandir no linealmente la dimensión de un vector de entrada para hacer que los datos sean más separables (muchos de los cuales están documentados en la edición de 1974 de Duda & Hart) . Hagamos una lista de algunos: usando familias de funciones básicas como polinomios, usando “métodos de núcleo” en los que las funciones básicas (también conocidas como neuronas) se centran en las muestras de entrenamiento, usando agrupamiento o GMM para colocar los centros de las funciones básicas donde los datos son (algo que solíamos llamar redes RBF), y el uso del descenso de gradiente para optimizar la posición de las funciones básicas (también conocido como una red neuronal de 2 capas entrenada con backprop).
Establecer los pesos de la capa uno al azar (si lo hace de manera adecuada) puede ser efectivo si la función que está tratando de aprender es muy simple y la cantidad de datos etiquetados es pequeña. Las ventajas son similares a las de un SVM (aunque en menor medida): el número de parámetros que necesitan ser entrenados supervisados es pequeño (ya que la primera capa es fija) y fácil de regularizar (ya que constituyen un clasificador lineal). Pero entonces, ¿por qué no usar una red SVM o RBF en primer lugar?
Puede haber un área muy estrecha de problemas de clasificación simples con conjuntos de datos pequeños donde este tipo de red de 2 capas con una primera capa aleatoria puede funcionar bien. Pero nunca los verá batir récords en tareas complejas, como ImageNet o reconocimiento de voz.
Yann LeCun – ¿Qué hay de bueno en “Extreme Learning …
- ¿Te gustan los robots?
- ¿Es errónea la decisión de Arabia Saudita de otorgar la ciudadanía a un robot?
- ¿La IA podrá pensar más allá de nuestra comprensión del universo?
- ¿Los modelos no paramétricos bayesianos funcionan bien en la práctica?
- ¿Por qué SkyNet no envió el primer Terminator a tiempo con una descarga de su sistema operativo por seguridad?