¿Qué tiene de especial Extreme Learning Machine (ELM) de manera que se celebre una conferencia exclusivamente para su estudio?

Son extremadamente rápidos de entrenar (sin propagación hacia atrás; en realidad se ajusta de la misma manera que un modelo de regresión múltiple), tienen propiedades de aproximación universal probadas matemáticamente (tiene que ver con el mapeo aleatorio) y son muy flexibles como una arquitectura de aprendizaje profundo. Cuando los usé para predecir la utilización individual de la atención médica durante un período de 6 meses, pude obtener un error cercano a 0 en una población de> 1,000,000. Se ejecutó en 2 minutos en mi computadora portátil, y el único error ocurre con las tasas de utilización más altas (100x + la tasa normal). Me he encontrado con otros resultados continuos en una variedad de problemas, y los resultados son bastante consistentes con tamaños de muestra suficientes (1000 o más).

Son bastante robustos para la función de mapeo y el número de nodos en la capa oculta. Compare esto con el aprendizaje profundo, que requiere una amplia sintonización y construcción de la arquitectura. Alguien que usa un ELM solo necesita un poco de experiencia en programación en R o Python para implementar y alcanzará una buena predicción en segundos o minutos frente a un tiempo mucho más largo de ejecución y una programación más complicada para el aprendizaje profundo.

Los ELM también son técnicas de modelado muy flexibles, que permiten el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje semi-supervisado. Muy pocas técnicas en el aprendizaje automático pueden hacerlo.

Son uno de mis algoritmos favoritos, y creo que la industria comenzará a recurrir a ellos como una alternativa al aprendizaje profundo en el futuro cercano debido a estas propiedades. Las empresas familiares que no pueden pagar un experto en aprendizaje profundo pueden contratar a un científico de datos durante 2 horas por trimestre para que las ejecute como métodos de pronóstico para el negocio.

Bueno, cualquiera puede celebrar una conferencia por cualquier cosa.

ELM parece ser algo muy importante en Asia (particularmente en China) por alguna razón. Parece funcionar bien para problemas simples, pero también hay algoritmos más eficientes para esos problemas simples.

Aquí está la opinión de Yann LeCun, y la mayoría de los investigadores en el resto del mundo parecen estar de acuerdo con él.

¿Qué tiene de bueno “Extreme Learning Machines”?

Hay un fenómeno sociológico interesante que tiene lugar en algunos rincones del aprendizaje automático en este momento. Una pequeña comunidad de investigación, centrada en gran medida en China, se ha reunido en torno al concepto de “Máquinas de aprendizaje extremas”.

Francamente, no entiendo qué hay de bueno en ELM. ¿Alguien querría explicar?

Un ELM es básicamente una red neuronal de 2 capas en la que la primera capa es fija y aleatoria, y la segunda capa está entrenada. Hay una serie de problemas con esta idea.

Primero, el nombre: un ELM es exactamente lo que Minsky y Papert llaman un Perceptrón Gamba (un Perceptrón cuya primera capa es un conjunto de unidades de umbral lineales). El perceptrón Rosenblatt original de 1958 era un ELM en el sentido de que la primera capa estaba conectada aleatoriamente.

En segundo lugar, el método: conectar la primera capa al azar es casi lo más estúpido que podrías hacer. La gente ha pasado casi 60 años desde el Perceptron para idear mejores esquemas para expandir no linealmente la dimensión de un vector de entrada para hacer que los datos sean más separables (muchos de los cuales están documentados en la edición de 1974 de Duda & Hart) . Hagamos una lista de algunos: usando familias de funciones básicas como polinomios, usando “métodos de núcleo” en los que las funciones básicas (también conocidas como neuronas) se centran en las muestras de entrenamiento, usando agrupamiento o GMM para colocar los centros de las funciones básicas donde los datos son (algo que solíamos llamar redes RBF), y el uso del descenso de gradiente para optimizar la posición de las funciones básicas (también conocido como una red neuronal de 2 capas entrenada con backprop).

Establecer los pesos de la capa uno al azar (si lo hace de manera adecuada) puede ser efectivo si la función que está tratando de aprender es muy simple y la cantidad de datos etiquetados es pequeña. Las ventajas son similares a las de un SVM (aunque en menor medida): el número de parámetros que necesitan ser entrenados supervisados ​​es pequeño (ya que la primera capa es fija) y fácil de regularizar (ya que constituyen un clasificador lineal). Pero entonces, ¿por qué no usar una red SVM o RBF en primer lugar?

Puede haber un área muy estrecha de problemas de clasificación simples con conjuntos de datos pequeños donde este tipo de red de 2 capas con una primera capa aleatoria puede funcionar bien. Pero nunca los verá batir récords en tareas complejas, como ImageNet o reconocimiento de voz.

More Interesting

¿Los desarrolladores front-end serán reemplazados por IA?

¿Cómo utilizamos funciones como la inteligencia artificial y el procesamiento de imágenes en una aplicación?

¿Cómo juegan los conceptos de POO (en Python) un papel crucial en la resolución de problemas de aprendizaje automático?

¿Qué algoritmos de aprendizaje automático se pueden considerar entre los mejores?

¿Acabaría con los hackers?

¿Es apropiado utilizar el aprendizaje automático para encontrar la distribución de probabilidad aproximada de sus datos?

¿Podemos entrenar un algoritmo / una IA para escribir poemas?

¿Cuál es el método de búsqueda adversarial?

¿Hay alguna base de datos que dé resultados basados ​​en la entrada de voz?

Teniendo en cuenta la cantidad de datos que genera un sitio Web2.0 todos los días y su valor en el escenario actual, ¿cree que el aprendizaje automático debería ser el núcleo de la tecnología de cualquier producto? Si es así, ¿qué arquitectura recomendaría en este tipo de casos?

¿Cómo se enseña la Inteligencia Artificial (IA) y el Aprendizaje automático (ML) en las universidades de 2/3 niveles en la India?

¿Cómo crees que es la IA de Dota 2 que se muestra en TI7?

¿Cuáles serían algunos proyectos increíbles basados ​​en IA o ML que utilizan redes neuronales para proyectos de pregrado?

¿Cómo aprende una red neuronal? ¿Es por un algoritmo de propagación hacia atrás?

Cómo asegurarse de que los postores contra el dominio no sean robots