¿En qué medida se utilizan las redes neuronales para resolver problemas de aprendizaje actuales, como clasificación, filtrado de spam, reconocimiento de imágenes, reconocimiento de voz, etc.? Todo el mundo solo usa SVM, árboles de decisión e impulso. ¿Por que es esto entonces?

Los nuevos tipos de redes neuronales (que incluyen algoritmos de ‘aprendizaje de representación’ y arquitecturas profundas) se están utilizando con éxito en el mundo web. Por ejemplo, se usan en el sistema de reconocimiento de objetos Goggles de Google (esto fue discutido en el último ICML 2011 por el orador invitado Hartmut Neven) y probablemente en Google Image Search (para aprender un espacio de representación común para imágenes y consultas), ver los documentos recientes de Samy Bengio.

Contrariamente a lo que se ha escrito anteriormente, el entrenamiento de redes neuronales se escala muy bien (es decir, linealmente o incluso mejor el tamaño del conjunto de entrenamiento de wrt, mientras que las SVM requieren un tiempo de entrenamiento cuadrático o peor tamaño del conjunto de entrenamiento de wrt) y es fácil de incorporar como tipo de entrada de datos dispersos de alta dimensión que es común en el mundo web. Contrariamente a la creencia popular, de hecho, cuanto mayor es el conjunto de datos, mayor es la ventaja de estas técnicas (al menos mientras se considere la capacitación en una sola computadora, la paralelización más allá de las GPU sigue siendo un desafío). En todas partes se han utilizado CRF y regresión logística, se pueden usar redes neuronales (o mejor, sus descendientes recientes), generalmente con una ventaja. La gran ventaja de los avances recientes en este campo es el uso de aprendizaje no supervisado, que permite explotar grandes cantidades de datos sin etiquetar para pre-entrenar representaciones intermedias. Esto ha dado el primer lugar para Deep Learning en la fase final del reciente Desafío de aprendizaje no supervisado y de transferencia: http: //www.causality.inf.ethz.ch…

Otra novedad relevante para la tecnología web y de PNL es el advenimiento de redes neuronales recurrentes que superan lo último en modelado de lenguaje (modelado de la probabilidad de secuencias de palabras) y en sus aplicaciones en reconocimiento de voz (trabajo reciente de Tomas Mikolov, ver http://www.fit.vutbr.cz/~imikolo…, pero ahora hay resultados aún mejores en un documento presentado).

Uno de los modelos de redes neuronales más exitosos que han existido por un tiempo son las redes neuronales convolucionales. Las CNN se han utilizado para leer más del 10% de los cheques en los Estados Unidos [1]. Las aplicaciones más recientes incluyen google street view, que utiliza CNN para difuminar caras y placas [2].

Incluso más recientemente, John Langford de Yahoo Research menciona en su blog que las redes neuronales están regresando ( http://hunch.net/?p=1852 ). Su publicación también tiene varios artículos muy recientes que muestran un amplio conjunto de aplicaciones recientes de redes neuronales.

Las redes neuronales en los últimos 5 años han cambiado sustancialmente de los perceptrones multicapa que alguna vez fueron. [3] proporciona una comparación de las limitaciones de los modelos de capa única (como SVM) y también muestra las mejoras drásticas de los nuevos modelos de red sobre las redes neuronales convencionales.

El comentario irónico de Geoff Hinton que decía algo así como “los SVM son un tipo de perceptrón muy inteligente, pero no obstante tiene las limitaciones de un perceptrón” tiene algo de verdad. Yoshua Bengio mencionó en algún lugar de un documento (que no puedo encontrar en este momento) cómo las representaciones de funciones pueden ser mucho más eficientes con modelos multicapa profundos en lugar de modelos de una sola capa. En el contrapunto, se ha trabajado en el desarrollo de modelos SVM multicapa [4].

Los tipos más antiguos de redes neuronales nunca se aplicaron en tareas sustanciales porque el rendimiento de la tasa de error era esporádico y los modelos a menudo se trataban como cajas negras. Los nuevos modelos que se están desarrollando tienen una base mucho más teórica, así como conexiones a otros modelos de aprendizaje automático. Por ejemplo, las redes de creencias profundas de Hinton se tratan como modelos gráficos.

Además, se ha demostrado que estas nuevas redes logran un rendimiento comparable / mejor con poca modificación. A diferencia de muchos modelos (es decir, SIFT) que requieren características específicas del dominio, muchos de estos modelos se pueden aplicar a tareas muy diferentes (es decir: si permutara los píxeles de cada imagen, el rendimiento no se vería afectado).

[1] http://data.clement.farabet.net/
[2] http://ieeexplore.ieee.org/xpl/f
[3] http://www.iro.umontreal.ca/~lis
[4]
http://cseweb.ucsd.edu/~saul/pap

More Interesting

¿Cuáles son las aplicaciones económicas de un sistema de inteligencia artificial equivalente al percentil 50?

¿Se puede detener la Singularidad?

¿Cómo se aplica la inteligencia artificial a los sistemas de transmisión automática en automóviles?

¿Por qué utilizamos un RNN en lugar de una simple red neuronal?

¿Hay algún recurso sobre cómo integrar la inteligencia artificial en los complementos de WordPress?

Cómo entender algoritmos de ML, también conocido como profundidad de conocimiento de matemáticas

¿Se puede diseñar la IA para imitar comportamientos humanos específicos, como tomar decisiones irracionales, ser subóptimos y cometer errores como las personas?

¿Wikipedia tiene la intención de seguir el liderazgo de organizaciones como Facebook e Instagram en el uso de inteligencia artificial para eliminar los comentarios de acoso?

¿Es la inteligencia humana reducible al aprendizaje automático?

¿Cuáles son algunos de los avances más importantes en el aprendizaje automático en los últimos 10 años?

¿Cuáles son las escuelas de posgrado más asequibles para la inteligencia artificial?

En las redes neuronales, ¿cómo se transporta la propagación hacia atrás a través de las capas softmax? ¿Puedes explicar su derivada (matriz jacobiana)?

¿Cómo es que el Traductor Universal de Star Trek no se considera una IA sensible por sí solo?

Inteligencia artificial: ¿Cuántas líneas de código se necesitarían para codificar un AI / AGI fuerte?

Inteligencia artificial: ¿Cómo podría usarse la IA para la impresión 3D?