¿Cómo se comparan las arquitecturas de aprendizaje profundo?

Los diferentes algoritmos de aprendizaje para arquitecturas profundas tienen características diferentes. Los codificadores automáticos apilados (SAE) y las redes de creencias profundas (DBN) son algoritmos de aprendizaje no supervisados, por lo que aprenden un modelo de distribución de entrada a partir del cual se pueden generar muestras. También se pueden ver como algoritmos de aprendizaje de funciones no supervisados ​​(y ese ha sido su uso principal) y, por lo tanto, se usan para entrenar previamente (a partir de datos etiquetados o no etiquetados). Estas características se pueden utilizar como inicialización para un Perceptrón de múltiples capas supervisado (MLP). Hay muchos otros algoritmos de aprendizaje de representación no supervisados ​​y solo ha habido pocas comparaciones cuantitativas entre ellos. Parece que los DBN y SAE se comportan de manera muy similar en términos de calidad de las características aprendidas. Los SAE son más simples de entrenar (no hay MCMC involucrados) y se pueden aplicar métodos deterministas de optimización de segundo orden para entrenarlos. Sus variantes de eliminación de ruido y contracción (Denoising Auto-Encoder y Contractive Auto-Encoder) han sido sistemáticamente aún más exitosas (por ejemplo, ser los algoritmos ganadores en el Desafío de aprendizaje no supervisado y de transferencia de 2011). El uso de cualquiera de ellos para el aprendizaje de características no supervisadas para entrenar previamente un MLP casi siempre funciona mejor que el entrenamiento de un MLP directo, aunque la diferencia puede volverse insignificante en algunos casos, especialmente cuando el número de datos etiquetados es muy grande.

Dentro del grupo de redes profundas que han ganado la competencia imagenet (que, a diferencia del punto de Yoshua, son todas redes de backprop supervisadas directamente desde el inicio del entrenamiento), mi impresión es que cuanto más profunda sea la red, mejores serán los resultados, con los más recientes. ganador (GoogLeNet) que tiene aproximadamente 22 capas, dependiendo de cómo cuentes.

Un nuevo tipo de red profunda que desafortunadamente no entró en NIPS este año debido a un error tipográfico (L2 fue escrito en lugar de L1 o viceversa; resulta que funciona en ambos sentidos) descubierto después de la revisión (¿en serio? ¿Cuál fue el jefe de área? pensando?) son las redes profundamente supervisadas de Zhuwen Tu en UCSD, que son supervisadas en varias capas, utilizando salidas softmax o SVM atornilladas en varios niveles. Estas redes tienen la ventaja de ser mucho más rápidas para entrenar. Puede obtener el periódico desde su página web.

Más allá de eso, todas estas arquitecturas son irritantemente empíricas. Todavía no parece haber ningún principio con respecto al número de características, el tamaño de las características, la zancada, cuándo hacer un maxpool, etc., solo los estudiantes graduados que pasan un año ajustando las cosas entre las competiciones. Al no estar en la corriente principal de esto, no sé si hay algunos principios emergentes dentro de las cabezas de Geoff, Rob y Yann, pero espero ver algunos eventualmente.

Las características resultantes, sin embargo, son increíblemente ricas. Puede tomar una de estas redes capacitadas (por ejemplo, CAFFE o OverFeat o GoogLeNet) que han sido capacitadas en imagenet y usarlas para una amplia variedad de tareas, simplemente atornillando un clasificador softmax para su problema, usando las últimas dos capas como entrada Luego, a menudo dan resultados de vanguardia para cualquier tarea que se realice de inmediato. Incluso resuelven bien los problemas de * estilo *, lo que uno no esperaría de una red que ha sido entrenada para categorizar.

Para MNIST (reconocimiento de dígitos)
de acuerdo con http://www.cs.toronto.edu/~hinto
Las tasas de error son:

Modelo generativo basado en el 1.25% de RBM [red de creencias profundas]
Máquina de vectores de soporte (Decoste et. Al.) 1.4%
Backprop con 1000 hiddens (Platt) ~ 1.6%
Backprop con 500 -> 300 hiddens ~ 1.6%
Vecino K-más cercano ~ 3.3%

(Y cuando los datos se extienden con versiones distorsionadas:
Retropropagación sola: 0,49%
Pre-entrenamiento capa por capa sin supervisión seguido de backprop: 0.39%)

Codificadores automáticos apilados según los codificadores automáticos de denoising apilado (SdA)
tener 1,3%.

La red convolucional LeNet-5 sin distorsiones tiene un 0,95% y con muchas distorsiones y comités se puede optimizar hasta una tasa de error del 0,23%.

Muchos otros algos aquí (y su desempeño en MNIST): base de datos de dígitos escritos a mano MNIST, Yann LeCun y Corinna Cortes

Resumen:
1. RBM y autoencoders apilados son bastante similares (y autoencoders más fáciles y rápidos de entrenar)
2. Las redes artesanales personalizadas aún pueden lograr mejores resultados (después de décadas de investigación).
3. Personalmente, no llamaría al perceptrón multicapa como “aprendizaje profundo”

More Interesting

¿El aprendizaje automático automatizado necesita aleatoriedad?

En nuestro nivel de tecnología en computadoras y aviónica, o en un futuro próximo, ¿sería posible construir aviones transformables como un Veritech de Robotech (una Valquiria de Macross para puristas)? Si es posible, ¿sería práctico hacerlo?

¿Qué porcentaje de tiempo pasa un analista de datos en diferentes tareas (recopilar datos, limpiar datos, analizar datos, etc.)?

¿La IA será una amenaza para la humanidad mucho antes de lo previsto?

Estoy creando un chatbot. ¿Cómo debería llamarlo?

¿Qué pasa si hay un nuevo estado después de haber recibido capacitación en aprendizaje de refuerzo?

¿La tecnología de IA se basa en la conciencia humana?

Cómo asegurarse de que los postores contra el dominio no sean robots

¿Qué tan bien se necesita conocer la codificación para seguir una carrera en inteligencia artificial y trabajar en empresas como Google y Tesla?

¿Qué pasa si la moral en la Biblia no es más que patrones de entrenamiento para nuestras redes neuronales profundas?

¿Cómo se crea una inteligencia artificial interactiva dentro de una aplicación con gran diseño?

¿Qué es un proyecto paralelo fácil pero divertido de la vida real basado en algoritmos genéticos?

¿Cuáles son los buenos sitios web y foros de inteligencia artificial?

Si las redes neuronales artificiales se rediseñaran desde cero basándose en nuestro conocimiento actual del cerebro humano, ¿cuáles serían las diferencias importantes?

¿Cuánto le ayudaría la Maestría en Inteligencia Artificial de la Universidad de Edimburgo a conseguir un trabajo en el sector privado como científico de datos?