¿Cuándo debería preferir los algoritmos de aprendizaje profundo a los algoritmos de aprendizaje automático poco profundos?

Para empezar:
El teorema de aproximación universal sugiere que una red neuronal con una sola capa oculta (perceptrón multicapa) puede calcular cualquier función dado el número ilimitado de unidades ocultas.

Esto significa que no necesitamos arquitecturas profundas si podemos tener una sola capa oculta muy grande. Pero con esto tendremos muchos parámetros y el entrenamiento se volverá difícil.
Por lo tanto, es como si una sola capa pudiera tener un número exponencial de parámetros para aprender una función, una arquitectura profunda podría tener un parámetro polinómico en cada capa para aprender una función.

Segunda razón:
Antes del aprendizaje profundo, utilizamos un filtro hecho a mano para la extracción de características antes de aplicarlo a cualquier algoritmo de aprendizaje.
Con el aprendizaje profundo, podemos proporcionar información sin procesar al modelo y detectará automáticamente las características en algunas capas ocultas internas.
Por ejemplo, para las tareas de visión, utilizamos el extractor de características Sift y luego un modelo como SVM para la clasificación. Pero con un modelo profundo, puede omitir el tamizado como extractor de características y, sin embargo, ser capaz de superarlo porque el modelo extraerá las características útiles.

El aprendizaje profundo casi siempre superará al aprendizaje superficial, pero viene con limitaciones. Al igual que más parámetros significa más datos de entrenamiento. Más parámetros también significa un problema de sobreajuste, etc.

Conclusión:
Si tiene datos de entrenamiento altos, una arquitectura profunda de alto poder computacional (máquina) será una buena opción.
Pero incluso un modelo poco profundo cuidadosamente diseñado con extractores de características adecuadas antes puede acercarse o incluso vencer a un modelo profundo no bien diseñado / entrenado.

Entonces, si no eres muy experto / seguro sobre el problema que estás resolviendo (como qué modelo ect será el mejor para este problema) y tienes suficientes datos de entrenamiento, ¡aprende a profundizar y todo estará bien!

Saludos,

Cuando dices algoritmos de aprendizaje “profundo”, supongo que te refieres a redes neuronales con dos o más capas. En general, prefiero redes neuronales para tareas de reconocimiento de patrones. Se sabe que se desempeñan bien en tareas de reconocimiento de imagen, video y voz, y existe un creciente respaldo de la literatura para usar redes neuronales para tareas avanzadas de minería de textos.

Si necesita usar una red neuronal superficial o profunda es más una cuestión para sus datos y proyectos específicos. Es teóricamente posible obtener un modelo más preciso con menos neuronas usando una mayor cantidad de capas que con muchas neuronas en una sola capa, sin embargo, esto puede ser complicado en la práctica. El rendimiento de cualquier red neuronal se relacionará con muchos parámetros de ajuste, la técnica de optimización y los datos. Además, no puede simplemente esperar utilizar técnicas de optimización estándar en redes neuronales profundas: convergerán rápidamente a una minina local inútil debido a la desaparición de los gradientes.

En el aprendizaje profundo, parte de la arquitectura de una red profunda o parte del proceso de capacitación generalmente se dedica a la extracción de funciones sin supervisión. (Para mí, esto es lo que realmente lo convierte en un aprendizaje “profundo”). Las imágenes y el sonido grabados tienen una relación señal / ruido generalmente alta, o pueden preprocesarse para lograr una relación señal / ruido alta y contienen una gran cantidad de información (como una foto HD). Dichos datos son lo suficientemente limpios y ricos como para que las características NO LINEALES aprendidas por las redes neuronales profundas representen fenómenos reales dentro de los datos y no sean solo artefactos de un entrenamiento excesivo.

Por no lineal, no quiero decir que E [(X | Y)] es una función no lineal. Quiero decir que la estructura subyacente de X tiene algunas no linealidades esenciales y no reducibles.

(Como contraejemplo, muchas tareas clásicas de minería de datos implican predecir un comportamiento humano errático, como impagos de préstamos. Los datos de capacitación para estas tareas a menudo son muy ruidosos y se puede entrenar una red neuronal profunda en un intento de extraer características NO LINEALES de dichos datos un ejercicio de sobre entrenamiento. Es por eso que técnicas como PCA junto con la cresta, el lazo y la regresión logística tienden a sobresalir en estas tareas. Aprenden sobre fenómenos subyacentes básicamente LINEALES en los datos de entrenamiento, que a menudo es el tipo de modelo más avanzado que uno puede se usa para representar los datos para tales tareas sin entrenamiento excesivo).

¿Acabas de poner una moneda a un nombre? Aquí está mi pequeña contribución.

Los algoritmos de aprendizaje automático que no entran en la categoría de aprendizaje profundo se denominan algoritmos de aprendizaje automático poco profundos.

¡Guauu! Eso suena lo suficientemente técnico para una definición.
c.2015-2016, por si esto se pierde en la historia.

¡Disculpe mi respuesta no tan profunda (leída, superficial)!

El aprendizaje profundo se refiere a la red neuronal que tiene múltiples capas. A diferencia de la red neuronal superficial, la profunda podría generar automáticamente características potentes. Por ejemplo, para una imagen, la entrada es el píxel y la red neuronal profunda podría generar patrones útiles en las capas ocultas. Luego, los patrones se utilizan en las siguientes capas para el aprendizaje.

Por lo tanto, el aprendizaje profundo es una mejor opción porque los datos no tienen características explícitas y deliberadas, como imagen y voz. Si los datos ya están representados por características poderosas, las superficiales son lo suficientemente buenas y ahorran cálculo.

Francamente, NN o Deep Learning necesitan un análisis bastante bueno de sus datos. Nunca encontrará u obtendrá buenos resultados si intenta usar NN desde el principio sin ningún análisis de los datos.

Por ejemplo, si tiene una cierta idea de cómo es la distribución subyacente, digamos que es gaussiana. Entonces ya tiene buena información sobre el conjunto de datos y esto también lo ayuda a seleccionar la función de activación, seleccionaría un tanh o un sigmoide.

Entonces, ahora, en primer lugar, debe comprender que la mayoría de los algoritmos que usted dice que son superficiales en realidad no lo son. Las personas que están en el aprendizaje automático estarán de acuerdo en que todos los algoritmos le sugieren información útil sobre los datos. Al igual que los algoritmos PCA / SVD o HMM (voz o texto), le proporciona una respuesta definitiva si su modelo también se comporta de la manera que lo desea. Así que no descarte otros algoritmos que dependen totalmente de lo que quiera hacer con sus datos.

Ahora, ¿dónde está NN realmente increíble? Supongamos que tiene 10 características y tiene una cierta idea de cómo se distribuye cada variable. Por simplicidad, supongamos que todos ellos son gaussianos con diferentes significados. Ahora desea aprender algo sobre todas las características de datos. Entonces, ¿qué hace NN? NN le dará una ecuación con 10 variables y cada coeficiente de cada uno es el peso en el vector y esta ecuación intentará converger usando un descenso de gradiente, por lo que al final tendrá una función que es una función de todas las características con eficiente tratando de adaptarse al modelo. Esta función pasará a través de un paso o una función binaria para predecir sí o no. Si hay más de 2, volverá a usar sigmoid y determinará el nivel y asígnelo con la etiqueta correspondiente y compárelo con la etiqueta verdadera. Entonces, la red neuronal es un salvador solo cuando conoce y tiene una idea bastante buena de los datos y desea aprender las características.

La primera razón podría ser si otros algos no son lo suficientemente buenos. Entonces, el aprendizaje profundo podría ser útil si tiene toneladas (~ 100k +) de ejemplos de capacitación y espera una respuesta muy no lineal.

Eche un vistazo al siguiente enlace para obtener algunos antecedentes fantásticos: http://cs229.stanford.edu/materi