Para empezar:
El teorema de aproximación universal sugiere que una red neuronal con una sola capa oculta (perceptrón multicapa) puede calcular cualquier función dado el número ilimitado de unidades ocultas.
Esto significa que no necesitamos arquitecturas profundas si podemos tener una sola capa oculta muy grande. Pero con esto tendremos muchos parámetros y el entrenamiento se volverá difícil.
Por lo tanto, es como si una sola capa pudiera tener un número exponencial de parámetros para aprender una función, una arquitectura profunda podría tener un parámetro polinómico en cada capa para aprender una función.
Segunda razón:
Antes del aprendizaje profundo, utilizamos un filtro hecho a mano para la extracción de características antes de aplicarlo a cualquier algoritmo de aprendizaje.
Con el aprendizaje profundo, podemos proporcionar información sin procesar al modelo y detectará automáticamente las características en algunas capas ocultas internas.
Por ejemplo, para las tareas de visión, utilizamos el extractor de características Sift y luego un modelo como SVM para la clasificación. Pero con un modelo profundo, puede omitir el tamizado como extractor de características y, sin embargo, ser capaz de superarlo porque el modelo extraerá las características útiles.
- ¿Cuáles son los siguientes pasos en el reconocimiento de voz después de extraer las funciones de MFCC?
- En el aprendizaje profundo, ¿se pueden obtener buenos resultados cuando usas una función lineal entre las capas ocultas?
- Todos dicen que el aprendizaje automático ocupará trabajos de un gran no. de personas, ¿es esto cierto? ¿Hay algún lado positivo?
- ¿Hay algún artículo que justifique la normalización de los valores de los elementos en los sistemas de recomendación?
- Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas
El aprendizaje profundo casi siempre superará al aprendizaje superficial, pero viene con limitaciones. Al igual que más parámetros significa más datos de entrenamiento. Más parámetros también significa un problema de sobreajuste, etc.
Conclusión:
Si tiene datos de entrenamiento altos, una arquitectura profunda de alto poder computacional (máquina) será una buena opción.
Pero incluso un modelo poco profundo cuidadosamente diseñado con extractores de características adecuadas antes puede acercarse o incluso vencer a un modelo profundo no bien diseñado / entrenado.
Entonces, si no eres muy experto / seguro sobre el problema que estás resolviendo (como qué modelo ect será el mejor para este problema) y tienes suficientes datos de entrenamiento, ¡aprende a profundizar y todo estará bien!
Saludos,