¿Cuáles son algunos problemas en el aprendizaje automático donde los algoritmos simples pueden incluso vencer a las redes neuronales avanzadas de aprendizaje profundo bien diseñadas?

En este viejo artículo, la propagación hacia atrás no se separa donde los perceptrones tienen éxito , Brady et al. Discuten algunas propiedades muy interesantes cuando la red neuronal no logra separar algunos datos separables linealmente.

Esta observación es muy interesante porque discute sobre el poder de representación , en lugar del poder de generalización de la red neuronal.

  • El poder de generalización se trata de si un modelo se sobreajusta. Esta es una de las razones más frecuentes por las que las redes neuronales son superadas por modelos más simples (como señalan otras respuestas).
  • El poder de representación se trata de si un modelo puede ajustarse a los datos, incluso si deliberadamente queremos sobreajustar. La red neuronal es famosa por su llamado poder de aproximación universal (es decir, se sabe que puede adaptarse a todo). Sin embargo, en 1989, Brady et al mostraron que incluso en términos de poder de representación , una red neuronal puede perder con un modelo lineal.

Si encuentra que su documento es demasiado largo para leerlo, la idea se discute brevemente en la Sección 3.2.2 en este documento de revisión de aprendizaje profundo fácil de leer.

Antes de que podamos responder a esa pregunta, necesitamos definir qué significa para un algoritmo “vencer” a otro.

El aprendizaje automático se trata de construir un modelo que se ajuste a sus datos. Tanto su modelo como sus datos / problemas tienen su propio nivel de complejidad. No es un valor particularmente bien definido, pero está ahí. Si la complejidad de su modelo excede la complejidad de su problema, está sobreajustado. Si la complejidad de su problema excede la complejidad de su modelo, no está preparado.

Digamos que un algoritmo supera a otro algoritmo si funciona mejor en los datos de prueba. Esa es una métrica bastante estándar. Tener un buen desempeño en los datos de la prueba no significa ni un ajuste insuficiente ni un ajuste excesivo. Si no se ajusta bien, le va mal tanto en los datos de entrenamiento como de prueba. Si se sobreajusta, le va bien en los datos de entrenamiento y mal en los datos de prueba.

Claramente, si queremos que un algoritmo supere a otros algoritmos, debe tener una complejidad que coincida con la del problema.

El aprendizaje profundo es una forma de agregar complejidad arbitraria a un modelo.

Eso significa que si su problema es predecir la cantidad de jugo de manzana que puede hacer dado el peso de sus manzanas, una regresión lineal hará el trabajo muy bien. Sin embargo, una red neuronal se sobreajustará como loca.

La regularización es una gran herramienta para reducir la complejidad efectiva de un modelo sin reducir demasiado su poder predictivo, lo que le permite adaptar un modelo mucho más complejo a un problema menos complejo.

Hemos establecido que las herramientas complejas son innecesarias para problemas simples, pero ¿es esa la única vez que una herramienta más simple funciona mejor?

Los modelos complejos también requieren una gran cantidad de datos para entrenar. Si no tiene acceso a suficientes datos, una herramienta compleja no convergerá con los parámetros apropiados.

Si desea resolver un problema muy complejo con muy pocos datos, a menudo es mejor usar un modelo menos complejo y un ajuste insuficiente porque un modelo adecuadamente complejo se sobreajustará en una cantidad tremenda.

Cualquier problema donde la cantidad de datos disponibles es pequeña. Las redes neuronales profundas requerían muchos datos para generalizar bien. Si solo tiene como un par de docenas de puntos de datos, estaría mejor con modelos simples.