¿Cuáles son algunos problemas en el aprendizaje automático donde los algoritmos simples pueden incluso vencer a las redes neuronales avanzadas de aprendizaje profundo bien diseñadas?

En este viejo artículo, la propagación hacia atrás no se separa donde los perceptrones tienen éxito , Brady et al. Discuten algunas propiedades muy interesantes cuando la red neuronal no logra separar algunos datos separables linealmente.

Esta observación es muy interesante porque discute sobre el poder de representación , en lugar del poder de generalización de la red neuronal.

El poder de generalización se trata de si un modelo se sobreajusta. Esta es una de las razones más frecuentes por las que las redes neuronales son superadas por modelos más simples (como señalan otras respuestas).
El poder de representación se trata de si un modelo puede ajustarse a los datos, incluso si deliberadamente queremos sobreajustar. La red neuronal es famosa por su llamado poder de aproximación universal (es decir, se sabe que puede adaptarse a todo). Sin embargo, en 1989, Brady et al mostraron que incluso en términos de poder de representación , una red neuronal puede perder con un modelo lineal.

Si encuentra que su documento es demasiado largo para leerlo, la idea se discute brevemente en la Sección 3.2.2 en este documento de revisión de aprendizaje profundo fácil de leer.

Aprendizaje automáticoAprendizaje profundoinformáticaInteligencia ArtificialRedes neuronales artificiales

¿Cómo cubren los aspirantes GATE temas a un ritmo tan rápido?

¿Cómo hacer un servidor privado de UnchartedWatersOnline, y es fácil de hacer con qué computadora tiene: 4GB RAM Core 2 duo 3.00GHz procesador HDD 500 gb 2,5GB VideocardATI Radeon 5450 HD conexión a internet 1 / Mbyte? ¿Es fácil de hacer?

¿Los satélites pierden alguna vez la conexión en el espacio? ¿Cómo se 'reconecta' la NASA cuando lo hacen?

¿Cuál es la diferencia entre memoria virtual y memoria principal?

¿Qué es un anti spyware?

¿Es posible entrenar un modelo de aprendizaje automático si hay más características que muestras en el conjunto de datos?

Antes de que podamos responder a esa pregunta, necesitamos definir qué significa para un algoritmo “vencer” a otro.

El aprendizaje automático se trata de construir un modelo que se ajuste a sus datos. Tanto su modelo como sus datos / problemas tienen su propio nivel de complejidad. No es un valor particularmente bien definido, pero está ahí. Si la complejidad de su modelo excede la complejidad de su problema, está sobreajustado. Si la complejidad de su problema excede la complejidad de su modelo, no está preparado.

Digamos que un algoritmo supera a otro algoritmo si funciona mejor en los datos de prueba. Esa es una métrica bastante estándar. Tener un buen desempeño en los datos de la prueba no significa ni un ajuste insuficiente ni un ajuste excesivo. Si no se ajusta bien, le va mal tanto en los datos de entrenamiento como de prueba. Si se sobreajusta, le va bien en los datos de entrenamiento y mal en los datos de prueba.

Claramente, si queremos que un algoritmo supere a otros algoritmos, debe tener una complejidad que coincida con la del problema.

El aprendizaje profundo es una forma de agregar complejidad arbitraria a un modelo.

Eso significa que si su problema es predecir la cantidad de jugo de manzana que puede hacer dado el peso de sus manzanas, una regresión lineal hará el trabajo muy bien. Sin embargo, una red neuronal se sobreajustará como loca.

La regularización es una gran herramienta para reducir la complejidad efectiva de un modelo sin reducir demasiado su poder predictivo, lo que le permite adaptar un modelo mucho más complejo a un problema menos complejo.

Hemos establecido que las herramientas complejas son innecesarias para problemas simples, pero ¿es esa la única vez que una herramienta más simple funciona mejor?

Los modelos complejos también requieren una gran cantidad de datos para entrenar. Si no tiene acceso a suficientes datos, una herramienta compleja no convergerá con los parámetros apropiados.

Si desea resolver un problema muy complejo con muy pocos datos, a menudo es mejor usar un modelo menos complejo y un ajuste insuficiente porque un modelo adecuadamente complejo se sobreajustará en una cantidad tremenda.

Haohan Wang

Cualquier problema donde la cantidad de datos disponibles es pequeña. Las redes neuronales profundas requerían muchos datos para generalizar bien. Si solo tiene como un par de docenas de puntos de datos, estaría mejor con modelos simples.

Haohan Wang

More Interesting

¿Cuánto dinero cobran los principales investigadores y estadísticos de aprendizaje automático por consultar?

Cómo instalar dos sistemas operativos en la misma máquina

¿Qué documentos abordan Cloud Computing, NoSQL y Database as a Service desde una perspectiva científica?

¿Cuál es la función principal del núcleo en los sistemas operativos?

¿Quiénes son algunos quoranes que hay que seguir para un tipo UG CS?

Cómo cambiar entre diferentes IP de diferentes ISP

¿Ha habido alguna vez una colisión UUID?

¿De alguna manera puedes ejecutar juegos de un solo hilo en dos o cuatro núcleos?

Dejé caer mi iPhone 4s y muestra el modo de recuperación, cuando estoy conectado a iTunes. ¿Todavía puedo recuperar los datos?

¿Cuál es la diferencia entre sincronización de procesos y punto muerto? Si hay sincronización, ¿ocurrirá un punto muerto o no?