¿Son los modelos de aprendizaje profundo / redes neuronales siempre superiores en las tareas de PNL?

¿Siempre? ¡No!

Primero, como se menciona en los detalles de la pregunta, las conferencias de PNL (y también las conferencias de visión) ahora están fuertemente dominadas por el aprendizaje profundo. Pero eso no significa necesariamente que el aprendizaje profundo sea el mejor método disponible. Claramente, hay un sesgo de observación aquí: el aprendizaje profundo es una tendencia, por lo que si escribe un documento que muestre que el aprendizaje profundo funciona mejor que los métodos convencionales, podrá publicarlo con bastante facilidad. Por otro lado, si escribe un documento que muestra que los métodos convencionales superan el aprendizaje profundo en alguna tarea, sería muy difícil publicar eso.

En segundo lugar, el aprendizaje profundo tiene sus limitaciones: no funciona con pequeños conjuntos de datos, necesita muchos recursos computacionales para capacitarse, es menos interpretable, etc.

Dicho esto, tampoco creo que el aprendizaje profundo sea una “moda pasajera”. Supongo que tendremos métodos en el futuro que usarán métodos convencionales (muy probablemente desarrollados más adelante), con módulos de aprendizaje profundo dentro de ellos, al igual que en AlphaGo.


Respuesta relacionada: la respuesta de Prasoon Goyal a ¿Por qué todavía se usa SVM en el aprendizaje automático cuando las redes neuronales son mucho más precisas?

No.

De hecho, mi clasificador se entrenó en un pequeño conjunto de datos (<4000 publicaciones) que combina TFIDF con vectorizadores personalizados construidos a partir de Urban Dictionary y LIWC y luego usa un clasificador pasivo agresivo que supera LSTM (redes neuronales recurrentes) usando una bolsa continua de palabras o saltos. .

Sin embargo, si un conjunto de datos es lo suficientemente grande, generalmente es superior. Entonces, para una tarea de clasificación, se recomienda tener 5000 puntos de datos que pertenezcan a cada categoría. Entonces, para un problema de 10 clases, suponiendo que las clases estén equilibradas, necesitaríamos 50,000 puntos de datos.

A menudo pensamos en big data, pero muchas veces el problema son los datos pequeños. Para muchas ciencias sociales o estudios médicos, uno puede no tener conjuntos de datos que son muy grandes. Y, puede haber nuevas técnicas que pueden funcionar bien para estos conjuntos de datos utilizando vectorizadores personalizados.

Absolutamente no.

El aprendizaje profundo ha dado algunos resultados de vanguardia en el procesamiento del lenguaje natural y especialmente en la visión. Pero, dependiendo de la tarea, a menudo un modelo lineal funcionará igual o mejor con una ingeniería de características adecuada y mucho menos sobrecarga. Los modelos profundos tienden a sobreajustarse.

Al considerar el uso de un modelo profundo sobre un modelo lineal (o algún otro modelo más simple), la primera pregunta debería ser “¿Por qué?” A veces es apropiado; otras veces no lo es.

El problema principal es la velocidad de implementación en este punto. LDA y los demás son mucho más rápidos que el aprendizaje profundo, pero no pueden aprender fácilmente la verdadera semántica de la misma manera que el aprendizaje profundo.

En términos de calidad (es decir, sin considerar la carga de trabajo de capacitación, el tiempo y el costo), por el momento, .

Tal vez se podría encontrar una subtarea relacionada con PNL que no se hace con NN, claro, pero en general, sí.