¿Son los modelos de aprendizaje profundo / redes neuronales siempre superiores en las tareas de PNL?

¿Siempre? ¡No!

Primero, como se menciona en los detalles de la pregunta, las conferencias de PNL (y también las conferencias de visión) ahora están fuertemente dominadas por el aprendizaje profundo. Pero eso no significa necesariamente que el aprendizaje profundo sea el mejor método disponible. Claramente, hay un sesgo de observación aquí: el aprendizaje profundo es una tendencia, por lo que si escribe un documento que muestre que el aprendizaje profundo funciona mejor que los métodos convencionales, podrá publicarlo con bastante facilidad. Por otro lado, si escribe un documento que muestra que los métodos convencionales superan el aprendizaje profundo en alguna tarea, sería muy difícil publicar eso.

En segundo lugar, el aprendizaje profundo tiene sus limitaciones: no funciona con pequeños conjuntos de datos, necesita muchos recursos computacionales para capacitarse, es menos interpretable, etc.

Dicho esto, tampoco creo que el aprendizaje profundo sea una “moda pasajera”. Supongo que tendremos métodos en el futuro que usarán métodos convencionales (muy probablemente desarrollados más adelante), con módulos de aprendizaje profundo dentro de ellos, al igual que en AlphaGo.

Respuesta relacionada: la respuesta de Prasoon Goyal a ¿Por qué todavía se usa SVM en el aprendizaje automático cuando las redes neuronales son mucho más precisas?

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialLingüística ComputacionalProcesamiento del lenguaje naturalRedes neuronales artificiales

Related Content

¿Cuáles son los ejemplos de redes neuronales profundas extremas (más de 150 capas)?

¿Cómo califica Kaggle los envíos?

Cómo implementar el análisis de sentimientos en proyectos de retroalimentación de clientes

¿Qué es mejor que el aprendizaje profundo?

¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

¿Cómo se derivan las funciones de costo para las redes neuronales?

¿De qué maneras incorpora Snapchat el aprendizaje automático?

No.

De hecho, mi clasificador se entrenó en un pequeño conjunto de datos (<4000 publicaciones) que combina TFIDF con vectorizadores personalizados construidos a partir de Urban Dictionary y LIWC y luego usa un clasificador pasivo agresivo que supera LSTM (redes neuronales recurrentes) usando una bolsa continua de palabras o saltos. .

Sin embargo, si un conjunto de datos es lo suficientemente grande, generalmente es superior. Entonces, para una tarea de clasificación, se recomienda tener 5000 puntos de datos que pertenezcan a cada categoría. Entonces, para un problema de 10 clases, suponiendo que las clases estén equilibradas, necesitaríamos 50,000 puntos de datos.

A menudo pensamos en big data, pero muchas veces el problema son los datos pequeños. Para muchas ciencias sociales o estudios médicos, uno puede no tener conjuntos de datos que son muy grandes. Y, puede haber nuevas técnicas que pueden funcionar bien para estos conjuntos de datos utilizando vectorizadores personalizados.

Alvin Grissom II (グリサムアルビン)

Absolutamente no.

El aprendizaje profundo ha dado algunos resultados de vanguardia en el procesamiento del lenguaje natural y especialmente en la visión. Pero, dependiendo de la tarea, a menudo un modelo lineal funcionará igual o mejor con una ingeniería de características adecuada y mucho menos sobrecarga. Los modelos profundos tienden a sobreajustarse.

Al considerar el uso de un modelo profundo sobre un modelo lineal (o algún otro modelo más simple), la primera pregunta debería ser “¿Por qué?” A veces es apropiado; otras veces no lo es.

Arindam Paul

El problema principal es la velocidad de implementación en este punto. LDA y los demás son mucho más rápidos que el aprendizaje profundo, pero no pueden aprender fácilmente la verdadera semántica de la misma manera que el aprendizaje profundo.

Alvin Grissom II (グリサムアルビン)

En términos de calidad (es decir, sin considerar la carga de trabajo de capacitación, el tiempo y el costo), por el momento, sí .

Tal vez se podría encontrar una subtarea relacionada con PNL que no se hace con NN, claro, pero en general, sí.

Arindam Paul

More Interesting

¿Cómo representa doc2vec el vector de características de un documento? ¿Alguien puede explicar matemáticamente cómo se realiza el proceso?

¿Es posible verificar manualmente si los vectores de soporte siguen hiperplanos teóricos en SVM usando un núcleo de base radial?

Después de lograr una precisión de aproximadamente el 82% en los datos de prueba mediante regresión logística, ¿cómo puedo estar seguro / seguro de que mi algoritmo se generalizará bien para toda la población?

¿Qué es Distill y cuál es su importancia para la investigación de Machine Learning?

¿Qué ha aprendido sobre el aprendizaje automático, la recuperación de información y la minería de datos después de unirse a una empresa de Internet que se ocupa de big data?

¿Debo escribir el código de Random Forest por mi cuenta o usar implementaciones existentes?

¿Cuáles son algunos ejemplos de inferencia?

¿Cuáles son algunas buenas charlas sobre fragmentación?

¿Qué son los núcleos en aprendizaje automático y SVM y por qué los necesitamos?

¿Existe una conexión profunda entre el aprendizaje por propagación hacia atrás y la regla de Hebb?

¿Por qué estudiar el procesamiento del lenguaje natural?

¿Cuál es la diferencia entre tagger, chunker y NER?

¿Cuál es una forma intuitiva de explicar los resultados de la PCA?

¿Son las redes neuronales modelos paramétricos o no paramétricos?

¿Es C ++ un buen lenguaje para el aprendizaje automático?

Web Analytics