¿Por qué algunos algoritmos de aprendizaje automático se consideran más adecuados para tareas de PNL específicas?

Diferentes algoritmos de aprendizaje tienen diferentes supuestos sobre los datos. Para algunos de los problemas, estas suposiciones resultan ser (en su mayoría) correctas y en esos problemas el algoritmo funciona bien, que algunos otros algoritmos que hacen suposiciones incorrectas.

Naive Bayes, por ejemplo, supone que sus características son completamente independientes (no correlacionadas). Esta suposición ingenua a menudo no es precisa, por eso Naive Bayes se desempeña mal (incluida la clasificación de texto donde creo que las redes neuronales logran resultados de vanguardia).

Los CRF no tienen el supuesto de independencia que tiene Naive Bayes y, por esa razón, funcionan mucho mejor en casi todas las circunstancias. Sin embargo, los CRF estándar todavía tienen la suposición de que es suficiente combinar características en un modelo lineal.

Los SVM no tienen esta suposición de linealidad gracias a los núcleos, pero renuncian a la interpretación probabilística que tienen los CRF y suponen que un núcleo (lo que elija el usuario) es suficiente.

No existe un algoritmo de aprendizaje perfecto. El algoritmo que funcionará mejor realmente depende de la tarea, los datos y si el algoritmo de aprendizaje tiene el sesgo inductivo apropiado para el problema.

Naive Bayes (NB) es un clasificador generativo mientras que los otros métodos que mencionó son discriminatorios.

La diferencia entre estos dos tipos de clasificadores se explica en este famoso artículo http://ai.stanford.edu/~ang/pape … de Andrew Y. Ng y Micheal I. Jordan. Como puede ver en el artículo: “el consenso predominante parece ser que los clasificadores discriminativos son casi siempre preferibles a los generadores”, por lo que, reformulando la pregunta, ¿por qué utilizar un método generativo como NB para la tarea de PNL?

El enfoque de Regresión logística (LR) también es bueno para la PNL y es discriminatorio.

Las redes neuronales funcionan extremadamente bien para PNL.

Desde mi punto de vista, la respuesta a su pregunta no puede ser matemática, sino que puede resumirse en dos puntos:

  1. ¡NB es extremadamente rápido y no necesita una fase de entrenamiento! Desde un punto de vista empírico, funciona bien para la clasificación de documentos y no necesita un gran conjunto de datos, así que … ¿por qué usar un enfoque más complicado? (redes neuronales, LR, etc.)
  2. Hay muchos supuestos bajo los algoritmos de aprendizaje automático y, gracias a ellos, puede comenzar desde un enfoque en lugar de otro, pero a menudo la única forma de elegir los mejores para su problema es probar, probar y probar . Entonces, a veces es solo una cuestión de prueba y experiencia.