¿Tiene sentido emplear Bayes ingenuos multinomiales con n-gramos? Pregunto porque supone que cada posición está ocupada por un término, por lo que los n-gramos no parecen encajar naturalmente en el modelo.

Depende de tu modelo. Un modelo Naive Bayes es esencialmente lo que llamamos un modelo generativo. En pocas palabras, está intentando modelar la probabilidad de generar un conjunto de características condicionadas a la variable de clase latente (oculta). Estas características, en su caso serían n-gramas.

Desde un punto de vista teórico, en el caso de n-gramos, el modelo se considera “deficiente”. Esto se debe a que ahora cada variable de clase latente está “generando” términos duplicados. Suponiendo que ha manejado todos los tokens START / END de manera adecuada, esencialmente está generando n-copias de todo.

Y llamamos al modelo deficiente porque parte de la masa de probabilidad que tiene se está gastando en estos tokens extraños (mi asesor los llama modelos con fugas), lo que generalmente no es un gran problema **. En PNL, tales modelos deficientes son un lugar bastante común (piense en LDA con ngrams en lugar de unigramas), simplemente reemplazar unigramas con características de ngramas es como la versión de un pobre de incorporar información semántica de nivel superior. ¡Agregue algunas técnicas de selección de características para reducir la cantidad de combinaciones de n-gramas que tiene y estará en camino!

** Esto sería un problema si su tarea es el modelado de idiomas. En el modelado de idiomas, desea asegurarse de que su masa de probabilidad se asigne correctamente.

Un clasificador Multinomial Naive Bayes es simplemente un modelo de lenguaje probabilístico Unigram junto con efectos de suavizado de laplace en su forma simple de vainilla.

También podría elegir otras técnicas de suavizado, pero el aspecto importante es que Multinomial Naive Bayes trata cada palabra del documento como una característica, suponiendo que el documento esté compuesto de unigramas cuyas probabilidades NO son dependientes. Esta es una suposición crítica para clasificar un documento en la categoría C

Para resumir, el clasificador encaja bien con el modelo de lenguaje Unigram y no con el modelo n gram.

Puede tener sentido dependiendo de su caso de uso. Aquí está la razón: la posición a la que se refiere ahora puede interpretarse como la posición en el vector de características. El vector de características es simplemente un vector de características. Las características pueden ser n-gramos (para cualquier valor de n). Para n = 1, esto se reduce al caso degenerado simple. Espero que esto ayude.

Esto es diferente de Bernoulli multivariante.

More Interesting

¿Qué otros algoritmos de aprendizaje automático, además del aprendizaje profundo, se aplican ampliamente en aplicaciones comerciales?

En R, ¿qué significa elegir lambda por validación cruzada (cresta, lazo)?

¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?

¿Cuál es la relación entre física y aprendizaje automático / IA?

En una máquina de vectores de soporte, el número de vectores de soporte puede ser mucho menor que el conjunto de entrenamiento. ¿Cómo puede ser útil esta característica?

¿Crees que Robot puede realizar todas las tareas humanas con Deep Learning?

¿Qué pensaría BF Skinner del aprendizaje automático?

¿Cómo puedo demostrar que si no escalo las características antes de aplicar el descenso de gradiente, disminuirá la convergencia?

¿Hasta dónde nos pueden llevar las redes neuronales / de aprendizaje profundo / IA para encontrar una solución al problema de las noticias falsas?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Debo aprender el aprendizaje automático y el desarrollo de aplicaciones de Android simultáneamente? En caso afirmativo, ¿a qué lenguaje (s) de programación debo recurrir?

¿Por qué la función de activación de softmax se llama "softmax"?

¿Cómo se usa el aprendizaje automático en la generación de preguntas?

¿En qué se diferencia LSTM de RNN? En una explicación laica.

¿Por qué parece que hay capas y capas de significado más profundo ocultas bajo la simple forma de escritura de Ernest Hemingway?