Depende de tu modelo. Un modelo Naive Bayes es esencialmente lo que llamamos un modelo generativo. En pocas palabras, está intentando modelar la probabilidad de generar un conjunto de características condicionadas a la variable de clase latente (oculta). Estas características, en su caso serían n-gramas.
Desde un punto de vista teórico, en el caso de n-gramos, el modelo se considera “deficiente”. Esto se debe a que ahora cada variable de clase latente está “generando” términos duplicados. Suponiendo que ha manejado todos los tokens START / END de manera adecuada, esencialmente está generando n-copias de todo.
Y llamamos al modelo deficiente porque parte de la masa de probabilidad que tiene se está gastando en estos tokens extraños (mi asesor los llama modelos con fugas), lo que generalmente no es un gran problema **. En PNL, tales modelos deficientes son un lugar bastante común (piense en LDA con ngrams en lugar de unigramas), simplemente reemplazar unigramas con características de ngramas es como la versión de un pobre de incorporar información semántica de nivel superior. ¡Agregue algunas técnicas de selección de características para reducir la cantidad de combinaciones de n-gramas que tiene y estará en camino!
- ¿Qué técnicas son buenas para suavizar los clics de las consultas de cola larga en los motores de búsqueda?
- ¿Fallarán todos los modelos de aprendizaje automático en este conjunto de datos?
- ¿Cuál es la posibilidad de hacer una máquina de pensamiento real?
- ¿Sigue siendo útil saber HTML hoy?
- ¿Cuáles son algunos problemas o preguntas de la vida real que el aprendizaje automático ha resuelto y que no se pueden resolver adecuadamente por otros medios?
** Esto sería un problema si su tarea es el modelado de idiomas. En el modelado de idiomas, desea asegurarse de que su masa de probabilidad se asigne correctamente.