Realmente no trabajo con PNL, así que perdone cualquier imprecisión grave.
Desde un punto de vista estadístico puro, la búsqueda de tuplas requeriría, como afirma Chris Brew, un corpus mucho más grande, porque será muy difícil que cualquier tupla que ocurra una cantidad muy pequeña de veces no sea “mejor que el azar”. Digamos que tu diccionario tiene 1000 palabras. Entonces, una palabra que aparece con más frecuencia que casualidad significa que debe aparecer más de una vez cada 1000 palabras (suponiendo que todas las palabras sean igualmente probables; por supuesto, ese no es el caso, por lo que supongo que está correcto de alguna manera anterior). Si te mueves a un par de palabras, tienes 1000 elegir 2 = ** 499500 ** tuplas para elegir, lo que significa que si aparece más de cada medio millón de palabras, indicará más posibilidades. Su ejemplo requeriría un escaneo sobre las 4 tuplas. 1000 elegir 4 = ** 4141712475 **. Entonces, si aparece más de una vez cada 4 mil millones de palabras, es más que casualidad. El único corpus con el que tengo experiencia es el corpus marrón, con ~ 50000 palabras. 50000 elige 4> 2.6e17: ya tienes la idea.
Sin embargo, no niegues la importancia de eso antes. Tal vez hace que este enfoque sea prácticamente útil.
Una vez más, esto está fuera del alcance; avíseme si entendí mal el problema.
- Cómo obtener líneas de regresión y encontrar coeficientes de correlación a partir de datos
- ¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?
- ¿Cuál es el mejor curso para IA?
- ¿Qué es la agrupación promedio global?
- ¿Cómo funciona el modelo de red neuronal profunda en la predicción de regresión en los datos del sensor?