¿Funcionaría la búsqueda de ‘colocaciones’ de orden superior?

Realmente no trabajo con PNL, así que perdone cualquier imprecisión grave.
Desde un punto de vista estadístico puro, la búsqueda de tuplas requeriría, como afirma Chris Brew, un corpus mucho más grande, porque será muy difícil que cualquier tupla que ocurra una cantidad muy pequeña de veces no sea “mejor que el azar”. Digamos que tu diccionario tiene 1000 palabras. Entonces, una palabra que aparece con más frecuencia que casualidad significa que debe aparecer más de una vez cada 1000 palabras (suponiendo que todas las palabras sean igualmente probables; por supuesto, ese no es el caso, por lo que supongo que está correcto de alguna manera anterior). Si te mueves a un par de palabras, tienes 1000 elegir 2 = ** 499500 ** tuplas para elegir, lo que significa que si aparece más de cada medio millón de palabras, indicará más posibilidades. Su ejemplo requeriría un escaneo sobre las 4 tuplas. 1000 elegir 4 = ** 4141712475 **. Entonces, si aparece más de una vez cada 4 mil millones de palabras, es más que casualidad. El único corpus con el que tengo experiencia es el corpus marrón, con ~ 50000 palabras. 50000 elige 4> 2.6e17: ya tienes la idea.
Sin embargo, no niegues la importancia de eso antes. Tal vez hace que este enfoque sea prácticamente útil.

Una vez más, esto está fuera del alcance; avíseme si entendí mal el problema.

Creo que es más eficiente buscar colocaciones compartidas (automóviles, conducidos) y (conducidos, carreteras), ya que podría brindarle nuevas perspectivas, especialmente si está trabajando en la detección y modelado de temas. En las colocaciones anteriores, es posible que detecte algunos de los documentos de su universo (automóviles, conducidos) (conducidos, dunas) y probablemente se referirá a todo terreno.

La respuesta corta es “a veces”. La respuesta más larga es que a medida que aumenta la cantidad de palabras que está buscando, también aumenta el tamaño del corpus que necesita para estar razonablemente seguro de que lo que está buscando estará suficientemente representado. Las colocaciones largas más fuertes estarán presentes incluso en corpus pequeños, pero puede encontrar que las que intuitivamente se sienten “razonablemente comunes” simplemente no aparecen. Nuestras intuiciones no están bien ajustadas para manejar estadísticas a gran escala. Creo que este es el precio que pagamos por el hecho de que nuestros antepasados ​​tenían sesgos cognitivos que fueron útiles para permitirles recolectar frutas, nueces y hierbas de las sabanas y los bosques. Estos sesgos nos confunden y nos dan esperanzas irracionales al tratar con datos que están en una escala diferente de la que encontramos en ese momento.

More Interesting

¿Cuál es la pérdida latente en autoencoders variacionales?

¿Por qué la traducción automática neuronal a nivel de caracteres es más difícil que la traducción automática neuronal a nivel de palabra?

¿Cómo se puede usar MapReduce en problemas de optimización?

Ingeniero de Aprendizaje Automático de Udacity Nanodegree: ¿Dónde están los proyectos?

¿Cuál es la ventaja de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN)?

¿Cuáles son las cosas tecnológicas que más impactarán en el futuro de los trabajos (aprendizaje automático, aprendizaje profundo, redes neuronales, etc.)?

¿Preferiría que una novela sobre la era medieval fuera históricamente precisa y llena de conceptos verificables o fácilmente legible pero de hecho escasa?

¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?

¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?

Andrew Ng: ¿Qué opinas sobre la memoria?

¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?

¿Cuál es la diferencia entre derivada de una función o pendiente de gradiente?

¿Cuáles fueron las principales conclusiones del tutorial de Richard Sutton sobre el aprendizaje por refuerzo en NIPS 2015?

¿Qué les falta a las redes de confrontación para que realmente modelen una representación del mundo?

¿Es posible el aprendizaje automático acelerado por GPU utilizando un controlador de gráficos de software libre?