¿Funcionaría la búsqueda de ‘colocaciones’ de orden superior?

Realmente no trabajo con PNL, así que perdone cualquier imprecisión grave.
Desde un punto de vista estadístico puro, la búsqueda de tuplas requeriría, como afirma Chris Brew, un corpus mucho más grande, porque será muy difícil que cualquier tupla que ocurra una cantidad muy pequeña de veces no sea “mejor que el azar”. Digamos que tu diccionario tiene 1000 palabras. Entonces, una palabra que aparece con más frecuencia que casualidad significa que debe aparecer más de una vez cada 1000 palabras (suponiendo que todas las palabras sean igualmente probables; por supuesto, ese no es el caso, por lo que supongo que está correcto de alguna manera anterior). Si te mueves a un par de palabras, tienes 1000 elegir 2 = ** 499500 ** tuplas para elegir, lo que significa que si aparece más de cada medio millón de palabras, indicará más posibilidades. Su ejemplo requeriría un escaneo sobre las 4 tuplas. 1000 elegir 4 = ** 4141712475 **. Entonces, si aparece más de una vez cada 4 mil millones de palabras, es más que casualidad. El único corpus con el que tengo experiencia es el corpus marrón, con ~ 50000 palabras. 50000 elige 4> 2.6e17: ya tienes la idea.
Sin embargo, no niegues la importancia de eso antes. Tal vez hace que este enfoque sea prácticamente útil.

Una vez más, esto está fuera del alcance; avíseme si entendí mal el problema.

¿Funciona el aprendizaje profundo si las entradas están en un espacio dimensional relativamente bajo?

¿Cuál es la diferencia entre el aprendizaje automático, el procesamiento del lenguaje natural, el aprendizaje profundo y la visión por computadora?

¿Qué son los componentes del procesamiento del lenguaje natural?

¿Cuáles son los límites del aprendizaje automático? ¿Cuándo puede estar seguro de que un algoritmo ML no podrá darle un resultado satisfactorio?

¿Cuál es su enfoque para el diseño de redes neuronales convolucionales?

¿Qué significa el modelo semántico distribucional (DSM) en el procesamiento del lenguaje natural?

Creo que es más eficiente buscar colocaciones compartidas (automóviles, conducidos) y (conducidos, carreteras), ya que podría brindarle nuevas perspectivas, especialmente si está trabajando en la detección y modelado de temas. En las colocaciones anteriores, es posible que detecte algunos de los documentos de su universo (automóviles, conducidos) (conducidos, dunas) y probablemente se referirá a todo terreno.

Kenny Turner

La respuesta corta es “a veces”. La respuesta más larga es que a medida que aumenta la cantidad de palabras que está buscando, también aumenta el tamaño del corpus que necesita para estar razonablemente seguro de que lo que está buscando estará suficientemente representado. Las colocaciones largas más fuertes estarán presentes incluso en corpus pequeños, pero puede encontrar que las que intuitivamente se sienten “razonablemente comunes” simplemente no aparecen. Nuestras intuiciones no están bien ajustadas para manejar estadísticas a gran escala. Creo que este es el precio que pagamos por el hecho de que nuestros antepasados tenían sesgos cognitivos que fueron útiles para permitirles recolectar frutas, nueces y hierbas de las sabanas y los bosques. Estos sesgos nos confunden y nos dan esperanzas irracionales al tratar con datos que están en una escala diferente de la que encontramos en ese momento.

Chris Brew

More Interesting

¿Cuál es la pérdida latente en autoencoders variacionales?

¿Por qué la traducción automática neuronal a nivel de caracteres es más difícil que la traducción automática neuronal a nivel de palabra?

¿Cómo se puede usar MapReduce en problemas de optimización?

Ingeniero de Aprendizaje Automático de Udacity Nanodegree: ¿Dónde están los proyectos?

¿Cuál es la ventaja de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN)?

¿Cuáles son las cosas tecnológicas que más impactarán en el futuro de los trabajos (aprendizaje automático, aprendizaje profundo, redes neuronales, etc.)?

¿Preferiría que una novela sobre la era medieval fuera históricamente precisa y llena de conceptos verificables o fácilmente legible pero de hecho escasa?

¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?

¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?

Andrew Ng: ¿Qué opinas sobre la memoria?