Ahora, para comenzar a predecir la siguiente palabra en el contexto de una oración, podemos usar n-gramas. Los N-gramos son una secuencia de oraciones correctas en el idioma designado que consta de exactamente n palabras. Ahora, si encuentra un conjunto de datos con n-gramos junto con una probabilidad para cada n-gramo, entonces básicamente resolvió el problema. Sin embargo, encontrar ese conjunto de datos es engorroso por decir lo menos, también solo le da una respuesta en el contexto de una oración, no de un párrafo completo.
Ahora, para resolver el problema, se aplican más comúnmente redes neuronales que pueden aprender de todo el contexto del texto. Sin embargo, R no tiene una implementación realmente eficiente de RNN-s y NN-s en general, por lo tanto, debemos utilizar otros métodos.
Las redes bayesianas y los modelos de Markov también parecen ser populares para este problema. También tienen implementaciones bastante decentes en R, así que diría que vaya con redes bayesianas.
- ¿Cómo es trabajar en problemas de aprendizaje automático en un entorno empresarial?
- ¿Dónde puedo encontrar el algoritmo para encontrar los otros nombres de la entidad popular?
- ¿Es útil entrenar a AlphaGo jugando contra sí mismo?
- De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?
- ¿Cuáles son los principales desafíos en el aprendizaje semi-supervisado?