Word2vec, un método implementado típicamente sin modelos profundos, es bastante bueno en la clasificación de palabras. Incrusta palabras en un espacio vectorial, y las palabras incrustadas en espacios cercanos deben ser (y generalmente son) similares.
Sin embargo, las intuiciones detrás de word2vec podrían aplicarse a un modelo más profundo, potencialmente obteniendo mejores resultados. Word2vec se basa en la idea de que dos palabras que ocurren conjuntamente en contextos similares son similares. Por ejemplo, dadas dos oraciones “el perro [se escapó]” y el “el perro [se alejó]”, el sistema inferiría que “corrió” y “caminó” son similares. Las implementaciones típicas de word2vec usan un ‘contexto’ de varias palabras, o algunas palabras antes y después.
Si estuviera tan inclinado, podría usar un RNN, por ejemplo, LSTM, para crear contextos más ricos. En lugar de simplemente recordar varias palabras antes y después para crear un contexto, el RNN podría recordar muchas palabras antes y después, y combinarlas en formas complejas y no lineales (el punto del aprendizaje profundo) para encontrar un contexto mucho más rico. Luego predeciría la palabra dado el contexto más rico: las palabras que es muy probable que se encuentren en un determinado contexto son probablemente similares.
- ¿Cuál es una explicación intuitiva del modelo gráfico de la asignación de Dirichlet latente?
- ¿Cuál es la mejor y más fácil forma de aprender el aprendizaje automático?
- Cómo comenzar con el aprendizaje profundo (cosas matemáticas) en Python
- ¿Cuál es el mejor enfoque para aprender sobre los algoritmos de redes neuronales de predicción del mercado de valores?
- ¿Es mejor utilizar algoritmos basados en reglas o de aprendizaje automático para la clasificación en un dominio de respuesta a preguntas cerrado?
Tenga en cuenta que dicha implementación sería mucho más lenta de entrenar y requeriría muchos más datos que las implementaciones de word2vec superficiales. Sin embargo, si crea incrustaciones de palabras más precisas, estas incrustaciones podrían usarse para encontrar clasificaciones de palabras más precisas.