Debemos tener cuidado cuando hablamos de modelado de PNL. En particular, los modelos de secuencia como los RNNs se aplicaron originalmente a la PNL como un modelo de lenguaje mejorado, lo que proporciona probabilidades de un token dado su contexto. Los RNN son adecuados para esto, por lo que mantenemos una noción de estado de contexto a medida que abordamos cada nuevo token. Puede ver cómo esto se generalizaría a otros modelos a nivel de token, como parte del etiquetado de voz.
Ahora, cuando adaptamos estos métodos para modelar cantidades individuales para una oración o documento completo, encontrará que las palabras hacia el final de la secuencia generalmente tienen un peso desproporcionadamente alto en cómo influyen en el modelo. Las CNN no tienen este problema.
Parte de la intuición detrás de las CNN para el modelado de oraciones / documentos es que se puede construir una estructura compositiva, que inicialmente representa una pequeña localidad y se combina con estructuras sintácticas más grandes, similares a los análisis gramaticales. Si bien la “correpondencia” entre el análisis gramatical (específicamente, la gramática de la circunscripción) es un poco complicada, se basa en la base de que las CNN generalmente pueden transmitir información “local” a estructuras más grandes y finalmente a un estado global.
- Cómo realizar el etiquetado de palabras (POS, NER) para nuevas oraciones utilizando una red neuronal profunda (entrenada)
- ¿Cuál es la diferencia entre alineación y deformación en visión artificial?
- ¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?
- ¿Cuándo es un bosque aleatorio una mala elección en relación con otros algoritmos?
- ¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?