Los vectores en PNL son los mismos que en cualquier otro contexto de Machine Learning: una representación numérica de un objeto, en forma de un conjunto ordenado de coordenadas con respecto a un espacio vectorial numérico.
Tenga en cuenta que digo numérico en lugar de real porque una coordenada (también conocida como entidad ) puede ser booleana, un entero no negativo o real no negativo, dependiendo de si codifica la aparición / no ocurrencia de un término, el número de ocurrencias de un término, o la importancia relativa de un término dentro de un documento y / o su corpus. El formulario posterior generalmente usa lo que se conoce como puntaje TF-IDF. Un término puede ser una palabra (también conocido como 1-gramo ) o una secuencia de palabras (también conocido como n-gramo ).
La forma más común de decidir sobre una base o espacio vectorial es fijar el vocabulario de posibles términos en su corpus (esto puede proporcionarse o crearse automáticamente a partir del corpus). Suponga que la representación vectorial en cuestión usa características booleanas, cada característica significa la aparición de un término en un objeto textual (un documento, un tweet o incluso un código fuente). Luego, cada objeto en un corpus está representado por un vector (es decir, un punto) en el espacio vectorial predefinido.
- ¿Cuánto tiempo hasta que tengamos aviones autónomos, particularmente aviones de carga grandes y aviones de pasajeros?
- ¿Cuáles son las ventajas y desventajas de cada método de regresión no lineal existente?
- ¿Cuáles son los métodos actuales o estándar de combinación de datos estructurados y no estructurados en redes neuronales convolucionales?
- Cómo leer esta arquitectura de red neuronal convolucional
- ¿Qué es el aprendizaje automático y cuál es su futuro?
La desventaja de corregir el vocabulario a priori es la necesidad de ver todos los documentos en un corpus, lo cual no es factible en aplicaciones a gran escala. Una solución inteligente pero con pérdida en este caso es el Hashing de características. Consulte, por ejemplo, ¿Puede explicar el hashing de características de una manera fácilmente comprensible? para una introducción rápida