La mayoría de mis proyectos están relacionados con PNL, por lo que los datos con los que suelo trabajar son datos de texto. Para comenzar a procesar datos de texto, debe completar los siguientes pasos necesarios:
- Tokenización , que significa dividir un flujo de texto en palabras, frases, símbolos u otros elementos significativos llamados tokens.
- La derivación , el proceso de reducir las palabras flexionadas (o algunas veces derivadas) a su forma de raíz, base o raíz. Necesitamos esto para eliminar la diferencia entre las palabras ‘correr’, ‘correr’ y ‘correr’, por ejemplo.
- Descapitalización Porque no queremos que las palabras ‘Datos’ y ‘datos’ se consideren como palabras diferentes.
Después de haber limpiado los datos, hay varias formas de transformarlos.
El más simple es la Bolsa de palabras. Esta es una matriz, donde cada matriz corresponde a un texto particular de su corpus, y cada columna representa una palabra.
- ¿Cuáles son algunas bases de datos meteorológicas históricas?
- ¿Qué es el análisis de sentimientos de Twitter?
- Scala es conocido por Big Data Analytics pero no es por análisis de datos / ciencia ¿es esto un error o está fundado?
- ¿Cuál es su software de análisis de datos preferido y por qué?
- ¿Qué tareas de minería de datos (big data) necesitan precisión de predicción más allá de 0.999999?
También los n-gramas son populares, así como las representaciones de Word2Vec. En resumen, depende de lo que realmente va a hacer con sus datos. Las tareas simples como la clasificación de texto pueden manejarse bien solo con la Bolsa de palabras, mientras que el análisis de sentimientos o la detección de engaños requieren representaciones mucho más complicadas.