La minería de texto también es una parte tan importante de la minería de datos como la minería de imágenes y los números. Básicamente solo tenemos 2 tipos de variables: numéricas y no numéricas. Para numérico, probablemente sepa encontrar las correlaciones, la media, las medianas, los intervalos de confianza y muchas cosas más.
Pero cuando se trata de variables no numéricas o categóricas, no tenemos ningún método predefinido para trabajar con ellas. Esto se debe a que la variable será diferente en diferentes conjuntos de datos. En algunos, puede tener nombres de tiendas, en otros puede tener nombres de estudiantes, en otros puede tener la enfermedad de la persona.
Entonces, la minería de texto no es más que encontrar información útil de las variables categóricas que pueden ayudarnos a hacer que nuestros datos sean más informativos.
- ¿Cuál es el beneficio de usar la función softmax en la última capa de DNN? ¿Cuál es la relación entre la entropía cruzada y las funciones de pérdida?
- ¿Cómo se usa el aprendizaje automático en la ciencia de los materiales?
- ¿Qué significa el valor propio de un hessiano en el aprendizaje automático?
- ¿Qué es la selección de variables en bloques cuando se hace un análisis de regresión?
- ¿Se aplica Occam's Razor en el aprendizaje automático?
Puede usar la minería de texto en el PNL (procesamiento del lenguaje natural). En esto, nuestra máquina entiende la lógica detrás de nuestra oración hablada al ubicar las palabras. Supongamos que dijimos “¿Cuál era la temperatura el domingo en Bangalore?”. Luego, nuestro algoritmo divide la oración en diferentes palabras y analizará las palabras como “Temperatura”, “Domingo”, “Bangalore” y “?”. Entonces, entiende que estamos hablando de Temperatura el domingo pasado en Bangalore.
Un ejemplo más simple que puedo darte. Puedes ver el conjunto de datos del Titanic en el Kaggle. En el proyecto, hemos utilizado los nombres de las personas para determinar su género, el tamaño de su familia y su nivel en la sociedad, es decir, cuán ricos o pobres son.
A través de la minería de texto, puede hacer muchas cosas en casi todos los campos, desde la seguridad cibernética hasta la detección de fraudes y el análisis de publicaciones en redes sociales.