¿Cuáles son las características del texto en la minería de datos?

La minería de texto también es una parte tan importante de la minería de datos como la minería de imágenes y los números. Básicamente solo tenemos 2 tipos de variables: numéricas y no numéricas. Para numérico, probablemente sepa encontrar las correlaciones, la media, las medianas, los intervalos de confianza y muchas cosas más.

Pero cuando se trata de variables no numéricas o categóricas, no tenemos ningún método predefinido para trabajar con ellas. Esto se debe a que la variable será diferente en diferentes conjuntos de datos. En algunos, puede tener nombres de tiendas, en otros puede tener nombres de estudiantes, en otros puede tener la enfermedad de la persona.

Entonces, la minería de texto no es más que encontrar información útil de las variables categóricas que pueden ayudarnos a hacer que nuestros datos sean más informativos.

Puede usar la minería de texto en el PNL (procesamiento del lenguaje natural). En esto, nuestra máquina entiende la lógica detrás de nuestra oración hablada al ubicar las palabras. Supongamos que dijimos “¿Cuál era la temperatura el domingo en Bangalore?”. Luego, nuestro algoritmo divide la oración en diferentes palabras y analizará las palabras como “Temperatura”, “Domingo”, “Bangalore” y “?”. Entonces, entiende que estamos hablando de Temperatura el domingo pasado en Bangalore.

Un ejemplo más simple que puedo darte. Puedes ver el conjunto de datos del Titanic en el Kaggle. En el proyecto, hemos utilizado los nombres de las personas para determinar su género, el tamaño de su familia y su nivel en la sociedad, es decir, cuán ricos o pobres son.

A través de la minería de texto, puede hacer muchas cosas en casi todos los campos, desde la seguridad cibernética hasta la detección de fraudes y el análisis de publicaciones en redes sociales.

Esto está limitado por su imaginación más bien.

Algunas características rápidas que puede crear son el recuento de palabras, la existencia de palabras, la ortografía incorrecta, los N-gramos, la coincidencia de palabras, la existencia de mayúsculas.

More Interesting

Como programador novato, ¿realmente necesito conocer toda la documentación de un lenguaje o marco de programación para comenzar, o lo aprenderé acumulativamente mientras trabajo en un proyecto pequeño?

¿Podemos obtener un intervalo de confianza para la salida de un clasificador en el aprendizaje supervisado?

¿Debo usar TensorFlow o Caffe2 para comenzar a aprender el aprendizaje automático y el aprendizaje profundo?

¿Cómo se aplica la inteligencia artificial a los problemas ambientales?

El aprendizaje profundo hará que los humanos sean innecesarios para qué trabajos.

¿Qué es una red de detección como YOLO o SSD en el aprendizaje automático?

¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

¿Cómo puede beneficiarse el sector financiero con el uso de LD y AI?

¿Puede el aprendizaje reforzado aprovechar la memoria o transferir el aprendizaje?

¿Cómo se usa el aprendizaje automático en DevOps?

¿Cuáles son las ventajas de las máquinas de vectores de soporte (SVM) en comparación con la regresión lineal o la regresión logística?

¿Cuáles son algunos algoritmos de aprendizaje automático que puedo aprender sin cálculo?

Cómo comprender mejor las funciones de activación en el aprendizaje automático, especialmente las matemáticas detrás de ellas

¿Qué tipo de matemática se usa en el aprendizaje automático? ¿Puedo aprender ML sin él?

Cómo dominar el aprendizaje automático para poder unirme a Google para puestos relacionados con el aprendizaje automático