¿Qué algoritmo es mejor para datos no estructurados?

Hay tres tipos de datos no estructurados

DATOS TOTALMENTE NO ESTRUCTURADOS

Estos son archivos de video, archivos de audio e imágenes. No hay muchas técnicas disponibles en Hadoop para recopilar inteligencia de datos completamente no estructurados. Sin embargo, los científicos de datos pueden aprovechar la tecnología disponible en este blog (Cómo ejecutar TensorFlow en Hadoop | TensorFlow), para procesar datos completamente no estructurados y obtener algo de inteligencia. El flujo del tensor requiere una gran cantidad de procesamiento. Las GPU no tienen tanta potencia de procesamiento, por lo que Hadoop puede no ser la tecnología adecuada para procesar datos completamente no estructurados.

DATOS DE TEXTO NO ESTRUCTURADOS

Es el texto escrito en varias formas como: páginas web, correos electrónicos, mensajes de chat, archivos pdf, documentos de texto, etc. Hadoop se diseñó por primera vez para procesar este tipo de datos. Usando programación avanzada, podemos encontrar información de estos datos. A continuación, destaco principalmente el manejo de estos datos de texto no estructurados.

DATOS SEMISTRUCTURADOS

Estos datos se encuentran principalmente en archivos de registro, o registros IOT, donde vemos la estructura pero necesitamos algunas reglas para encontrar los detalles. Por ejemplo, un registro de flujo de clics puede verse así:
2017-11-01 14: 27: 57,944-INFO: com.ovaledge.oasis.dao.DomainDaoImpl – CONSULTA EN EJECUCIÓN: Seleccione * del dominio donde DOMAINTYPE = ‘DATAAPP_CATEGORY’;
La línea anterior comienza con una fecha y luego tiene un nombre de clase y algunos detalles sobre el nombre de la clase. Podemos escribir reglas para extraer esta información.

DATOS ESTRUCTURADOS INCOMPATIBLES (PERO LO LLAMAN SIN ESTRUCTURAR)

Los datos en Avro, los archivos JSON, los archivos XML son datos estructurados, pero muchos proveedores los llaman datos no estructurados, ya que estos son archivos. Solo tratan los datos que se encuentran en una base de datos como estructurados. Hadoop tiene una capa de abstracción llamada Hive que usamos para procesar estos datos estructurados.

Ahora que lo hemos categorizado, nuestro próximo paso será procesar esta cantidad masiva de datos no estructurados. Así que ahora hablemos sobre cómo hacer esto técnicamente en Hadoop.

PROCESAMIENTO DE DATOS DE TEXTO NO ESTRUCTURADO

EXTRACCIÓN DE TEXTO (DIFERENTES FORMATOS DE ARCHIVO)

Hadoop por defecto solo admite el formato de archivo de texto. Para procesar varios tipos de archivos, por ejemplo, HTML, PDF, Word, PPT, etc., debe escribir un formato de entrada personalizado. Existen numerosas soluciones de código abierto disponibles para extraer el texto de varios formatos de archivo.

PARSING / TOKENIZATION

Una vez que extrae el texto, debe recoger las oraciones del párrafo y luego las palabras del mismo. Se requiere cierta lógica de aprendizaje automático para entrenar el modelo. Si lo desea, puede usar algunas bibliotecas de código abierto basadas en Java para analizar el texto. Normalmente utilizamos dos bibliotecas: Stanford y Open Text API.

RECONOCIMIENTO DE FRASES (EDIFICIO CORPUS)

Desea separar frases del texto. Para esto, puede usar reglas para verificar todas las combinaciones de palabras de un diccionario. También puede usar modelos de aprendizaje automático.

RECONOCIMIENTO DE ENTIDAD NOMBRADA

Ahora desea separar nombres, nombres propios, dirección, una ciudad del texto. Debe identificar si una palabra en particular es una ciudad, dirección o estado. Para esto, debe crear un modelo de aprendizaje automático para determinar si una palabra está dentro de una categoría específica. Para el nombre y la ciudad, puede encontrar un modelo de código abierto. Pero para identificar algo más que eso; primero, tienes que crear un modelo. Luego, entrénelo con sus datos y después de eso, podrá reconocer el texto.

En OvalEdge tenemos un algoritmo robusto, donde creamos un modelo para aprender de los datos estructurados. Luego aplicamos el modelo automáticamente. Solo tiene que apuntar a ‘Tabla de plazos de pago’, para capacitar a un modelo con condiciones de pago. Apunte a ‘Tabla de empresas’ para identificar los nombres de las empresas. Una vez que identifica los nombres, puede indexarlos para búsquedas o análisis.

No hay tal cosa.

Los modelos de aprendizaje automático se basan en datos tabulares limpios, no en datos no estructurados … a menos que estemos hablando de CNN.

Si está interesado en el aprendizaje automático, tome este curso gratuito sobre los modelos básicos utilizados en el aprendizaje automático aplicado.

Una introducción al aprendizaje automático para ingenieros de datos