Hay tres tipos de datos no estructurados
DATOS TOTALMENTE NO ESTRUCTURADOS
Estos son archivos de video, archivos de audio e imágenes. No hay muchas técnicas disponibles en Hadoop para recopilar inteligencia de datos completamente no estructurados. Sin embargo, los científicos de datos pueden aprovechar la tecnología disponible en este blog (Cómo ejecutar TensorFlow en Hadoop | TensorFlow), para procesar datos completamente no estructurados y obtener algo de inteligencia. El flujo del tensor requiere una gran cantidad de procesamiento. Las GPU no tienen tanta potencia de procesamiento, por lo que Hadoop puede no ser la tecnología adecuada para procesar datos completamente no estructurados.
- ¿Cómo funcionan los algoritmos de clasificación en un sistema distribuido grande?
- ¿Qué libro debo consultar para estructuras de datos en c ++?
- ¿Cuál es el camino más corto de Dijkstra para el siguiente gráfico?
- ¿Cuál es la mejor manera de aprender a escribir algoritmos?
- ¿Qué es un algoritmo en términos simples?
DATOS DE TEXTO NO ESTRUCTURADOS
Es el texto escrito en varias formas como: páginas web, correos electrónicos, mensajes de chat, archivos pdf, documentos de texto, etc. Hadoop se diseñó por primera vez para procesar este tipo de datos. Usando programación avanzada, podemos encontrar información de estos datos. A continuación, destaco principalmente el manejo de estos datos de texto no estructurados.
DATOS SEMISTRUCTURADOS
Estos datos se encuentran principalmente en archivos de registro, o registros IOT, donde vemos la estructura pero necesitamos algunas reglas para encontrar los detalles. Por ejemplo, un registro de flujo de clics puede verse así:
2017-11-01 14: 27: 57,944-INFO: com.ovaledge.oasis.dao.DomainDaoImpl – CONSULTA EN EJECUCIÓN: Seleccione * del dominio donde DOMAINTYPE = ‘DATAAPP_CATEGORY’;
La línea anterior comienza con una fecha y luego tiene un nombre de clase y algunos detalles sobre el nombre de la clase. Podemos escribir reglas para extraer esta información.
DATOS ESTRUCTURADOS INCOMPATIBLES (PERO LO LLAMAN SIN ESTRUCTURAR)
Los datos en Avro, los archivos JSON, los archivos XML son datos estructurados, pero muchos proveedores los llaman datos no estructurados, ya que estos son archivos. Solo tratan los datos que se encuentran en una base de datos como estructurados. Hadoop tiene una capa de abstracción llamada Hive que usamos para procesar estos datos estructurados.
Ahora que lo hemos categorizado, nuestro próximo paso será procesar esta cantidad masiva de datos no estructurados. Así que ahora hablemos sobre cómo hacer esto técnicamente en Hadoop.
PROCESAMIENTO DE DATOS DE TEXTO NO ESTRUCTURADO
EXTRACCIÓN DE TEXTO (DIFERENTES FORMATOS DE ARCHIVO)
Hadoop por defecto solo admite el formato de archivo de texto. Para procesar varios tipos de archivos, por ejemplo, HTML, PDF, Word, PPT, etc., debe escribir un formato de entrada personalizado. Existen numerosas soluciones de código abierto disponibles para extraer el texto de varios formatos de archivo.
PARSING / TOKENIZATION
Una vez que extrae el texto, debe recoger las oraciones del párrafo y luego las palabras del mismo. Se requiere cierta lógica de aprendizaje automático para entrenar el modelo. Si lo desea, puede usar algunas bibliotecas de código abierto basadas en Java para analizar el texto. Normalmente utilizamos dos bibliotecas: Stanford y Open Text API.
RECONOCIMIENTO DE FRASES (EDIFICIO CORPUS)
Desea separar frases del texto. Para esto, puede usar reglas para verificar todas las combinaciones de palabras de un diccionario. También puede usar modelos de aprendizaje automático.
RECONOCIMIENTO DE ENTIDAD NOMBRADA
Ahora desea separar nombres, nombres propios, dirección, una ciudad del texto. Debe identificar si una palabra en particular es una ciudad, dirección o estado. Para esto, debe crear un modelo de aprendizaje automático para determinar si una palabra está dentro de una categoría específica. Para el nombre y la ciudad, puede encontrar un modelo de código abierto. Pero para identificar algo más que eso; primero, tienes que crear un modelo. Luego, entrénelo con sus datos y después de eso, podrá reconocer el texto.
En OvalEdge tenemos un algoritmo robusto, donde creamos un modelo para aprender de los datos estructurados. Luego aplicamos el modelo automáticamente. Solo tiene que apuntar a ‘Tabla de plazos de pago’, para capacitar a un modelo con condiciones de pago. Apunte a ‘Tabla de empresas’ para identificar los nombres de las empresas. Una vez que identifica los nombres, puede indexarlos para búsquedas o análisis.