¿Qué es el munging de datos? ¿Cómo se puede usar en una oración? ¿Hay algunos sinónimos? ¿De dónde viene la frase?

Data Munging es básicamente el término moderno para limpiar un conjunto de datos desordenado . Por lo general, se usa junto con otro término moderno ‘ciencia de datos’ que es básicamente análisis de datos.

Si alguna vez realizó un análisis de datos, es posible que haya encontrado una selección de características antes de aplicar su modelo (modelo analítico, quiero decir) a los datos.

Por lo tanto, en general, toda la actividad que realiza en los datos sin procesar para que esté “lo suficientemente limpia” como para ingresar a su algoritmo analítico es la mezcla de datos.

A veces, la mezcla de datos también crea algunos datos derivados. Una de las cosas más comunes que hace el munging de datos es que crea identificadores únicos. Pero la derivación de datos no es el objetivo principal del munging de datos.

Wikipedia tiene un artículo sobre la disputa de datos, que es esencialmente lo que es la mezcla de datos.

Datos sin procesar:

Después de Munging de datos

Un ejemplo sería tratar de analizar los registros de acceso de Apache (archivos de registro – Apache HTTP Server). Ahora, los registros de acceso no son necesariamente un conjunto de datos desordenados, pero es lo suficientemente desordenado como para ejecutar directamente cualquier algoritmo de ML en él sin ningún procesamiento previo.

Entonces, cada línea en el archivo se ve así:

aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"

Quería obtener una lista de IP y la cantidad de veces que golpearon puede ser un análisis que requiera saber en qué geografía es popular el sitio web; o puede ser de qué IP provienen los spammers; o en qué área necesitamos más ventas; o qué IP necesitaba ser bloqueada porque están fuera de nuestra zona de ventas o podríamos predecir qué localidad está a punto de experimentar un aumento de la demanda y queremos enviar más productos allí antes de que suceda.

Todas estas preguntas pueden responderse si tenemos una información con dos columnas: una con direcciones IP y otra cómo puede llegar al sitio web.

Aquí hay un script perl de una línea que convertiría ese archivo de registro desordenado en dos columnas CSV (no realmente CSV pero delimitado por token) con IP y recuento de visitas.

  perl -MData :: Dumper -nae '++ $ n {$ F [0]} if / GET http /;  \
     END {print Dumper \% n} 'access.log 

¿Resultado?

  $ VAR1 = {
  'aaa.xx.65.186' => 132,
  'bb.yyy.7.60' => 48, 
  'ccc.zzz.46.147' => 111, 
  'dd.qq.71.82' => 33 
 };
  # IP reales oscurecidas 

Origen:

munge / muhnj / vt.
1. [despectivo] Para transformar imperfectamente la información. 2. Una reescritura integral de una rutina, estructura de datos o todo el programa. 3. Para modificar los datos de alguna manera, el orador no necesita entrar en este momento o no puede describir sucintamente (comparar murmullos ). 4. Para agregar spamblock a una dirección de correo electrónico.

Este término a menudo se confunde con mung , que probablemente se deriva de él. Sin embargo, también parece que la palabra ‘munge’ era de uso común en Escocia en la década de 1940 y en Yorkshire en la década de 1950, como un verbo, que significa masticar en un desastre masticado, y como sustantivo, que significa el resultado de munging algo arriba (el paralelo con el par kluge / kludge es divertido). El OED informa ‘munge’ como un verbo arcaico que significa “limpiar (la nariz de una persona)”.

Herramientas:

Herramientas de Unix: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script
Idiomas: Python, Perl, R
Procesadores de grandes datos: Hadoop / Hive / Pig, Twitter Storm, Spark / Shark


Dato curioso: (bastante asqueroso)

Ya sabes que munging es básicamente limpiar cosas o “sacar la mierda”. Se rumorea que alrededor de 1990, Los Ángeles, una actividad de excavar cadáveres femeninos frescos y saltar sobre ellos para que los asuntos internos salgan de las aberturas se llamaba cadáver munging.

[Esta no es la descripción detallada del acto. Es aún más asqueroso cuando ‘saltas’ a los detalles, pero preferiría que no quisieras que vomites en la pantalla. Si quieres leer toda la maldad de esto. Lea aquí: cadáver munging USTED HA SIDO AVISADO .]

Ahora nunca olvidaría qué es el munging de datos.

Fuentes:

1. ¿Quién está haciendo solicitudes web falsas?
2. Disputa de datos
3. ¿Qué es el Munging de datos?
4. cadáver munging (información despectiva)

Creo que Data Munging está más enfocado en obtener datos desordenados o datos que son aptos para que otra cosa sea apta para un propósito dedicado.

Una comparación de ETL y Data Munging que escribí aquí: Data-Munging, como ETL, ¿solo mejor? , aunque hay cierta similitud entre los procesos ETL utilizados en Data Warehousing y Data Munging, son cosas muy diferentes.

Con Data Munging, usted prepara los datos para un propósito específico (no un caso de uso de la aplicación). En general, veo mucho el término en Aprendizaje automático y casos de uso analíticos sofisticados cuando se extraen datos del entorno que “nacieron” en otra cosa y casos de uso nunca imaginados en el sistema original.

La mezcla de datos es una disputa de datos, es decir, limpiar y dar forma a los datos, procesar previamente los datos antes de que pueda usarlos para la minería de datos.

Aquí hay un curso sobre Data Wrangling:

Curso de discusión de datos | Preparación de datos | Preprocesamiento de datos | Munging de datos | Datos de limpieza en R | Técnicas de limpieza de datos | Cómo limpiar datos | ¿Qué es la disputa de datos? Disposición de datos en R | R Datos de limpieza

Datos mezclando un tipo de minería de datos. La disputa de datos es el proceso de limpieza y unificación de conjuntos de datos desordenados y complejos para un fácil acceso y análisis.

Si desea obtener más información sobre la disputa de datos. ¿Por qué no aprender de los mejores?

Aquí hay un curso que encontré que es realmente útil:

Disposición de datos en R

O no tiene conocimiento sobre R o la disputa de datos o si es un experto en ello, estoy seguro de que ambos pueden aprender y mejorar.

Este curso es proporcionado por Experfy, un mercado de consultoría de big data con sede en Harvard Innovation Lab. TechCrunch llama a Experfy un “McKinsey en la nube para consultoría de big data” y Datanami lo llama el “Uber de los proyectos de big data”. Con más de 25,000 expertos en datos, Experfy es ahora el mercado de consultoría de Big Data e IoT más grande del mundo.

Y recientemente lanzó una plataforma de capacitación en colaboración con líderes de la industria de Harvard, Amazon, Apple y otras compañías importantes. Hemos lanzado 40 cursos y tenemos otros 100 en proceso que agregaremos en los próximos meses.

Espero eso ayude.

Solo extenderé lo que otros han publicado ya. Lo que hago es simplemente limpiar los datos proporcionados por los clientes para que puedan usarse en publicaciones impresas y web: extraer datos de hojas de cálculo / CSV en formato de solo texto, asegurando que los archivos de múltiples fuentes de clientes tengan campos comunes de alineación, corrección ortográfica, conformidad de estilo, conformidad de estructura de texto campo por campo. Luego importe a InDesign, pases de búsqueda y cambio basados ​​en GREP, aplicación de estilo de párrafo y carácter, colocación de texto y ajustes de estilos de procedimiento para conformar los datos recibidos versus los datos esperados. La única fuente que requiere la mayor confusión es, como de costumbre, el cliente.

Data Munging puede tomar muchas formas.

Acabo de escribir una publicación de blog para Chartio sobre cómo los no científicos de datos pueden hacer munging simple en una interfaz de arrastrar y soltar.

Información de Crowdsourced de Munging de datos sin SQL, utilizando los almacenes de datos de Chartio

Munging de hecho está limpiando los datos pero involucra varias actividades como:
Enriquecer los datos
Estandarizar
Normalizar
Aplicar una macro
Buscar patrón (expresión regular)
Ordenar
Filtrar
Unir
Transponer
Analizar gramaticalmente
Transformar tipos de datos
Manejo de datos faltantes

La mezcla de datos o la disputa de datos es, en términos generales, el proceso de convertir o mapear manualmente los datos de una forma “en bruto” a otro formato que permite un consumo más conveniente de los datos con la ayuda de herramientas semiautomatizadas.

Es una jerga para poner los datos en un formato que algún sistema de software específico puede “consumir” sin atragantarse. No hay un producto final específico que sea deseable porque los diferentes sistemas a menudo emplean diferentes formatos de datos base. De hecho, algunos sistemas requieren datos simplificados a niveles extremos, como un registro para cada instancia específica de un caso; un caso es un conjunto específico de condiciones que se encuentran en una muestra analítica específica. Cuando un analista humano pueda identificar un caso específico y contar instancias, registrando un “caso” más un recuento, algunos softwares como R pueden requerir un registro de cada instancia individual contada para calcular resultados significativos.

He enseñado Data Science durante el año pasado, y solo he escuchado este término unas pocas veces y nunca lo he usado yo mismo.

En general, la mezcla de datos = disputas de datos, es decir, preparar y limpiar datos desordenados para que su análisis sea más fácil de realizar .

Aquí hay un artículo de desbordamiento de pila con más información: ¿Cuál es la etimología de ‘munge’?

Data Munging se conoce comúnmente como minería de datos que involucra ciertas actividades como limpieza de datos, transformación de datos, preparación de datos, visualización de datos y pronto. Fuera de estos datos, el munging a menudo se asocia estrechamente con la transformación de datos. Puede consultar el siguiente enlace para obtener más información.

http://eduunix.ccut.edu.cn/index2/html/oracle/O'Reilly%20-%20Perl.For.Oracle.DBAs.eBook-LiB/oracleperl-APP-D-SECT-1.html

Convierta contenido de datos a otro contenido.

A menudo se usa para proteger los datos de propiedad que la compañía no quiere que otros tengan en formato nativo. Las empresas de tarjetas de crédito como Amex hacen esto con las transacciones.

El hash de contraseña es un ejemplo más común de munging.

Los códigos de tratamiento médico son otro caso.

En cuanto a los orígenes, busque en línea el diccionario Urban. Divertido.

http://www.urbandictionary.com/

More Interesting

¿Hay algún tipo de versión de conjunto de datos y versión de código, estilo GitHub para Data Science? (más fácil de usar que GitHub)

¿En qué orden deben realizarse estas operaciones de ciencia de datos: munging, limpieza, escalado, transformaciones y modelado?

¿Qué bibliotecas existen para el pronóstico probabilístico en Python o R?

¿Cuáles son los problemas de big data más destacados en FinTech?

Quiero ser exhaustivo con programación y estadísticas en profundidad en poco tiempo. ¿Qué tengo que hacer? ¿Cuáles son algunos buenos libros para principiantes / intermedios?

¿Cuándo explotará la burbuja de ciencia de datos?

¿Qué es más rápido: insertar 200,000 filas de datos o actualizar 200,000 filas de datos SQL?

¿Será un buen paso cambiar de carrera de pruebas de software a científico de datos con R, Tableau y sobresalir después de 9 años de experiencia?

¿Cómo puede un científico de datos negociar con otras partes para obtener acceso a sus datos?

¿Cómo se utilizó el método de análisis de datos doble ciego en el LHC?

Cómo analizar adecuadamente los datos y obtener información útil

¿Cuáles son algunos de los procedimientos / metodologías estadísticas comúnmente utilizados en las pruebas A / B?

¿Podemos obtener automáticamente datos de prueba / entrenamiento para un sistema Machine Learning to Rank (MLR)?

¿Prefieres usar Mesos o Kubernetes para la arquitectura de big data? ¿Por qué?

¿Cuáles son algunos buenos proyectos sobre aprendizaje automático y minería de datos?