¿Los grandes datos solo están desestructurados o pueden estructurarse también?

Big Data es una palabra de moda nebulosa que abarca muchas cosas diferentes.

La definición que uso es “Cualquier conjunto de datos que sea demasiado grande para administrar de manera efectiva con tecnologías convencionales”. Esos conjuntos de datos pueden ser datos relacionales completamente estructurados, datos no estructurados de forma libre o datos semiestructurados (por ejemplo, registros web de Apache).

Este último es probablemente el tipo más común encontrado. Considere ese registro del servidor web: se divide en campos bien definidos, pero algunos de esos campos pueden contener elementos complejos no estructurados propios (argumentos de consulta EG en una URL).

Los datos del sensor generados por la máquina son otro caso de uso que involucra datos altamente estructurados. Considere cómo almacenaría y consultaría las estadísticas de utilización de CPU y E / S de un año por segundo para una granja de 10,000 servidores de 16 núcleos, o lecturas de uso de energía en tiempo real para varios millones de medidores eléctricos inteligentes.

Big data se caracteriza por: Volumen – gran cantidad de datos; Velocidad: la velocidad con la que llegan nuevos datos; y variabilidad: la variedad de formatos en los que se encuentran los datos.
Por lo tanto, algunos de los datos podrían estructurarse si se ajustan a los demás criterios.

Desestructurado o semiestructurado.

More Interesting

¿Es la estadística aplicada una buena especialidad para la ciencia de datos?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Dónde puedo encontrar conjuntos de datos de rango?

¿Qué posibilidades futuras ve en la intersección de la ciencia de datos y las finanzas?

¿Cómo es el alcance del big data (analítico) en todo el mundo y también en India en los próximos años?

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático en LinkedIn?

¿Cuáles son las ventajas del procesamiento de datos?

¿De qué trata el libro Big Data Baseball?

¿Cómo está en auge el big data en el futuro?

¿Es el big data y la ciencia de datos una amenaza para los estadísticos profesionales?

¿Por qué Two Sigma diseñó su concurso de Kaggle para eliminar cualquier beneficio del conocimiento del dominio?

Soy un desarrollador de aviónica. No tengo mucho conocimiento sobre qué es la ciencia de datos y la minería. ¿Cómo es esto diferente de big data? ¿Cómo está ayudando esto para la seguridad de la aviación y el MRO de las aeronaves?

¿Qué se necesita para que un antiguo agente de Wall Street consiga un trabajo en ciencia de datos? ¿Es un certificado de aprendizaje automático de Coursera más un proyecto de Kaggle?

¿Qué perspectivas tiene un candidato a doctorado (en ciencia de datos y salud) en consultoría de estrategia / gestión en Australia?

¿Son necesarias las GPU cuando se trabaja con modelos gráficos probabilísticos?