Big Data es una palabra de moda nebulosa que abarca muchas cosas diferentes.
La definición que uso es “Cualquier conjunto de datos que sea demasiado grande para administrar de manera efectiva con tecnologías convencionales”. Esos conjuntos de datos pueden ser datos relacionales completamente estructurados, datos no estructurados de forma libre o datos semiestructurados (por ejemplo, registros web de Apache).
Este último es probablemente el tipo más común encontrado. Considere ese registro del servidor web: se divide en campos bien definidos, pero algunos de esos campos pueden contener elementos complejos no estructurados propios (argumentos de consulta EG en una URL).
- ¿Cómo es trabajar en un equipo de ciencia de datos de detección de fraude?
- ¿Qué es más exigente hoy en día, el análisis de datos o la ciencia de datos?
- ¿Conoces una herramienta que te permita dibujar flujos ponderados en un mapa desde un conjunto de datos?
- ¿Qué música suelen escuchar los científicos de datos mientras trabajan?
- Cómo evaluar el rendimiento de un sistema que agrupa vectores de palabras
Los datos del sensor generados por la máquina son otro caso de uso que involucra datos altamente estructurados. Considere cómo almacenaría y consultaría las estadísticas de utilización de CPU y E / S de un año por segundo para una granja de 10,000 servidores de 16 núcleos, o lecturas de uso de energía en tiempo real para varios millones de medidores eléctricos inteligentes.