¿Es Big Data todo sobre sistemas distribuidos?

Siempre odio la palabra “big data”, ya que se trata más de cómo se analizan y extraen los datos que de los volúmenes de datos reales que se discuten, o detalles como si necesita una infraestructura gigante (ya sea alojada o en la nube) para analizar su datos.

Aunque los “consultores de big data” estarán encantados de venderle uno …

Gran parte de lo que se llama “big data” ni siquiera involucra tantos datos. Con frecuencia me encuentro con personas en línea y en la “vida real” que discuten unas pocas docenas de gigabytes de datos como “big data”, y a veces menos. Como mencioné anteriormente, se trata más de cómo se analizan los datos que de la simple cantidad de datos.

Tal cantidad relativamente pequeña de datos puede analizarse de manera bastante adecuada en una sola máquina de gran tamaño si las personas que escriben los scripts de minería y análisis son razonablemente competentes.

Dicho esto, el análisis y la minería de datos a menudo se realizan utilizando enfoques paralelos, especialmente si se realizan utilizando enfoques Hadoop y / o “Map-Reduce”. Y si eso es lo que necesita para analizar sus datos, entonces necesita aprenderlos.

Pero las personas que buscan realizar análisis de datos deben analizar cuidadosamente los requisitos y no caer en la trampa de “grandes datos => gran infraestructura => mucho dinero para consultores y tal …”