¿Elige escalar su DW / DB o implementar Hadoop cuando la cantidad de datos o la concurrencia se vuelve muy grande?

Aumentar proporcionalmente.

El volumen de datos por sí solo nunca debería ser el punto decisivo para implementar Hadoop. El análisis de datos tiene un costo, y el liderazgo empresarial necesita entender eso. No es realista para la mayoría de las empresas suponer que simplemente pueden almacenar y analizar todo bajo el sol. El beneficio debe superar el costo. Para ayudar a lidiar con esto, tener una estrategia de archivo y purga de datos de sonido es increíblemente importante, y la mayoría de las bases de datos tienen herramientas para ayudar con esto (desde la compresión hasta el almacenamiento en frío).

Si bien la pila de Hadoop se puede descargar y usar de forma gratuita, implementarla, desarrollarla y mantenerla es muy costosa (solo mire el salario de un desarrollador de reducción de mapas). Los proveedores del almacén de datos eliminan gran parte del dolor de cabeza de escalar, eso es lo que estás pagando.

Como científico de datos, ¿sería útil aprender el desarrollo completo de la pila?

¿Es aconsejable elegir NYU MS en ciencia de datos en lugar de NYU MS CS ya que quiero hacer un doctorado en aprendizaje automático?

¿Cuáles son algunas buenas áreas de investigación en minería de datos y análisis de datos?

¿Cómo serán las oportunidades de trabajo de Big Data para una persona de TI con 1.5 años de experiencia en 2016?

En Bangalore, en función de la velocidad y la conectividad, ¿qué SIM es mejor para internet 3G?

¿Qué estadística simple o técnica de ciencia de datos utilizó para obtener una visión interesante cuando se enfrentó a grandes cantidades de datos?

Estoy completamente de acuerdo con Chris: agregaré otros puntos a la conversación.
Más datos no lo hacen, y no deberían ser iguales a más datos en el almacén de datos. Hay mucho ruido, inconsistencia y datos incorrectos agrupados en lo que la industria se refiere como explosión de datos. Solo porque sus datos no significan que sean buenos, y no significa que deben ir al almacén de datos.

El rendimiento es una gran razón por la que no elegiría Hadoop: el hecho de que haya más datos no significa que necesariamente obtenga más rendimiento de hadoop; los RDBMS tienen excelentes herramientas para obtener rendimiento en grandes conjuntos de datos: índices, particiones, mapeo de zonas , Sugerencias de SQL, memoria inteligente, almacenamiento en caché, etc. Se tarda un promedio de 2 minutos en ejecutar un trabajo de Map Reduce, dependiendo de la consulta, eso es un minuto y medio más de lo que tomaría en un RDBMS.

– Nota al margen, para todos los fanáticos de Hadoop que van a lanzar Presto y Cassandra, sí, son excelentes sistemas de db sobre Hadoop, pero todavía son bases de datos NoSQL que pueden dar a algunas consultas un mejor rendimiento, pero no todos, y aún debe tener en cuenta el costo de la migración, el soporte y la capacitación de los usuarios en CQL, Java o Python, lo que no necesariamente vale el costo por el aumento del rendimiento. (a partir de abril de 2014, como con cualquier tecnología, me reservo el derecho de editar esta declaración más adelante)

Además, Hadoop no ofrece E / S “más rápidas”. Ofrece más rutas de acceso al disco que no compiten entre sí. Diferente bajo las sábanas, mismo resultado. Además, mayor acceso concurrente: la mayor parte de la funcionalidad que he visto en Hadoop ha sido aplicaciones que acceden a ella en tiempo real o procesamiento por lotes. No creo que Hadoop aborde una mayor concurrencia.

Así que sugiero las siguientes formas de “aliviar la presión” del almacén de datos:

La estrategia de depuración y archivo es muy importante.
Hadoop para el tipo correcto de datos y los casos de uso correctos
En Memory Analytics para consultas que requieren un alto rendimiento
Entorno de exploración de datos (sandbox, Asterdata, Watson Data Explorer, etc.) para datos con valor comercial cuestionable o desconocido
Tenga una estrategia sólida de data mart y de informes operativos: no todo tiene que ir al almacén
Consulta de federación en múltiples fuentes de datos

Chris Schrader

More Interesting

¿Qué opinas sobre Big Data? ¿Es bueno o malo?

¿El análisis de datos y el aprendizaje automático van de la mano o son actividades mutuamente excluyentes?

En ajedrez, ¿por qué es tan ventajoso jugar al blanco?

¿Cuál es la diferencia entre trabajar en análisis y ciencia de datos?

Cómo decidir entre aprender un modelo para cada usuario o un modelo único a partir de todos los datos

¿Qué curso es el mejor para una maestría en Estados Unidos, ciencia de datos o aprendizaje automático?

¿En qué se diferencia ETL de BigData?

Dado que la mayoría del software de procesamiento de flujo de Apache está escrito en Java, ¿debería estudiarlo exclusivamente para Big Data y el campo de transmisión de datos?

¿Cuál es el papel de un científico de datos en Quora?

¿Cuáles son las diferencias entre una base de datos, data mart, data warehouse, un lago de datos y un cubo?