¿Cómo conduce Hadoop Distributed File System a un almacenamiento de datos rentable?

Dando números a la respuesta de William Emmanuel Yu:

¡Los discos duros empresariales son caros! Aquí hay dos productos:

  • Amazon.com: Seagate Savvio 10K.7 ST1200MM0017 1.20 TB 2.5 “Disco duro interno – SAS – 10000 rpm – 64 MB Buffer: computadoras y accesorios
    Capacidad: 1.20TB
    Precio: $ 700
    Utilizado para: OLAP / cargas de trabajo intensivas de rendimiento
  • Estás fuera de los precios del disco duro:
    Amazon.com: Seagate Desktop 3 TB HDD SATA 6 Gb / s NCQ 64MB Cache 7200 RPM 3.5-Inch Disco duro interno ST3000DM001: Electrónica
    Capacidad: 3 TB
    Precio: $ 99
    Utilizado para: hogar y oficina.

Sueles replicar tres veces en HDFS. Puede almacenar 3 TB de datos por $ 300 (para almacenar 3 réplicas) y tener un cambio adicional para comprar más RAM. Pero cuando ve el disco duro de almacenamiento empresarial, incluso después de pagar $ 700, todavía tiene que pensar en usar copias de seguridad como cintas, RAID, etc.

Hadoop (y HDFS) brinda la capacidad de procesar y almacenar grandes cantidades de datos utilizando hardware básico . Proporciona un sistema en el que el hardware estándar de COTS se combina para realizar tareas que el hardware COTS individual no puede realizar. La clave aquí es el uso de hardware básico, de bajo costo y ampliamente disponible. Hadoop proporciona redundancia al distribuir los datos en múltiples nodos.