Hola,
Bueno, no se trata de grandes empresas. Se trata de Big Data si se habla de datos en el mundo de la tecnología.
Empresas como Google, Yahoo, Facebook, Microsoft y otras comenzaron a trabajar en Big Data en 2003 y en la actualidad todos los problemas relacionados con los datos se resuelven utilizando Hadoop y la información de Big Data.
- Según el mercado actual, ¿cuál es mejor: big data o Java?
- Para la validación cruzada K-fold, ¿qué k se debe seleccionar?
- ¿Cuáles son las perspectivas para el análisis de big data en India?
- ¿Por qué necesitamos minería de datos?
- ¿Cómo pasar a la ciencia de datos?
Anteriormente, todas las empresas usaban RDBMS para almacenar sus datos, en los que podemos leer una vez y escribir una cantidad de veces que no es aplicable para leer una gran cantidad de datos. Así que Doug Cutting ideó una solución como Hadoop que se basa en trabajar en grandes conjuntos de datos de manera distribuida y paralela. En Hadoop, podemos escribir una vez y leer N la cantidad de veces que se usa HDFS para almacenar datos en el clúster (Grupo de nodos) y podemos procesar los datos de acuerdo con las necesidades de la empresa mediante Map-Reduce. La clasificación, el filtrado, el particionamiento y el almacenamiento (si es necesario) de datos se realiza para calcular el resultado. Esta es la forma moderna y precisa de las empresas de utilizar sus datos.
Las bases de datos NOSQL son como mongoDB, HBase, Cassandra para almacenar grandes conjuntos de datos y también podemos utilizar nuestros datos a través de RDBMS utilizando Sqoop. Exportar e importar datos en la era actual es simple, estratégico, robusto y dinámico. Para obtener más información sobre Data Science, visite los blogs de Hortonworks, TechTarget y muchas otras fuentes de redes sociales, como los Grupos vinculados.
Espero que ayude.
Gracias