¿Qué es Big Data y por qué es importante?

Resumen:

Big data no es Hadoop, NoSQL, Machine Learning ni BI.

Big data es donde no puede encajar / procesar datos en una sola computadora.

¿Puede resolverlo utilizando la base de datos NoSQL / Manage como DynamoDB? Sí

¿Se puede resolver el problema de Big Data con la base de datos SQL tradicional? , realmente sí

—————————————————————————————————–

Cuando se habla de Big Data, las personas tienden a alinearlo con NoSQL, lo que desafortunadamente está lejos de ser verdad. Me gustaría aprovechar esta oportunidad para parlotear.

En aras de la simplicidad, solo discutiré la solución de gestión NoSQL.

Aquí va la historia:

Supongamos que tiene un servicio de aparcacoches y tiene su propio estacionamiento.

Piense en los datos como un automóvil y una computadora / almacenamiento como un estacionamiento. Cuando solo hay unos pocos automóviles, no tendría problemas para colocar el automóvil y recuperarlo. Sin embargo, cuando su servicio de valet se vuelve popular, encontrará el desafío de escalar su estacionamiento y recuperar el automóvil. Esto es lo que sucede cuando el tamaño de sus datos aumenta, necesita escalar su computadora y organizarla para asegurarse de que puede recuperar sus datos fácilmente. El caso anterior es una analogía de trabajar con grandes datos utilizando una base de datos SQL tradicional, cuando el tamaño de los datos crece, necesita escalar el sistema al particionar su base de datos por su cuenta.

Ahora hablemos sobre la solución de base de datos NoSQL / Manage.

Una vez más, ejecuta un servicio de valet de estacionamiento, esta vez utiliza un estacionamiento de terceros. La compañía de garajes de estacionamiento le garantiza que le proporcionará una abstracción del espacio de estacionamiento ilimitado y la garantía de tiempo de recuperación siempre que esté de acuerdo con su término y condición. Esto puede sonar demasiado bueno para ser cierto, sin embargo, perdió la mayor parte de sus ganancias al pagarle a la compañía de estacionamiento y debe aceptar sus términos y condiciones que podrían no coincidir con su servicio. Esa es una analogía de la base de datos NoSQL / Manage como DynamoDB.

Ahora apuesto a que estás pensando que si tienes dinero para grabar, ¿NoSQL podría ser la opción correcta? No necesariamente, cuando usa la solución NoSQL presenta un nuevo desafío sobre cómo hacer que su aplicación siga la restricción NoSQL.

Oh bueno, creo que necesito detener mi parloteo aquí.

Si tiene curiosidad y desea discutir más sobre esto, comuníquese conmigo a través de angkywilliam.com o envíeme un correo electrónico a [correo electrónico protegido]

Big Data son datos que no pueden procesarse con algoritmos tradicionales debido a su tamaño.

Esa definición muy simple explica qué son los grandes datos y también por qué es importante: porque necesita un conjunto completamente nuevo de algoritmos para hacer las cosas que está acostumbrado a hacer con los datos.

Tomemos un ejemplo muy simple: tiene una base de datos de texto y desea encontrar documentos que contengan alguna palabra, esto se puede hacer con una consulta SQL utilizando un índice de texto completo o con varias herramientas especializadas de recuperación de información … hasta que sus datos sean varios petabytes, entonces no podrá poner todos sus datos en un disco y ni siquiera en una computadora, ejecutar una sola consulta no funcionará y sus herramientas pueden tomar horas, días e incluso años para producir un resultado.

Existe un conjunto completo de sistemas, herramientas y algoritmos para procesar grandes datos o incluso datos infinitos, como flujos continuos de información.

Luis

¿Qué es big data? Buena pregunta y encontrarás muchas definiciones para ella. Aquí esta el mio. Cuando su computadora no puede manejar datos, esos datos se convierten en datos grandes. Es por eso que estamos inventando muchas técnicas nuevas para manejar esos datos, una de esas técnicas es hadoop.

Estamos produciendo más datos no estructurados que datos estructurados, como videos cargados en Youtube, comentarios y fotos publicadas en redes sociales, documentos de texto, archivos pdf, etc. No es posible almacenar todos estos datos utilizando una base de datos tradicional como SQL, Oracle, etc. Aquí usamos Big Data y sus técnicas como HDFS, Hive, MapReduce, etc.

Espero eso ayude.

More Interesting

¿Cuáles son los mejores campos de entrenamiento de ciencia de datos?

¿Cuál es la mejor arquitectura de chispa (big data) crees que para este caso de uso?

¿Alguien puede ayudarme a estudiar conferencias de análisis de Jigsaw Academy?

¿En qué sector y en qué país se usa ampliamente el big data?

¿Entrar en Big Data es una buena opción ahora?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

Big data, estadísticas: ¿Cuáles son los principales problemas estadísticos en el análisis de "big data"?

¿Cuáles son las clases de ciencias de datos más útiles para abogados?

Tengo un dato de 50 filas de Lakh. ¿Cómo lo abro en R o Python? ¿O hay alguna otra alternativa que no sea usar Hadoop?

¿Hay alguna organización / empresa que trabaje en big data y análisis de datos en o alrededor de Pune?

¿Cuáles son las diversas formas en que Data Science puede convertirlo en un emprendedor exitoso?

¿Cuáles son las características principales de un sistema de minería de datos?

Cómo aplicar la minería de reglas de asociación en datos textuales usando Python

¿Por qué necesitamos científicos de datos si tenemos aprendizaje automático que puede analizar y procesar datos?

¿Es muy difícil sobresalir en ciencia de datos? ¿Qué instituto debería considerar para los cursos de ciencia de datos en Pune?