¿Cuál es el mejor motor de Big Data para pasar de mySQL?

La “mejor” solución de big data es la que satisface sus necesidades desde una perspectiva de datos, usuario, costo y mantenimiento. Ahora, algunos detalles.

Mire primero sus recursos y necesidades: experiencia de DBA, cualquier experiencia de almacenamiento de datos, presupuesto, predicciones de crecimiento de datos, uso de datos, tipos de consulta, número y tipo de fuentes de datos (porque pasar a Big Data a menudo significa encontrar otras fuentes de datos para utilizar con sus datos MySQL.)

En cuanto a las recomendaciones, sugeriría una solución basada en la nube. Hoy existen pocas razones para alojar grandes datos en las instalaciones. Me apegaría a un producto de “gran nombre”, como los de Amazon y Google. Mira las ventajas y los costos entre tus candidatos. Por ejemplo, BigQuery de Google no tiene un requisito mínimo de uso. Ambos son servicios administrados (no hay actualizaciones para los usuarios), tienen consolas de administración y opciones de servicio para copias de seguridad.

Otra recomendación es investigar las opciones de integración de datos para los candidatos. Asegúrese de que la solución pueda manejar fácilmente la carga de datos de diferentes tipos de datos de origen. MySQL es muy común, por lo que hay asistentes de carga disponibles, como las opciones de entrada BigQuery de Alooma. El uso de un conector / cargador preconstruido acelerará su transición y facilitará el movimiento de datos para el equipo de la base de datos.

En tercer lugar, investigue las estadísticas de rendimiento. Los tiempos de respuesta razonables son importantes. Cada proveedor debe tener información sobre las tasas de respuesta, por ejemplo, los estudios de caso de big data de Amazon. Piense en los tipos de consultas que utiliza e investigue la respuesta entre proveedores.

Todo esto debería llevarlo a las soluciones apropiadas para su negocio.

Big DataBig Data AnalysisData AnalysisData ScienceMySQL

¿Cuál es el futuro de MIS u operadores de datos?

¿Puede un ANN probar un nuevo conjunto de datos contra el conjunto de entrenamiento, aprender de manera incremental las características del nuevo conjunto de datos y actualizar el modelo de forma incremental?

¿La programación es una ciencia? Si es así, ¿por qué nadie usa el núcleo de la ciencia, el método científico, para ello?

Cómo restringir datos de fondo en mi redimi note3

¿Qué se prefiere más: SSH o Telnet? ¿Por qué?

Necesito una persona de Python Advanced para evaluar a un candidato de Data Science. ¿Puede usted ayudar?

Usted describió ~ 1.5 trillones de registros en 3 columnas (ID, tiempo, sentimiento). Suponiendo 8 bytes por celda para las columnas de fecha y hora, y 100 bytes por celda para la columna de sentimiento, tiene 174 terabytes de datos. Esto se puede almacenar en una amplia variedad de plataformas. Sin saber qué harás con los datos, es imposible dar una recomendación. Greenplum, Hive y Amazon Redshift son las primeras plataformas que vienen a la mente, pero son útiles de diferentes maneras por diferentes razones.

Ricardo Vladimiro

Como mencionó Brayan, la mayoría de las bases de datos NoSQL se adaptarían a su caso de uso. ¿Qué quieres hacer con tus datos? Intente responder estas preguntas y luego busque las opciones que mejor se adapten a su caso de uso.

¿Su prioridad es minimizar el costo de almacenamiento o minimizar el tiempo de recuperación?
¿Desea que los datos se almacenen en cualquier formato de datos específico?
¿Necesita soporte de consultas SQL para usar sus datos?
¿Desea una capacidad inmediata para trazar metrices específicas generadas a partir de su flujo de datos?
¿Quieres ejecutar algunas agregaciones?
¿Necesita algún tipo de almacenamiento lógico de datos (partes de día / noche, estado de ánimo feliz / triste, etc.)?
¿Qué pila de tecnología (lenguaje, herramientas, etc.) va a utilizar como cliente (para leer / escribir datos)?

Ricardo Vladimiro

Como otros han mencionado, lo que harás con los datos es lo que se necesita para dar una mejor respuesta. Sin embargo, y basándose únicamente en el hecho de que describe un formato tabular, diría que Google BigQuery y Amazon Redshift son probablemente buenos candidatos.

Ricardo Vladimiro

More Interesting

Tengo 7 años de experiencia en análisis y ciencia de datos. ¿Vale la pena hacer PGPBA de Greatlakes o IIMB o CBA de ISB?

¿Cuánto tiempo puede sobrevivir Informatica en el mundo de los grandes datos?

¿Cuál es una mejor iniciativa para aprender ciencia de datos: Python o R?

¿Podrá Kaggle sobrevivir a la explosión en la industria del software de análisis?

¿Cuáles son los mejores programas de grado / diploma de Ciencias de datos en India y para qué exámenes tiene que presentarse para ser elegible para estos programas?

Como científico de datos, ¿es útil una clase de análisis de algoritmos?

¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?

Cómo convertirse en un científico de datos en 4-5 meses si no tengo experiencia previa con ningún lenguaje de programación

¿Cuánto tiempo durará la exageración de la ciencia de datos antes de que se sature? ¿Y cuál podría ser la próxima tendencia?

¿Cuáles son los mejores programas de ciencia de datos en Bangalore?