¿Cuál es el mejor motor de Big Data para pasar de mySQL?

La “mejor” solución de big data es la que satisface sus necesidades desde una perspectiva de datos, usuario, costo y mantenimiento. Ahora, algunos detalles.

Mire primero sus recursos y necesidades: experiencia de DBA, cualquier experiencia de almacenamiento de datos, presupuesto, predicciones de crecimiento de datos, uso de datos, tipos de consulta, número y tipo de fuentes de datos (porque pasar a Big Data a menudo significa encontrar otras fuentes de datos para utilizar con sus datos MySQL.)

En cuanto a las recomendaciones, sugeriría una solución basada en la nube. Hoy existen pocas razones para alojar grandes datos en las instalaciones. Me apegaría a un producto de “gran nombre”, como los de Amazon y Google. Mira las ventajas y los costos entre tus candidatos. Por ejemplo, BigQuery de Google no tiene un requisito mínimo de uso. Ambos son servicios administrados (no hay actualizaciones para los usuarios), tienen consolas de administración y opciones de servicio para copias de seguridad.

Otra recomendación es investigar las opciones de integración de datos para los candidatos. Asegúrese de que la solución pueda manejar fácilmente la carga de datos de diferentes tipos de datos de origen. MySQL es muy común, por lo que hay asistentes de carga disponibles, como las opciones de entrada BigQuery de Alooma. El uso de un conector / cargador preconstruido acelerará su transición y facilitará el movimiento de datos para el equipo de la base de datos.

En tercer lugar, investigue las estadísticas de rendimiento. Los tiempos de respuesta razonables son importantes. Cada proveedor debe tener información sobre las tasas de respuesta, por ejemplo, los estudios de caso de big data de Amazon. Piense en los tipos de consultas que utiliza e investigue la respuesta entre proveedores.

Todo esto debería llevarlo a las soluciones apropiadas para su negocio.

Usted describió ~ 1.5 trillones de registros en 3 columnas (ID, tiempo, sentimiento). Suponiendo 8 bytes por celda para las columnas de fecha y hora, y 100 bytes por celda para la columna de sentimiento, tiene 174 terabytes de datos. Esto se puede almacenar en una amplia variedad de plataformas. Sin saber qué harás con los datos, es imposible dar una recomendación. Greenplum, Hive y Amazon Redshift son las primeras plataformas que vienen a la mente, pero son útiles de diferentes maneras por diferentes razones.

Como mencionó Brayan, la mayoría de las bases de datos NoSQL se adaptarían a su caso de uso. ¿Qué quieres hacer con tus datos? Intente responder estas preguntas y luego busque las opciones que mejor se adapten a su caso de uso.

  1. ¿Su prioridad es minimizar el costo de almacenamiento o minimizar el tiempo de recuperación?
  2. ¿Desea que los datos se almacenen en cualquier formato de datos específico?
  3. ¿Necesita soporte de consultas SQL para usar sus datos?
  4. ¿Desea una capacidad inmediata para trazar metrices específicas generadas a partir de su flujo de datos?
  5. ¿Quieres ejecutar algunas agregaciones?
  6. ¿Necesita algún tipo de almacenamiento lógico de datos (partes de día / noche, estado de ánimo feliz / triste, etc.)?
  7. ¿Qué pila de tecnología (lenguaje, herramientas, etc.) va a utilizar como cliente (para leer / escribir datos)?

Como otros han mencionado, lo que harás con los datos es lo que se necesita para dar una mejor respuesta. Sin embargo, y basándose únicamente en el hecho de que describe un formato tabular, diría que Google BigQuery y Amazon Redshift son probablemente buenos candidatos.

More Interesting

Tengo 7 años de experiencia en análisis y ciencia de datos. ¿Vale la pena hacer PGPBA de Greatlakes o IIMB o CBA de ISB?

¿Cuánto tiempo puede sobrevivir Informatica en el mundo de los grandes datos?

¿Cuál es una mejor iniciativa para aprender ciencia de datos: Python o R?

¿Podrá Kaggle sobrevivir a la explosión en la industria del software de análisis?

¿Cuáles son los mejores programas de grado / diploma de Ciencias de datos en India y para qué exámenes tiene que presentarse para ser elegible para estos programas?

Como científico de datos, ¿es útil una clase de análisis de algoritmos?

¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?

Cómo convertirse en un científico de datos en 4-5 meses si no tengo experiencia previa con ningún lenguaje de programación

¿Cuánto tiempo durará la exageración de la ciencia de datos antes de que se sature? ¿Y cuál podría ser la próxima tendencia?

¿Cuáles son los mejores programas de ciencia de datos en Bangalore?

¿Cuál sería un buen problema de recomendación de Kaggle para elegir como un proyecto corto?

Después de Big Data, Smart Data es una tendencia en 2013. Entonces, ¿qué es Smart Data? ¿Tienes alguna definición clara?

¿Cuáles son las mejores herramientas de minería de datos web gratuitas automatizadas?

¿Cuál debería ser mi plan de estudio para convertirme en científico de datos?

¿Cuáles son las herramientas de minería / raspado web más comunes utilizadas actualmente?