¿Cómo se usa MySQL en ciencia de datos?

Podemos dividir los sistemas de bases de datos como compatibles con OLTP u OLAP. MySQL cae a la categoría OLTP. Este tipo de bases de datos se utilizan para soportar las necesidades de almacenamiento de datos para los sistemas de producción. No son particularmente útiles para consultas analíticas que se utilizan para profundizar en los datos. Las bases de datos de tipo MPP OLAP como Redshift, Vertica son más útiles en este tipo de tareas.

La forma principal en que MySQL es importante para la ciencia de datos es porque algunos o la mayoría de los datos sin procesar se almacenarían en MySQL, si se utilizan para soportar las necesidades OLTP de la organización. Por lo tanto, estos datos serían necesarios para exportarlos para el aprendizaje automático u otras tareas de análisis. Por lo general, se leerá de la réplica. Pero ahora la mayoría de las organizaciones dependen de registros de aplicaciones en lugar de leer réplicas de MySQL debido a la latencia que se introduce cuando usamos la réplica.

Como explicó Quora User, MySQL es solo una de las herramientas utilizadas para acceder a los datos de la base de datos. Como pasante de ciencia de datos, uso PostgreSQL para consultar, extraer y transformar los datos. Después de lo cual uso R o Python para construir modelos de Machine Learning.

Para que la ciencia de datos tenga lugar, necesita que los datos se almacenen de tal manera que se pueda acceder a ellos y analizarlos. Hay varias maneras de almacenar datos, pero una muy común es colocarlos en una base de datos.

MySQL es un sistema de gestión de bases de datos relacionales de código abierto. En otras palabras, es un gran conjunto de software que se lanza de forma gratuita y permite a cualquiera almacenar y acceder a sus datos de una manera estructurada y relativamente indolora. MySQL es particularmente software en aplicaciones web, pero también se usa en un montón de configuraciones diferentes.

Los científicos de datos deben, como mínimo, tener una buena comprensión de cómo consultar y extraer datos de manera eficiente de las bases de datos (a menudo, incluidas las bases de datos MySQL). También deben tener al menos una comprensión sólida de cómo se diseñan las bases de datos y las diversas compensaciones que se incluyen en las estructuras de las bases de datos.

MySQL es una gran herramienta en sí misma y también si la usa con un lenguaje de programación como, por ejemplo, Java. Lo he estado usando junto con estructuras de datos Java para tener los datos almacenados y guardar RAM.

Por supuesto, su funcionalidad principal es la de consultar los datos después de haber diseñado cuidadosamente la base de datos.

También hay muchas extensiones para realizar consultas espaciales en datos geoespaciales o de ubicación.

Hay un límite en el uso de MySQL si tiene un gran conjunto de datos … digamos 50-100 millones de recods. Se vuelve terriblemente lento cuando realiza una consulta que incluye instrucciones de “agrupar por”. Entonces, para grandes conjuntos de datos, es mejor usar un NoSQL como MongoDB.