¿Existe alguna mejor práctica o técnica para modelar bases de datos / conjuntos de datos para big data y / o aprendizaje automático?

En el modelo relacional, … los datos se dividen en pequeños fragmentos … que están conectados entre sí por relaciones … Al dividir los datos en partes más pequeñas, … se garantiza la precisión al hacer la entrada de datos … un proceso único … y luego reutilizar el datos … conectándolo con otras piezas … Usando este proceso, … una gran colección de datos no organizados se simplifica … en sus unidades más pequeñas … y luego se relaciona con muchas otras unidades pequeñas … para recrear el panorama general … en un formato más organizado. … El modelo relacional proporciona una forma simple … y flexible de describir datos … [1]

Estos son algunos cursos que pueden ayudarlo:

https://stackoverflow.com/questi…

Tutorial sobre modelado de datos, almacenamiento de datos e inteligencia empresarial.

Aprendizaje de modelado de datos – Udemy

Introducción al modelado de datos.

En ingeniería de software, el modelado de datos es el proceso de crear un modelo de datos para un sistema de información. Esto se realiza mediante la aplicación de técnicas formales de modelado de datos.


También hay muchas herramientas que pueden ayudarte con el modelado. Algunos de ellos son gratuitos, otros no. Le enumeraré algunos de los que he encontrado más útiles.

SQLDbm

SqlDBM inicialmente comenzó con soporte incorporado para el servidor SQL de Microsoft solamente.

Pero, por supuesto, debido a la gran cantidad de solicitudes de soporte de MySQL de nuestros usuarios, hemos estado trabajando duro para expandir nuestro producto.

Y ahora, estamos muy orgullosos de anunciar que SqlDBM ofrece soporte para MySQL , una de las bases de datos de código abierto más populares del mundo.

Ahora puede modelar y diseñar su / s base de datos MySQL directamente en SqlDBM. Y, por supuesto, puede aprovechar y adaptar las funciones de SqlDBM en su base de datos MySQL, como áreas temáticas, relaciones, diagramas, modos de visualización, etc.

SQLDBM le ofrece una manera fácil y conveniente de diseñar su base de datos absolutamente en cualquier lugar en cualquier navegador, trabajando sin necesidad de ningún motor de base de datos adicional o herramientas o aplicaciones de modelado de bases de datos. Use SQLDBM para diseñar y administrar bases de datos grandes y pequeñas y modelos de datos sobre la marcha. Todo mientras incorpora las reglas y objetos necesarios de la base de datos, como claves de la base de datos, esquemas, índices, restricciones de columna y relaciones.

Precio: gratis

PowerDesigner

PowerDesigner es posiblemente la herramienta de modelado de datos líder de la industria. Sus características incluyen: modelos totalmente integrados, diferentes técnicas de modelado que se adaptan a una audiencia centrada en TI y no centrada en TI. También admite un potente repositorio de metadatos y varios formatos de salida. Tiene una interfaz de usuario agradable y pulida con documentación de ayuda fácil de leer que ayuda al usuario a resolver rápidamente problemas ad hoc.

Precio: $ 2,000

‌‌ ER / Studio

ER / Studio es una herramienta de modelado de datos intuitiva que admite entornos únicos y multiplataforma, con integración nativa para plataformas de grandes datos como MongoDB y Hadoop Hive. Puede enviar y revertir modelos de ingeniería, incluye una función de comparación y combinación y puede crear informes en varios formatos (XML, PNG, JPEG). Las funciones integradas automatizan las tareas de rutina y son compatibles con las plataformas de bases de datos populares. ER / Studio es una gran herramienta con la que es fácil comenzar a trabajar debido a su diseño intuitivo y buen soporte al usuario.

Precio: $ 1,500 hasta $ 7,500

Realmente depende de ti. Para diseñar o rediseñar una base de datos de cualquier complejidad, la herramienta de modelado Entidad-Relación se vuelve esencial. Las herramientas especializadas que han dominado la industria durante mucho tiempo son caras y se instalan en una estación de trabajo.

Notas al pie

[1] Introducción al modelado de datos

A una pregunta de alto nivel tendré que dar una respuesta de alto nivel:

Los algoritmos predictivos y explicativos (aprendizaje automático, modelado predictivo, como quiera llamarlo) generalmente esperan que los datos se estructuren en un formato específico dependiendo de qué problema fue diseñado para resolver ese algoritmo o qué tipo de salida fue diseñado para producir.

Como ejemplo, la regresión logística espera que los datos se estructuren en una fila por observación en el nivel que está tratando de predecir. Si está utilizando este modelo para predecir la probabilidad de que los usuarios individuales se suscriban a su sitio web, deberá acumular la actividad de los usuarios en una fila, por ejemplo, el número total de inicios de sesión en los últimos n días, el número de productos visto por ese usuario, días desde el registro, etc.

Otros tipos de algoritmos pueden esperar operar en una estructura de datos completamente diferente.

Es por eso que se dice que el 85% del tiempo de un analista se gasta reuniendo conjuntos de datos; los datos de la organización rara vez se almacenan en esos formatos. Por supuesto, no puede anticipar todos los casos de uso futuros para aplicaciones científicas de sus datos.

En general, entonces, desea hacer que la mayor cantidad de sus datos sea tan accesible como sea razonablemente posible. No es necesario desnormalizarlo todo, aunque será más productivo si es fácil acceder a los conjuntos de datos de uso frecuente.

Si sus datos heredados son directamente relevantes para sus esfuerzos de modelado, entonces, al menos, guárdelos para que alguien pueda obtenerlos si los necesita. Si esa persona muestra un buen caso de negocios para facilitar el acceso a esos datos heredados, entonces la decisión es fácil.

More Interesting

Cómo convertir un marco de datos en transacciones para la minería de reglas de asociación

¿Cuál es su opinión de Stanford MS en Estadística: Ciencia de datos?

¿Qué tan útil es 'Big Data'?

Cómo aplicar la ciencia de datos a la asistencia sanitaria

¿Puedo solicitar puestos de trabajo en Data Science si he aprendido el campo con MOOC?

¿La salida de codificación de word2vec de 'cómo estás' y su salida de codificación de 'cómo estás' son iguales?

¿Cuáles son algunas buenas áreas de investigación en minería de datos y análisis de datos?

A medida que la tecnología está cambiando tan rápido, ¿una maestría en ciencia de datos será de algún valor en los próximos años?

¿Qué área dentro de la ciencia de datos experimentará el mayor crecimiento laboral para los profesionales de análisis? (cuidado de la salud, riesgo, financiero, etc.)

¿Cuáles son las startups que son realmente buenas en big data y análisis en Mumbai?

¿Cuáles son los casos de uso de big data en el comercio electrónico?

¿Qué necesitaría para configurar una arquitectura de Big Data?

¿Cuáles son los diferentes caminos para convertirse en un científico de datos en grandes empresas como Google o Facebook, si acabo de comenzar a trabajar como científico de datos en una startup de análisis de datos en India después de mi graduación en el campo de la electrónica?

¿Hay algún conjunto de datos biológicos periódico con respecto al tiempo y forma un bucle cuando se traza entre ellos pero no contra el tiempo? Mira el comentario!

Como científico de datos, ¿con quién preferirías jugar: Google o Facebook?