Para los científicos de datos, ¿es una buena práctica dividir sus datos en varias tablas, cada una con un ‘tipo’ de variable?

Gracias Raquel Ramírez por A2A,

Img source: divide un grupo de archivos en varios archivos de datos

¿Cuáles son los requisitos previos necesarios para aprender la administración de big data?
¿Cuál es el mejor programa de aprendizaje automático de código abierto (red neuronal) para el reconocimiento de patrones de datos complejos?
R requiere que los datos se carguen en la RAM, ¿eso no dificulta el trabajo con grandes conjuntos de datos? En caso afirmativo, ¿cómo es R tan popular entre los científicos de datos?
¿PostgreSQL es bueno o malo para Big Data?
¿Cuáles son los casos de uso de SQL en estadísticas y análisis de datos?

Depende de la situación, si su conjunto de datos tiene una pequeña cantidad de variables, por lo que en este caso puede trabajar directamente en su modelo (algoritmo) sin dividirlo en varias tablas.

La opción de dividir datos en conjuntos de datos múltiples es muy buena en términos de proceso de tiempo, pero tenga en cuenta y preste atención al coeficiente de sensibilidad, en las tablas múltiples la suma del coeficiente de sensibilidad no es la misma si trabajamos en una tabla .

Para mí, utilizo métodos que reducen el número de variables (PCA, regresión lineal, …) que funcionan en un conjunto de datos de la tabla, en este caso estarás seguro al 100% de que tu modelo es aplicable para todos los conjuntos de datos similares.

Espero que te ayude

Análisis deAnálisis de datosAnalistas deBig DataCiencia deCientíficos de datosdatosprogramación de computadorastrabajos y carreras en ciencia de datos

¿Cuáles son algunas aplicaciones donde el análisis de datos topológicos tiene una ventaja sobre otros enfoques de LD?

MATLAB: ¿Cómo utilizan realmente las compañías el código generado por Matlab / Statistica en la producción?

¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?

¿Debo seguir escribiendo aplicaciones móviles o ciencia de datos?

¿Qué cursos PG de tiempo completo o parcial en Big Data recomendarías?

¿Cómo se puede usar la ciencia de datos en la aviación?

Nunca ha sido algo con lo que me haya molestado. Tiendo a nombrar mis variables de tal manera que las variables ordinales vs categóricas son obvias. Esto me da muchos de los beneficios a los que te estás refiriendo (por ejemplo, es realmente fácil recorrerlos). Además, solo puede dividirse en tablas en una dimensión y me gusta dividir por fuente de datos (por ejemplo, tabla de censo, tabla de comportamiento web, tabla de CRM, etc.) Esto ayuda de muchas maneras:

Simplifica la actualización de los datos.
Hace que sea más fácil poner el código en producción ya que cambian menos datos
Facilita el análisis / informes. Puede discutir significativamente todos los efectos relacionados con el censo.

En general, aunque no creo que importe mucho, solo haz lo que tenga más sentido para ti.

Raquel Ramirez

More Interesting

En AWS, ¿qué es mejor para el análisis y modelado de datos: instancias optimizadas para memoria o computación?

¿Cuáles son los cursos de matemáticas y estadísticas en línea recomendados para ciencia de datos y aprendizaje automático?

¿Cómo ayuda un científico de datos a resolver salas de escape?

Buscando datos de atención médica en los Estados Unidos en los últimos diez años. ¿Alguna sugerencia conocida o fuentes de datos?

¿Existe una oportunidad para una empresa de consultoría de datos que atiende específicamente a nuevas empresas en etapa inicial?

¿Cuáles son ejemplos de big data en fabricación?

Cómo hacer una carrera en big data

¿Cómo se aplican los grandes datos al comercio minorista?

¿Cuáles son los desafíos en el procesamiento de grandes cantidades de datos (2017)?