Para los científicos de datos, ¿es una buena práctica dividir sus datos en varias tablas, cada una con un ‘tipo’ de variable?

Gracias Raquel Ramírez por A2A,

Img source: divide un grupo de archivos en varios archivos de datos

Depende de la situación, si su conjunto de datos tiene una pequeña cantidad de variables, por lo que en este caso puede trabajar directamente en su modelo (algoritmo) sin dividirlo en varias tablas.

La opción de dividir datos en conjuntos de datos múltiples es muy buena en términos de proceso de tiempo, pero tenga en cuenta y preste atención al coeficiente de sensibilidad, en las tablas múltiples la suma del coeficiente de sensibilidad no es la misma si trabajamos en una tabla .

Para mí, utilizo métodos que reducen el número de variables (PCA, regresión lineal, …) que funcionan en un conjunto de datos de la tabla, en este caso estarás seguro al 100% de que tu modelo es aplicable para todos los conjuntos de datos similares.

Espero que te ayude

Nunca ha sido algo con lo que me haya molestado. Tiendo a nombrar mis variables de tal manera que las variables ordinales vs categóricas son obvias. Esto me da muchos de los beneficios a los que te estás refiriendo (por ejemplo, es realmente fácil recorrerlos). Además, solo puede dividirse en tablas en una dimensión y me gusta dividir por fuente de datos (por ejemplo, tabla de censo, tabla de comportamiento web, tabla de CRM, etc.) Esto ayuda de muchas maneras:

  • Simplifica la actualización de los datos.
  • Hace que sea más fácil poner el código en producción ya que cambian menos datos
  • Facilita el análisis / informes. Puede discutir significativamente todos los efectos relacionados con el censo.

En general, aunque no creo que importe mucho, solo haz lo que tenga más sentido para ti.