Gracias Raquel Ramírez por A2A,
Img source: divide un grupo de archivos en varios archivos de datos
- ¿Cuáles son los requisitos previos necesarios para aprender la administración de big data?
- ¿Cuál es el mejor programa de aprendizaje automático de código abierto (red neuronal) para el reconocimiento de patrones de datos complejos?
- R requiere que los datos se carguen en la RAM, ¿eso no dificulta el trabajo con grandes conjuntos de datos? En caso afirmativo, ¿cómo es R tan popular entre los científicos de datos?
- ¿PostgreSQL es bueno o malo para Big Data?
- ¿Cuáles son los casos de uso de SQL en estadísticas y análisis de datos?
Depende de la situación, si su conjunto de datos tiene una pequeña cantidad de variables, por lo que en este caso puede trabajar directamente en su modelo (algoritmo) sin dividirlo en varias tablas.
La opción de dividir datos en conjuntos de datos múltiples es muy buena en términos de proceso de tiempo, pero tenga en cuenta y preste atención al coeficiente de sensibilidad, en las tablas múltiples la suma del coeficiente de sensibilidad no es la misma si trabajamos en una tabla .
Para mí, utilizo métodos que reducen el número de variables (PCA, regresión lineal, …) que funcionan en un conjunto de datos de la tabla, en este caso estarás seguro al 100% de que tu modelo es aplicable para todos los conjuntos de datos similares.
Espero que te ayude