¿Cómo preparará enormes conjuntos de datos (gran número de filas) para el análisis, y también procesará previamente los conjuntos de datos de ‘prueba’ de la misma manera que los conjuntos de datos de ‘entrenamiento’ antes del análisis?

Depende de la infraestructura a su disposición. Esto es lo que hago en un entorno comercial habitual:

  1. Encuentre una manera de muestrear datos que pueda procesar en una computadora portátil de 8GB
  2. Comprenda las lagunas en los datos y encuentre soluciones genéricas: imputaciones de valores faltantes, expresiones regulares, etc.
  3. Formule hipótesis y vea si tienen potencial para escalar, por ejemplo: descubra patrones en las ocurrencias de palabras en los datos de muestra; si muestra alguna promesa, entonces tenemos una premisa para hacerlo en el conjunto de datos completo.
  4. Repita 1,2,3 en diferentes muestras y asegúrese de que todavía muestren potencial
  5. Presentar a los interesados ​​la propuesta de valor y adquirir la infraestructura requerida a través de la planificación de capital.
  6. Uso de herramientas de big data (principalmente Apache Spark) para replicar las técnicas mencionadas en el conjunto de datos completo y la infraestructura

Esto es menos de la versión de “libro de texto” y más de “experiencias personales” de cómo hago las cosas, por lo que esto podría resultar un poco dudoso. Pero creo que la mayoría de los científicos de datos estarán de acuerdo con esto …

Depende de las preguntas que quieras responder. Si se trata de series de tiempo, tómalas de una en una. Si está buscando correlaciones, muestree, pero tenga cuidado con el Teorema del límite central y el posible efecto de distorsión que tendrá en las distribuciones.

Y sí, el preprocesamiento de los subconjuntos de tren y pezones debería ser el mismo, de lo contrario, ¿qué estás probando?