¿Cómo preparará enormes conjuntos de datos (gran número de filas) para el análisis, y también procesará previamente los conjuntos de datos de ‘prueba’ de la misma manera que los conjuntos de datos de ‘entrenamiento’ antes del análisis?

Depende de la infraestructura a su disposición. Esto es lo que hago en un entorno comercial habitual:

Encuentre una manera de muestrear datos que pueda procesar en una computadora portátil de 8GB
Comprenda las lagunas en los datos y encuentre soluciones genéricas: imputaciones de valores faltantes, expresiones regulares, etc.
Formule hipótesis y vea si tienen potencial para escalar, por ejemplo: descubra patrones en las ocurrencias de palabras en los datos de muestra; si muestra alguna promesa, entonces tenemos una premisa para hacerlo en el conjunto de datos completo.
Repita 1,2,3 en diferentes muestras y asegúrese de que todavía muestren potencial
Presentar a los interesados la propuesta de valor y adquirir la infraestructura requerida a través de la planificación de capital.
Uso de herramientas de big data (principalmente Apache Spark) para replicar las técnicas mencionadas en el conjunto de datos completo y la infraestructura

Esto es menos de la versión de “libro de texto” y más de “experiencias personales” de cómo hago las cosas, por lo que esto podría resultar un poco dudoso. Pero creo que la mayoría de los científicos de datos estarán de acuerdo con esto …

Análisis de datosAprendizaje automáticoBig DataCiencia de datosConjuntos de datosdatosMinería de

¿Debería / puede una persona con casi 6 años de experiencia en investigación financiera aprender ciencia de datos? ¿Le ayudaría a avanzar en su carrera en investigación?

¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?

¿Cómo está transformando el análisis de datos el mundo?

¿Cómo y de qué sitios web y libros puedo aprender en profundidad los conceptos de ciencia de datos para prepararme para el nivel de entrevista?

¿Cuál es el instituto superior para enseñar ciencia de datos con R?

En Enterprise SaaS, ¿quién debe enviar las facturas recurrentes, la contabilidad o los gerentes de cuenta?

Depende de las preguntas que quieras responder. Si se trata de series de tiempo, tómalas de una en una. Si está buscando correlaciones, muestree, pero tenga cuidado con el Teorema del límite central y el posible efecto de distorsión que tendrá en las distribuciones.

Y sí, el preprocesamiento de los subconjuntos de tren y pezones debería ser el mismo, de lo contrario, ¿qué estás probando?

Vivek Kalyanarangan

More Interesting

¿Cuáles son las tendencias en análisis de big data?

¿Elige escalar su DW / DB o implementar Hadoop cuando la cantidad de datos o la concurrencia se vuelve muy grande?

¿Cuál es la mejor manera de hacer un curso sobre big data en India?

¿Dónde puedo encontrar conjuntos de datos abiertos gratuitos para ganar experiencia como Business Intelligence y Data analyst?

¿Qué tan útil es 'Big Data'?

¿Cuál es el mejor curso de posgrado a tiempo completo en ciencia de datos?

¿Se automatizará el análisis de datos y el análisis empresarial teniendo en cuenta el aumento de la inteligencia artificial?

¿Cuántos científicos de datos (por cualquier nombre) hay hoy?

¿La ciencia de datos necesita estadísticas?