Depende de la infraestructura a su disposición. Esto es lo que hago en un entorno comercial habitual:
- Encuentre una manera de muestrear datos que pueda procesar en una computadora portátil de 8GB
- Comprenda las lagunas en los datos y encuentre soluciones genéricas: imputaciones de valores faltantes, expresiones regulares, etc.
- Formule hipótesis y vea si tienen potencial para escalar, por ejemplo: descubra patrones en las ocurrencias de palabras en los datos de muestra; si muestra alguna promesa, entonces tenemos una premisa para hacerlo en el conjunto de datos completo.
- Repita 1,2,3 en diferentes muestras y asegúrese de que todavía muestren potencial
- Presentar a los interesados la propuesta de valor y adquirir la infraestructura requerida a través de la planificación de capital.
- Uso de herramientas de big data (principalmente Apache Spark) para replicar las técnicas mencionadas en el conjunto de datos completo y la infraestructura
Esto es menos de la versión de “libro de texto” y más de “experiencias personales” de cómo hago las cosas, por lo que esto podría resultar un poco dudoso. Pero creo que la mayoría de los científicos de datos estarán de acuerdo con esto …
- ¿Cuáles son las mejores herramientas de minería de datos web gratuitas automatizadas?
- ¿Que competencia de kaggle debería elegir?
- ¿Cómo aportamos el tipo de credibilidad a nuestra implementación y análisis de big data que disfrutan las prácticas tradicionales de gestión de la información basadas en modelos canónicos?
- Cómo extraer el registro DNS de un sitio web para compartir videos (YouTube) para combatir el terrorismo
- ¿Qué es la asociación de datos en el aprendizaje automático?