¿Qué estadística simple o técnica de ciencia de datos utilizó para obtener una visión interesante cuando se enfrentó a grandes cantidades de datos?

Esta es una pregunta increíblemente amplia, así que intentaré tocar algunos puntos clave de mi experiencia.

1. “Todos los modelos están equivocados. Algunos son útiles”. Y, “Mantenlo simple, estúpido”. No se deje atrapar por encontrar el modelo correcto. Si funciona, y es razonablemente preciso, es lo suficientemente bueno.
2. Muestree sus datos. En la mayoría de las aplicaciones, no necesita todos sus datos (derivando relaciones entre variables). Sin embargo, si está buscando minería de datos para pepitas raras, es posible que necesite todo, pero incluso entonces, probablemente no para empezar.
2b. Filtra tus datos. La misma idea. Deseche las variables que no son relevantes o que no muestran una relación.
3. Visualiza los datos. Nunca confío en mi análisis hasta que puedo ver la relación con algún tipo de visualización. ¡Estas visualizaciones son simples! Los gráficos de perfil y los gráficos de caja son algunos de mis favoritos, y también utilizo muchos gráficos de líneas y gráficos de dispersión. Ser creativo. Las visualizaciones sexys se ven geniales y son importantes para un producto final, pero no son necesarias para un análisis sin procesar.
4. Las estadísticas simples funcionan muy bien con big data. La belleza de los grandes datos es la ley de los grandes números y el trabajo del teorema del límite central. Muchas veces, todo lo que necesita hacer es tomar medios grupales. Muchos modelos estadísticos avanzados tradicionales se desarrollaron para tratar con datos escasos o conjuntos de datos pequeños: si no tiene datos escasos, obtendrá pocos beneficios (a un alto costo) de estos modelos avanzados.
5. Validación cruzada. Grandes conjuntos de datos permiten una validación cruzada efectiva. Sin embargo, puede llevar algún tiempo programar esto correctamente.
6. Divida sus datos en pasos. Ejecute un modelo (o grupo de modelos), tome la salida de esos, luego ejecute su próximo modelo.
7. Aprende a programar de manera efectiva. Las macros, SQL, la programación iterativa ayudan a organizar y calcular de manera eficiente.

Tome algún tipo de muestra aleatoria (100k o menos), construya un histograma si es posible, y calcule la media, la mediana, el estándar y algunos cuantiles importantes (quizás min p1 p5 p10 p25 y sus complementos). Mira algunas frecuencias para variables categóricas. Nunca hago nada (ciertamente no modelar) con un nuevo conjunto de datos hasta que haya tomado estos pasos básicos. En mi opinión, las estadísticas de resumen básicas son las herramientas de análisis de datos más importantes en mi bolsa de herramientas.