Big data, estadísticas: ¿Cuáles son los principales problemas estadísticos en el análisis de “big data”?

Un gran problema es que las personas no reconocen a GIGO. Basura dentro basura fuera. Más basura adentro. Más basura afuera. Un uso temprano de una especie de big data fue la infame encuesta Literary Digest. Este no fue el que dijo “Dewey le gana a Truman”.

Este dijo que Landon derrotaría a FDR en un deslizamiento de tierra en 1932. Encuestaron a 10,000,000 de personas. Estaban tan mal como mal puede estarlo; la elección de 1932 fue, de hecho, uno de los mayores derrumbes de cualquier elección presidencial de Estados Unidos, pero fue FDR quien ganó.

Otro gran problema es la contratación de “científicos de datos” que no tienen capacitación estadística. No estoy hablando tanto de las matemáticas sofisticadas detrás de los métodos utilizados, sino más bien, de la capacitación y la experiencia en lo que puede salir mal con los modelos.

Otro problema más es la actitud de “la computadora lo dijo, lo creo, eso lo resuelve”. Si la respuesta no tiene ningún sentido, entonces es casi seguro que está equivocada. Esto es aún más cierto si el método que utilizó fue un cuadro negro.

El uso de métodos sofisticados es un problema doble: no se hace lo suficiente y, cuando se hace, a menudo se hace demasiado pronto. Si no ha mirado sus datos una variable a la vez, entonces no confiaré en nada más que haya hecho, no importa cuán sofisticado sea. Por otro lado, ¿con qué frecuencia se utilizan métodos como la regresión cuantil o las splines de regresión adaptativa multivariante?

Finalmente, puede haber una tendencia a ignorar los consejos de Abraham Lincoln y David Cox.

Si tuviera seis horas para cortar un árbol, pasaría cuatro de ellos afilando mi hacha: Abraham Lincoln

No hay preguntas estadísticas de rutina, solo rutinas estadísticas cuestionables – David Cox

  • Datos estructurados de Internet de las cosas: la principal complejidad con el sensor y otros datos de la máquina es el volumen y el rendimiento requerido para una ingestión adecuada y oportuna. Pero este Big Data, Data Science – Clases de entrenamiento de curso combinado en línea | Big Data, Data Science – Cursos de cursos combinados Los datos en línea generalmente están muy estandarizados y los requisitos de transformación de datos aguas arriba no son inmensos.
  • Datos no estructurados: la recopilación de archivos multimedia, los datos textuales es una cosa que facilitan las plataformas de big data como Hadoop. Debido a que su almacenamiento no tiene esquemas, todo lo que se necesita es realmente “volcar” estos datos en el lago de datos y resolverlos más tarde.

Dadas las herramientas ETL adecuadas y las API / conectores, así como el rendimiento correcto, la recopilación de grandes datos no es la parte más difícil de la ecuación de grandes datos.

Almacenamiento de datos

Las plataformas de Big Data son polimorfos: pueden almacenar todo tipo de datos, y estos datos se pueden representar y acceder a ellos a través de diferentes prismas. Desde el simple almacenamiento de archivos hasta las bases de datos No-SQL de consistencia relajada hasta las bases de datos relacionales de tercera forma normal e incluso de quinta norma, desde la lectura directa hasta el acceso de estilo columnar al SQL transaccional, hay una respuesta para cada almacenamiento y acceso a datos necesitar.

Debido a sus conceptos de diseño fundamentales, la plataforma es infinitamente vendible. Al aprovisionarlo en la nube, se vuelve elástico. Conceptualmente, al menos, almacenar big data es la parte más fácil de la ecuación de big data.

Donde se vuelve complicado es cómo hacerlo funcionar en la realidad. Desde la plataforma principal de Hadoop hasta las distribuciones comerciales y las plataformas híbridas que ofrecen los proveedores de bases de datos, hay muchas opciones, muchos puntos de precio, muchas variaciones diferentes del concepto y muchos niveles de habilidad requeridos.

Usando datos

Una vez que tenga todos estos datos en el lago de datos, ¿cómo los reúne? Transformar y conciliar datos, garantizar la coherencia entre las fuentes, verificar la calidad de los datos: esta es la parte difícil de la historia de Big Data y donde hay la menor automatización y ayuda disponibles.

Los tres problemas estadísticos más importantes que veo son: (i) las suposiciones hechas implícita y explícitamente utilizando la mayoría de las herramientas estándar de análisis de big data (distribución, linealidad, homosquedasticidad) rara vez son válidas; (ii) mientras que, como dijo Jay Verkuilen, las personas se preocupan por el ajuste del modelo, la metrología como disciplina aún no se ha desarrollado completamente: el ajuste del modelo se mide principalmente a través de AUC para la clasificación, RSquare para la regresión y criterios de información para problemas no supervisados, sin abordar el significado de ajuste “bueno” versus “malo”, y cuán “bueno” es un ajuste que realmente necesitan. Finalmente, (iii) el ruido de datos grandes y los valores atípicos generalmente se consideran una molestia, en lugar de tratar de explicarlos mediante variables que no se consideran en los modelos que se aplican.

La gente está prestando atención a los problemas de adaptación bastante bien. En mi opinión, mucho más difícil son los problemas de calidad de los datos. Muchos big data son muy desordenados y los problemas de procesamiento de datos, como la falta de manejo de datos, a menudo empeoran las cosas.

Una preocupación para los científicos de datos que ingresan al campo, sin capacitación estadística, es el diseño experimental. Muchos datos dependen del contexto en el que se recopilaron o registraron. Si no se comprenden los métodos de recolección, las inferencias se sacarán de lugar y la fuerza de las conclusiones será cuestionable.