Oh sí, definitivamente existe. Sin embargo, no he visto ese nombre en ninguna parte. Utilizo exactamente este nombre en mi conversación con los científicos de datos, sin embargo, este no es un término bien conocido.
El mundo de hoy se volvió loco por los grandes datos. Esto es natural: producimos toneladas de datos. En este momento, los datos solo se recopilaron, pero no se analizaron (ampliamente). Las técnicas informáticas modernas y las computadoras más fuertes nos permitieron analizar miles de millones de registros en solo (mili) segundos.
En la “época anterior”, los analistas de datos generalmente jugaban con cientos a cientos de miles de registros. Cuando se trataba de analizar conjuntos de datos mucho más grandes, lo llamaron “big data”. Y como hoy producimos muchos “grandes datos”, puede escuchar este nombre en todas partes.
- ¿Me puede recomendar un curso avanzado de ciencia de datos?
- ¿Qué son exactamente los grandes datos y qué lenguajes de programación se deben aprender para comprender mejor este concepto?
- ¿Puedo aprender Big Data después de 6 años?
- ¿Necesitamos normalizar todas las variables antes de pasar a construir modelos?
- ¿Cuál es el papel de un científico de datos en Quora?
¿Dónde están los datos pequeños hoy? Todavía existe, en medicina basada en evidencia, farmacia y diagnóstico clínico. Especialmente en la investigación clínica, no es improbable tener solo 20–50 observaciones. Existen métodos para analizarlos, pero el proceso es complicado, a veces complicado y poco confiable (no se puede producir información de la nada, ¿verdad?), Requiere mucha intuición, experiencia e investigación adicional (metanálisis). Los supuestos estadísticos son violados. El poder es bajo. Existen datos atípicos y sospechosos (y NO queremos eliminarlos), los diseños se desequilibran debido a causas aleatorias y no aleatorias. Los datos hacen que la matriz de covarianza esté mal condicionada. Y así sucesivamente y así sucesivamente.
Big data es una melodía del futuro. Los volúmenes de datos crecerán y crecerán. Desde gigabytes en los años 90, pasando por terabytes hoy, hasta eksabytes en el futuro cercano. Pero mientras las personas sufran enfermedades, mientras que tratarlas sea complejo y peligroso, mientras mueran y mientras los aspectos éticos desempeñen un papel importante, Small Data permanecerá, probablemente para siempre y un día. ¿Sabía que prácticamente todos los ensayos clínicos deben comenzar con la “determinación del tamaño de la muestra”? Porque cada observación cuenta. Porque el abandono es grande. Porque obtener “una observación más” es a menudo imposible.
Esto no es popular. En mi país, Polonia, la bioestadística es muy rara. No menciono los cursos ” sobre el uso de ANOVA en medicina ” (que son populares, pero a menudo triviales e incluso inútiles), me refiero a la verdadera bioestadística, con análisis PK / PD y análisis de investigación clínica. La gente a menudo ni siquiera se da cuenta de que los “datos pequeños” siguen siendo un problema (no solo en el siglo XIX …), me preguntan: “¿decir qué? datos pequeños? querías decir big data con seguridad, ¿no?
También revise este hilo: ¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados en Big Data?