Si hay Big Data, ¿hay también Small Data? ¿Por qué no nos enteramos de eso?

Oh sí, definitivamente existe. Sin embargo, no he visto ese nombre en ninguna parte. Utilizo exactamente este nombre en mi conversación con los científicos de datos, sin embargo, este no es un término bien conocido.

El mundo de hoy se volvió loco por los grandes datos. Esto es natural: producimos toneladas de datos. En este momento, los datos solo se recopilaron, pero no se analizaron (ampliamente). Las técnicas informáticas modernas y las computadoras más fuertes nos permitieron analizar miles de millones de registros en solo (mili) segundos.

En la “época anterior”, los analistas de datos generalmente jugaban con cientos a cientos de miles de registros. Cuando se trataba de analizar conjuntos de datos mucho más grandes, lo llamaron “big data”. Y como hoy producimos muchos “grandes datos”, puede escuchar este nombre en todas partes.

¿Dónde están los datos pequeños hoy? Todavía existe, en medicina basada en evidencia, farmacia y diagnóstico clínico. Especialmente en la investigación clínica, no es improbable tener solo 20–50 observaciones. Existen métodos para analizarlos, pero el proceso es complicado, a veces complicado y poco confiable (no se puede producir información de la nada, ¿verdad?), Requiere mucha intuición, experiencia e investigación adicional (metanálisis). Los supuestos estadísticos son violados. El poder es bajo. Existen datos atípicos y sospechosos (y NO queremos eliminarlos), los diseños se desequilibran debido a causas aleatorias y no aleatorias. Los datos hacen que la matriz de covarianza esté mal condicionada. Y así sucesivamente y así sucesivamente.

Big data es una melodía del futuro. Los volúmenes de datos crecerán y crecerán. Desde gigabytes en los años 90, pasando por terabytes hoy, hasta eksabytes en el futuro cercano. Pero mientras las personas sufran enfermedades, mientras que tratarlas sea complejo y peligroso, mientras mueran y mientras los aspectos éticos desempeñen un papel importante, Small Data permanecerá, probablemente para siempre y un día. ¿Sabía que prácticamente todos los ensayos clínicos deben comenzar con la “determinación del tamaño de la muestra”? Porque cada observación cuenta. Porque el abandono es grande. Porque obtener “una observación más” es a menudo imposible.

Esto no es popular. En mi país, Polonia, la bioestadística es muy rara. No menciono los cursos ” sobre el uso de ANOVA en medicina ” (que son populares, pero a menudo triviales e incluso inútiles), me refiero a la verdadera bioestadística, con análisis PK / PD y análisis de investigación clínica. La gente a menudo ni siquiera se da cuenta de que los “datos pequeños” siguen siendo un problema (no solo en el siglo XIX …), me preguntan: “¿decir qué? datos pequeños? querías decir big data con seguridad, ¿no?

También revise este hilo: ¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados ​​en Big Data?

Probablemente sea la misma respuesta a:
Si existe la teoría del Big Bang, ¿existe también una teoría del Small Bang? ¿Por qué no nos enteramos de eso?

El término Big Bang se usó para describir esa teoría para alertar a las personas sobre las características especiales del big bang. No fue una explosión normal como la de la foto.

Entonces, ¿cuáles son las características especiales de Big Data ? Se les conoce como las 3 V de big data

  1. Volumen : se refiere a la cantidad de datos.
  2. Variedad : se refiere al número de tipos de datos.
  3. Velocidad : se refiere a la velocidad de procesamiento de los datos.

Cualquier dato que pierda cualquiera de los V anteriores no se considera técnicamente big data. Entonces, si está procesando terabytes de datos que provienen de la misma fuente y está haciendo esto sin conexión (no en tiempo real), estos son solo datos que ocupan un gran espacio en disco, pero no son realmente grandes (o lo llaman datos pequeños )

Hacer inferencias a partir de datos pequeños fue el valor predeterminado durante siglos. Se llama Estadísticas.

La característica distintiva de la ciencia de datos moderna es que le permite crear soluciones más generales que requieren menos experiencia en el dominio a cambio de conjuntos de datos más grandes. Así que “Big Data” en realidad es un nombre decente, ya que esa es la característica distintiva.

Me refiero al equipo “Big Data” es más de marketing BS que cualquier cosa real real. Desde una perspectiva técnica, los sistemas que pueden consumir una gran cantidad de datos también podrán manejar una pequeña cantidad de datos. Los servidores IE AWS proporcionan la infraestructura para grandes empresas y pequeñas startups.

“Datos pequeños” son solo datos regulares. Cuando completa la información en línea, esa información se almacena en una base de datos en algún lugar. Eso es datos.

“Big Data” analiza “Small Data” para buscar patrones que puedan usarse para cualquier propósito comercial que la empresa desee, pero en su mayor parte los datos regulares es donde todo comienza.

Sí, hay datos pequeños y todos los que usan dispositivos o tecnología los están usando en la vida diaria. Por ejemplo: tome un teléfono móvil / inteligente, las personas a menudo se quejan de que la memoria de su teléfono está casi llena, lo que hacen a continuación es eliminar algunas aplicaciones, borrar datos de la memoria caché, eliminar datos innecesarios del teléfono y limpiarlos de todas las formas posibles, por lo que puede utilizar todo el espacio con los datos necesarios. En este caso, está trabajando con datos de 8 GB / 16 GB / 32 GB o 64 GB.

Pero cuando se trata del término “Big data” no es tan fácil de manejar como lo hicimos en un teléfono inteligente o móvil. Los datos gigantes se cargan en las redes sociales a diario, puedes buscar en Google para obtener números precisos cuántos datos hay subido a la web en un día. Está en PetaByte o ExaByte. y no es tarea fácil mantener ese flujo de datos. Cuando trabajamos con los mismos datos, ni siquiera sabemos si son datos estructurados, semiestructurados o no estructurados. pero cuando se trata de big data necesitamos clasificar los datos de acuerdo con sus tipos.

Espero que esto ayude, por qué no nos ocupamos de datos más pequeños en la vida diaria. 🙂

Gracias.!!

Busque el libro Small Data: las pequeñas pistas que descubren grandes tendencias de Martin Lindstrom …

More Interesting

¿Qué temas aprendiste como parte de un curso de ciencias de datos durante tu maestría en los Estados Unidos? ¿Cuáles son algunas sugerencias que me ayudarían a convertirme en un científico de datos exitoso?

Estoy interesado en obtener un título de licenciatura en línea post-bac de la Oregon State University en Data Science. ¿Sería una responsabilidad obtener un título en línea?

¿Es correcto hacer un curso sobre big data? ¿Cómo puedo asegurar un trabajo como nuevo después de hacer un curso de Big Data?

¿Qué cursos debo hacer para convertirme en científico de decisiones?

Explique qué clasificación de datos se encuentra en la redacción de informes técnicos.

Como científico de datos, ¿en qué industria trabaja actualmente? ¿Su industria tiene una gran demanda de científicos de datos?

¿Hay algún curso de análisis (en el Reino Unido o en línea) que se especialice en interpretar análisis y datos para darme información comercial significativa?

Pregunta sobre derechos de autor: Estoy interesado en hacer un análisis de los datos que se informan en The Almanac of American Politics. Si copio los datos en una hoja de cálculo y uso esos datos en mis cálculos, pero no publico los datos, ¿eso es una violación de los derechos de autor?

¿Puede la ciencia de datos hacer obsoleto el método científico?

¿Cómo compararía el aprendizaje de la ciencia de datos de cursos pagos como Cloudera y cursos gratuitos como Udacity y Coursera?

¿Es posible conseguir un trabajo en ciencia de datos o aprendizaje automático justo después de la graduación? ¿Si es así, cómo?

¿Qué nivel de preguntas de codificación del algoritmo Python le pedirían para una entrevista de ciencia de datos (nivel interno)?

¿Cómo es el título de MS Data Science and Analytics @Worcester Polytechnic Institute en términos de conexiones industriales y empleo después de la graduación?

He descubierto varias certificaciones de ciencia de datos como CAP y DMA. ¿Serían necesarios para mi carrera?

Cómo proceder para obtener datos registrados en los parámetros de un equipo de Minería usando sensores