¿Cómo han fomentado los grandes datos la ciencia? ¿Existen ejemplos en los que el análisis de big data ha llevado a una mejora significativa en cualquier campo científico que no se podría hacer mediante el análisis tradicional?

La respuesta corta es sí, hay ejemplos en los que ‘big data’ ha llevado a mejoras científicas significativas, aunque depende un poco de lo que usted llama exactamente ‘big data’. El LHC está produciendo cantidades de datos alucinantes, y ya ha encontrado el bosón de Higgs. Seguirá funcionando durante muchos años. El experimento Super-Kamiokande descubrió oscilaciones de neutrinos, demostrando que los neutrinos tienen masas distintas de cero. El Sloan Digital Sky Survey generó enormes cantidades de datos que han aumentado nuestra comprensión de nuestra galaxia, así como la de temas más arcanos como la materia oscura y la energía oscura.

Mientras que ‘big data’ ha sido más o menos la norma en física durante mucho tiempo, en campos como la biología es una tendencia bastante nueva. Los estudios de asociación de todo el genoma han podido identificar algunas mutaciones genéticas que pueden aumentar el riesgo de algunos tipos de enfermedades, por ejemplo, la enfermedad de Alzheimer. Probablemente sea cierto que los resultados en biología de las iniciativas de ‘big data’, como el Proyecto Genoma Humano, no han cumplido con las expectativas, pero no son insignificantes.

Es muy difícil saber si estos avances habrían sido posibles sin la ayuda de ‘big data’. En mi opinión, los ‘grandes datos’ deberían ser una de las muchas herramientas a disposición de los científicos; ciertamente es útil, pero no es la mejor herramienta en cada ocasión. ‘Big data’ es una buena herramienta exploratoria, pero no puede entendernos. Cuando se trata de poder construir una imagen coherente de algún fenómeno, las herramientas tradicionales siguen siendo todo lo que tenemos.

Tengo un ejemplo de cómo el análisis de big data está fomentando la neurociencia, y la investigación en realidad está siendo realizada por un Corán: Bradley Voytek. No podía recordar qué respuesta había tocado esto, pero afortunadamente cuando encontré esta pregunta y recordé la respuesta, ¡alguien escribió una nueva respuesta sobre esa pregunta! No puedo decirlo mejor que el Dr. Voytek en parte de su respuesta a ¿En qué tipo de investigación trabajan los coroanos ?:

Después de frustrarme durante mis exámenes de calificación de doctorado con la falta de una herramienta de búsqueda unificada para la conectividad cerebral y las relaciones de neurociencia cognitiva, mi esposa y yo hicimos brainSCANr (brainSCANr). Esta herramienta busca los millones de artículos científicos revisados ​​por pares en PubMed para cuantificar las relaciones entre los conceptos neurocientíficos. Luego, usamos esto para encontrar “agujeros” estadísticos en la literatura en un proceso que me gusta llamar generación de hipótesis semiautomatizada .

Aquí está, supongo, una visualización de los artículos y sus relaciones que el Dr. Voytek proporcionó:
Me encantaría ver este tipo de identificación explícita de lagunas en el conocimiento en otros campos, si aún no está presente. Esta es la primera vez que escucho algo como esto.

‘Big data’ impulsó la creación de los tamaños estándar de cuello / manga para hombres alrededor de finales de 1800. Antes de ese punto, todo estaba hecho a medida (o bien comprado en un pequeño número de categorías mal ajustadas). Los encuestadores que reunieron datos en múltiples regiones geográficas pronto descubrieron que, al usar solo tamaños de cuello y manga, tres desviaciones estándar (aproximadamente 98%) de los hombres podían vestirse de manera consistente / confiable (y sus plantillas utilizadas en toda la industria textil). Puede parecer primitivo, pero fue una gran victoria * realmente * .

Aunque todavía no es “perfecto”, se podría argumentar que 23andMe es un ejercicio de gran cantidad de datos en la regresión multivariada de fuentes múltiples, con consecuencias importantes (a veces perjudiciales). (23andMe decidió eliminar algunos de sus hallazgos de cáncer de seno / ovario en versiones posteriores, debido a que numerosos suscriptores acudieron a cirugía electiva al encontrar posibles indicadores que podrían o no haber sido estadísticamente confiables).

More Interesting

¿Cómo analizar los datos en R? ¿Cómo hago para el análisis? Tengo datos y quiero analizar, ¿qué debo hacer?

¿Cómo se usa el aprendizaje automático en genómica?

¿Es obligatorio para un aspirante a científico de datos conocer las técnicas de manejo de Big Data?

¿Cuáles son algunas técnicas populares de aprendizaje automático para operar en Forex?

¿Vim es adecuado para la ciencia de datos?

¿Un disco duro completo normalmente contiene alrededor del 50% de unos y 50% de ceros?

Pregunta sobre derechos de autor: Estoy interesado en hacer un análisis de los datos que se informan en The Almanac of American Politics. Si copio los datos en una hoja de cálculo y uso esos datos en mis cálculos, pero no publico los datos, ¿eso es una violación de los derechos de autor?

Cómo manejar unos 8 millones de tweets (17 GB) para un paso de preprocesamiento

¿Necesito saber / aprender Machine Learning si quiero seguir una carrera en Data Analytics?

¿Qué música suelen escuchar los científicos de datos mientras trabajan?

¿Flipkart tiene un grupo de ciencia de datos cautivo o algo similar? ¿Flipkart emplea 'Data Scientists'?

¿Cuáles son algunos problemas de ciencia de datos que deben resolverse?

¿Qué tan útil es 'Big Data'?

¿DataCamp me ayudará a competir en las competencias de Kaggle? Soy un principiante.

¿Cuál es la diferencia entre analista de negocios, analista de datos, científico de datos, analista de inteligencia de negocios, analista de sistemas de negocios y gerente de producto?