¿Cuáles son las mejores prácticas para garantizar que los datos adquiridos de la investigación que implica el análisis de Big Data resulten precisos y útiles? La tecnología cambia la vida futura

¿Cuáles son las mejores prácticas para garantizar que los datos adquiridos de la investigación que implica el análisis de Big Data resulten precisos y útiles?

Trataré de responder la pregunta demasiado amplia en el contexto del siguiente extracto:

Daniel MacArthur, investigador del Hospital General de Massachusetts en Boston, argumenta que los conjuntos masivos de datos generados incluso en los estudios de rutina del genoma hacen que sea fácil malinterpretar los artefactos como resultados biológicamente importantes. Dichos falsos positivos, dice, pueden conducir a retracciones embarazosas, proyectos inútiles y carreras estancadas.

No es inusual que un científico use un paquete estadístico muy complejo sin comprender a fondo las limitaciones de los algoritmos utilizados. Solución: RTM, lea el manual, especialmente para ajustes de configuración y banderas de parámetros.

Además, los algoritmos se basan en supuestos teóricos, y estos deben entenderse antes de que se interpreten los datos. Idealmente, un resultado sorprendente debería ser descomponible en una serie de explicaciones sensatas con rastros de datos.

Simplemente arrojar los datos sin procesar recopilados como entrada no es aconsejable. Analice primero los datos, verificando cuidadosamente los errores tipográficos y las inconsistencias, especialmente los puntos nulos y no disponibles, así como los valores atípicos. La mayoría de las veces, la limpieza de los datos ocupa la mayor parte del tiempo.

Pruebe el modelo en varios subconjuntos de datos para ver si los resultados parecen consistentes; de lo contrario, investigue las discrepancias. A veces esto puede significar que la fuente de inconsistencias necesita ser modelada en su lugar.

Haga que un estadístico verifique dos veces el trabajo. Mediante una cuidadosa documentación, la investigación, incluido el análisis de datos y el código de la computadora, debe ser reproducible por terceros.