¿Cuáles son las mejores prácticas para garantizar que los datos adquiridos de la investigación que implica el análisis de Big Data resulten precisos y útiles?

Trataré de responder la pregunta demasiado amplia en el contexto del siguiente extracto:

Daniel MacArthur, investigador del Hospital General de Massachusetts en Boston, argumenta que los conjuntos masivos de datos generados incluso en los estudios de rutina del genoma hacen que sea fácil malinterpretar los artefactos como resultados biológicamente importantes. Dichos falsos positivos, dice, pueden conducir a retracciones embarazosas, proyectos inútiles y carreras estancadas.

No es inusual que un científico use un paquete estadístico muy complejo sin comprender a fondo las limitaciones de los algoritmos utilizados. Solución: RTM, lea el manual, especialmente para ajustes de configuración y banderas de parámetros.

Además, los algoritmos se basan en supuestos teóricos, y estos deben entenderse antes de que se interpreten los datos. Idealmente, un resultado sorprendente debería ser descomponible en una serie de explicaciones sensatas con rastros de datos.

Simplemente arrojar los datos sin procesar recopilados como entrada no es aconsejable. Analice primero los datos, verificando cuidadosamente los errores tipográficos y las inconsistencias, especialmente los puntos nulos y no disponibles, así como los valores atípicos. La mayoría de las veces, la limpieza de los datos ocupa la mayor parte del tiempo.

Pruebe el modelo en varios subconjuntos de datos para ver si los resultados parecen consistentes; de lo contrario, investigue las discrepancias. A veces esto puede significar que la fuente de inconsistencias necesita ser modelada en su lugar.

Haga que un estadístico verifique dos veces el trabajo. Mediante una cuidadosa documentación, la investigación, incluido el análisis de datos y el código de la computadora, debe ser reproducible por terceros.

More Interesting

¿Cuáles son algunas buenas implementaciones para modelos gráficos probabilísticos? En particular, quiero poder crear y visualizar redes de creencias y aplicar varios algoritmos como la eliminación de variables y otros algoritmos de aproximación.

Sistemas móviles: ¿Qué empresas / organizaciones de investigación están trabajando en el área de análisis de comportamiento / sistemas colaborativos basados ​​en dispositivos móviles?

¿Cuál es la intuición para usar tocones de decisión en el aprendizaje automático?

¿Estamos presenciando las primeras etapas del uso de ML en la industria o cree que la aplicación de ML hacia la industria ya está muy extendida?

¿Se puede usar un C ++ para el aprendizaje automático? Si es así, ¿qué tan bueno es en comparación con Python y R?

¿Qué es una explicación intuitiva de la diferencia entre equilibrios correlacionados y equilbria correlacionada gruesa?

¿Dónde empiezo a aprender Machine Learning?

¿Qué es la estimación de contraste de ruido (NCE)?

¿Cuál es un buen algoritmo para la extracción de características y la detección de texto escrito a mano?

¿Qué es un conjunto de datos desequilibrado?

¿Cuál es la relación entre economía y ciencia de datos?

¿Por qué la mayoría de las declaraciones de investigación de aprendizaje automático suenan a mierda?

¿Cuáles son algunos de los documentos fundamentales en el aprendizaje automático / algoritmos analíticos?

¿Cuáles son los requisitos previos para aprender Oracle Apps Technical?

¿Cuáles son algunas preguntas abiertas relacionadas con bandidos multibrazos?