Trataré de responder la pregunta demasiado amplia en el contexto del siguiente extracto:
Daniel MacArthur, investigador del Hospital General de Massachusetts en Boston, argumenta que los conjuntos masivos de datos generados incluso en los estudios de rutina del genoma hacen que sea fácil malinterpretar los artefactos como resultados biológicamente importantes. Dichos falsos positivos, dice, pueden conducir a retracciones embarazosas, proyectos inútiles y carreras estancadas.
No es inusual que un científico use un paquete estadístico muy complejo sin comprender a fondo las limitaciones de los algoritmos utilizados. Solución: RTM, lea el manual, especialmente para ajustes de configuración y banderas de parámetros.
- ¿Qué piensan los pequeños equipos de ciencia de datos sobre la plataforma Dato y el pensamiento de Carlos Guestrin detrás de la democratización del aprendizaje automático?
- ¿Cuáles son los algoritmos estándar para la inferencia en redes bayesianas?
- ¿Qué tipo de big data se genera desde internet de las cosas? ¿Cómo recopilo esos datos? ¿Puedo aplicar el aprendizaje automático para encontrar patrones en los datos?
- ¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?
- ¿Cómo puedo comenzar el trabajo de investigación sobre aprendizaje automático y cómo puedo elegir un tema o problema en el aprendizaje automático?
Además, los algoritmos se basan en supuestos teóricos, y estos deben entenderse antes de que se interpreten los datos. Idealmente, un resultado sorprendente debería ser descomponible en una serie de explicaciones sensatas con rastros de datos.
Simplemente arrojar los datos sin procesar recopilados como entrada no es aconsejable. Analice primero los datos, verificando cuidadosamente los errores tipográficos y las inconsistencias, especialmente los puntos nulos y no disponibles, así como los valores atípicos. La mayoría de las veces, la limpieza de los datos ocupa la mayor parte del tiempo.
Pruebe el modelo en varios subconjuntos de datos para ver si los resultados parecen consistentes; de lo contrario, investigue las discrepancias. A veces esto puede significar que la fuente de inconsistencias necesita ser modelada en su lugar.
Haga que un estadístico verifique dos veces el trabajo. Mediante una cuidadosa documentación, la investigación, incluido el análisis de datos y el código de la computadora, debe ser reproducible por terceros.