Comprender la distribución de datos subyacente antes de aplicar cualquier enfoque de aprendizaje automático o modelado estadístico (como quiera que lo vea) es el paso más importante del análisis u otro entregable que existe como salida . He visto fallar más proyectos o análisis debido a la falta de comprensión de esto que todos los demás errores combinados.
Todos los algoritmos utilizan el aprendizaje automático y similares tienen, ya sea explícita o implícita, un cierto número de supuestos en los datos. Para la regresión lineal, los cuatro principales son: aditividad y linealidad de los efectos, varianza de error constante, normalidad de errores y correlación cero entre errores. Estos pueden ser alterados o relajados (aunque si relaja la normalidad de los errores, generalmente tiene que tener una correlación cero con la independencia, ya que la normalidad y ninguna correlación es equivalente a la independencia), pero aún existen. Una de las características de un analista de datos experimentado / científico de datos / como quiera llamarlo es saber cuándo y cómo se pueden ignorar los supuestos.
A menudo escucho o veo que la gente dice que, como el ejemplo más citado, los bosques aleatorios no hacen suposiciones. Esto es evidentemente falso. Sin profundizar en ninguna teoría, una suposición que hacen los bosques aleatorios es que los cambios en la variable de interés (variable dependiente o DV) se describen mejor mediante hiperrectángulos en el resto de las variables (porque están basadas en árboles). Otro para el bosque aleatorio en regresión es que ningún valor futuro del DV estará fuera del rango del DV en el entrenamiento (aunque, para ser justos, esto generalmente es algo bueno ya que detiene la extrapolación).
- ¿Cómo debería un principiante aprender de un libro técnico que diga "Ciencia de datos desde cero"? ¿Debería completarlo una vez y luego volver a comprender temas complejos, o debería comprender profundamente cada tema antes de continuar y así retrasar la finalización?
- ¿Qué cursos de posgrado debo elegir para el aprendizaje automático?
- Después de tener 15 años de experiencia en la industria de semiconductores, ¿vale la pena cambiar a la ciencia de datos para paquetes de salarios más altos?
- ¿Los científicos de datos estarán a la altura de nuestras expectativas o los grandes datos serán una decepción?
- ¿Cuáles son algunos buenos paquetes de R para el análisis de datos cualitativos?
Por supuesto, si considera que la distribución de los datos se describe mejor de las distribuciones estadísticas canónicas. Si lo hace, y tiene la razón aproximadamente, puede obtener mucho poder inferencial y predictivo de esto. También hay algoritmos que permiten distribuciones de datos desconocidas. La clave para cualquier uso exitoso de los datos en un análisis o para tomar una decisión es aplicar el ML / modelado estadístico / lo que sea que use la técnica a los datos disponibles y cualquier problema que esté tratando de resolver. Hacer coincidir los supuestos en los tres y hacer que encajen es la clave para hacerlo bien.