¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

Comprender la distribución de datos subyacente antes de aplicar cualquier enfoque de aprendizaje automático o modelado estadístico (como quiera que lo vea) es el paso más importante del análisis u otro entregable que existe como salida . He visto fallar más proyectos o análisis debido a la falta de comprensión de esto que todos los demás errores combinados.

Todos los algoritmos utilizan el aprendizaje automático y similares tienen, ya sea explícita o implícita, un cierto número de supuestos en los datos. Para la regresión lineal, los cuatro principales son: aditividad y linealidad de los efectos, varianza de error constante, normalidad de errores y correlación cero entre errores. Estos pueden ser alterados o relajados (aunque si relaja la normalidad de los errores, generalmente tiene que tener una correlación cero con la independencia, ya que la normalidad y ninguna correlación es equivalente a la independencia), pero aún existen. Una de las características de un analista de datos experimentado / científico de datos / como quiera llamarlo es saber cuándo y cómo se pueden ignorar los supuestos.

A menudo escucho o veo que la gente dice que, como el ejemplo más citado, los bosques aleatorios no hacen suposiciones. Esto es evidentemente falso. Sin profundizar en ninguna teoría, una suposición que hacen los bosques aleatorios es que los cambios en la variable de interés (variable dependiente o DV) se describen mejor mediante hiperrectángulos en el resto de las variables (porque están basadas en árboles). Otro para el bosque aleatorio en regresión es que ningún valor futuro del DV estará fuera del rango del DV en el entrenamiento (aunque, para ser justos, esto generalmente es algo bueno ya que detiene la extrapolación).

Por supuesto, si considera que la distribución de los datos se describe mejor de las distribuciones estadísticas canónicas. Si lo hace, y tiene la razón aproximadamente, puede obtener mucho poder inferencial y predictivo de esto. También hay algoritmos que permiten distribuciones de datos desconocidas. La clave para cualquier uso exitoso de los datos en un análisis o para tomar una decisión es aplicar el ML / modelado estadístico / lo que sea que use la técnica a los datos disponibles y cualquier problema que esté tratando de resolver. Hacer coincidir los supuestos en los tres y hacer que encajen es la clave para hacerlo bien.