¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

Comprender la distribución de datos subyacente antes de aplicar cualquier enfoque de aprendizaje automático o modelado estadístico (como quiera que lo vea) es el paso más importante del análisis u otro entregable que existe como salida . He visto fallar más proyectos o análisis debido a la falta de comprensión de esto que todos los demás errores combinados.

Todos los algoritmos utilizan el aprendizaje automático y similares tienen, ya sea explícita o implícita, un cierto número de supuestos en los datos. Para la regresión lineal, los cuatro principales son: aditividad y linealidad de los efectos, varianza de error constante, normalidad de errores y correlación cero entre errores. Estos pueden ser alterados o relajados (aunque si relaja la normalidad de los errores, generalmente tiene que tener una correlación cero con la independencia, ya que la normalidad y ninguna correlación es equivalente a la independencia), pero aún existen. Una de las características de un analista de datos experimentado / científico de datos / como quiera llamarlo es saber cuándo y cómo se pueden ignorar los supuestos.

A menudo escucho o veo que la gente dice que, como el ejemplo más citado, los bosques aleatorios no hacen suposiciones. Esto es evidentemente falso. Sin profundizar en ninguna teoría, una suposición que hacen los bosques aleatorios es que los cambios en la variable de interés (variable dependiente o DV) se describen mejor mediante hiperrectángulos en el resto de las variables (porque están basadas en árboles). Otro para el bosque aleatorio en regresión es que ningún valor futuro del DV estará fuera del rango del DV en el entrenamiento (aunque, para ser justos, esto generalmente es algo bueno ya que detiene la extrapolación).

Por supuesto, si considera que la distribución de los datos se describe mejor de las distribuciones estadísticas canónicas. Si lo hace, y tiene la razón aproximadamente, puede obtener mucho poder inferencial y predictivo de esto. También hay algoritmos que permiten distribuciones de datos desconocidas. La clave para cualquier uso exitoso de los datos en un análisis o para tomar una decisión es aplicar el ML / modelado estadístico / lo que sea que use la técnica a los datos disponibles y cualquier problema que esté tratando de resolver. Hacer coincidir los supuestos en los tres y hacer que encajen es la clave para hacerlo bien.

Algunos algoritmos solo funcionan dados ciertos supuestos sobre la entrada. Si esas suposiciones no se cumplen, el resultado puede no tener sentido.

Considere la regresión lineal simple, que da la línea de mejor ajuste, pero suponiendo que a) hay una relación lineal entre las dos variables para comenzar, yb) los errores se distribuyen normalmente sobre el valor predicho por esa relación lineal.

El cuarteto de Anscombe muestra 3 conjuntos de datos que no coinciden con estos supuestos. Todos felizmente dan el mismo modelo lineal, que es claramente inapropiado para tres de ellos.

Puntos de vista: Exploración de datos: Métodos de la naturaleza: Nature Publishing Group

Puedo suponer que, si los datos no cumplen con los supuestos, primero debemos transformar los datos y luego se deben aplicar los algoritmos ML.

More Interesting

¿Qué es la asociación de datos en el aprendizaje automático?

¿Puedes explicar la agrupación en cuadrícula en la minería de datos?

¿Cuáles son los casos de uso típicos para diferentes algoritmos de aprendizaje automático? Por ejemplo, ¿en qué condiciones típicas uno preferiría usar uno sobre el otro sin haber probado la precisión del aprendizaje?

¿Alguien puede ayudarme en qué consiste el análisis de datos y cuál es la diferencia entre este y el científico de datos?

En un iPhone, ¿Siri es CASE en Interestelar? ¿Cuál es el origen de Siri?

¿Cuánta programación debe saber alguien antes de entrar en Machine Learning y Data Science?

¿Cuáles son los consejos prácticos para trabajar con una gran cantidad de datos para el análisis en Excel?

Entre la maestría en análisis predictivo en Northwestern y la maestría en análisis de datos en la Universidad de Chicago, ¿cuál es mejor?

Cómo calcular la distribución estadística en un gran conjunto de datos

Big data es utilizado por los científicos de datos. ¿Quién traduce esta información para que la gerencia mejore o desarrolle estrategias de gestión y operaciones?

¿Cuál es el mejor para un científico de datos / curso analítico y certificaciones, Coursera o Udemy?

¿Cuáles son las preguntas más frecuentes sobre entrevistas de ciencia de datos?

¿Cuáles son los nuevos recursos de big data?

¿Cuál es el instituto superior para enseñar ciencia de datos con R?

¿Cuál es la relación entre la ciencia de datos y la cadena de bloques (si hay alguna)?