Cómo elegir el modelo correcto con la distribución correcta

Mis 2 centavos se basan tanto en la experiencia empresarial como en Kaggle (2 victorias en 2 años de competencia): no importa cuál sea la distribución de su objetivo. Hoy en día, probar un puñado de algoritmos y ver qué funciona mejor es cuestión de minutos.

Creo que lo que lees es más una forma académica de guiarte por el enfoque clásico de los libros de texto de ML: comienzas con modelos lineales y miras ejemplos de datos de juguetes que son linealmente separables. Luego considera algoritmos que son capaces de separar (ejemplos de juguetes) de objetivos más complejos (y se le presentan las redes neuronales y SVM y el concepto de núcleo). Luego, le muestran problemas que deben tener en cuenta las relaciones condicionales de características para separar el objetivo y usted aprende sobre los árboles de decisión y los conjuntos como los bosques aleatorios.

Hay una razón por la cual Gradient Boosting suele ser el núcleo de la mayoría de las soluciones ganadoras de Kaggle. Estos algoritmos son flexibles, potentes y hoy en día también rápidos, y modelarán la mayoría de los problemas mucho mejor que la mayoría de los otros algoritmos. Puede arrojar ciegamente un GBM a casi cualquier problema y las probabilidades están a su favor de que funcionará de maravilla.

Comience con la naturaleza de la variable dependiente. Si está bloqueado entre 0 y 1 o se puede llevar a un formulario bloqueado entre 0 y 1, comience con una regresión logística. De lo contrario, comience con la regresión lineal.

Lo ideal es que traigas expertos en la materia para que te digan qué forma tiene el modelo. De lo contrario, utilice el modelo lineal, luego observe la distribución de los residuos. Elija qué variables independientes todavía están correlacionadas con los residuos (tenga en cuenta que la parábola necesita dividirse en dos secciones para esto, y use la correlación de Spearman). Ajuste el modelo y repita el proceso.

Creo que estás malentendido. Lo que es separable linealmente no son los predictores sino la variable objetivo. Lo que debe verificar es si su variable de destino es linealmente separable por alguna o algunas de las características. Podría ser todo pero lo dudo. 🙂

Lo mismo se aplica para la distribución. Si bien hay muchas razones por las cuales la distribución de los predictores es relevante para la elección del modelo, el punto es que debe conocer la distribución de la variable objetivo.

En general, para responder a esas preguntas, el análisis exploratorio de datos es lo que necesita. El primer paso antes de siquiera pensar en un modelo es EDA.

Creo que ya hay algunos puntos buenos, pero agregaré lo siguiente. La gente dice muchas cosas, pero los datos del mundo real son desordenados. Su tarea sería descubrir qué significa y utilizar las herramientas a su disposición que lo ayudarán a respaldar su respuesta.

Ahora, el concepto de saber qué distribución se basa en la prueba de hipótesis que pregunta si sus datos pertenecen a una distribución particular. Puede usar una prueba de bondad de ajuste que verificará su valor esperado dada una distribución a sus valores empíricos. Si tiene evidencia estadística, puede suponer que los datos pertenecen a esa distribución. Tenga en cuenta que es posible que haya aplicado alguna transformación para obtener un mejor ajuste, pero nuevamente muchas más personas con muchas más sugerencias aquí también.

En lo que respecta al algoritmo, A es mejor que B es una mentira directa. Algoritmo A puede ser mejor que B en algunas condiciones, pero esto puede no ser siempre el caso (sin teorema de almuerzo gratis). La parte más difícil es elegir la combinación correcta de características, pero esto se reducirá a una buena investigación e intuición de su parte. Hay muchas herramientas y algoritmos que tratarán de elegir en función de algunas heurísticas, pero incluso estos pueden estar sesgados en la selección, así que tenga en cuenta que la minería de datos es tan cuestión de creatividad como de ciencia.