¿Por qué los tutoriales de regresión lineal en los sitios web de aprendizaje de ciencia de datos no discuten la necesidad de satisfacer supuestos de regresión como la linealidad o la homocedasticidad? ¿Las suposiciones de verificación rara vez se hacen en la práctica?

No todos los tutoriales de regresión están escritos por personas que realmente saben de lo que están hablando. Pero entre los que sí lo están, todavía hay razones por las que es posible que no cubras nada de esto.

Si está utilizando una regresión lineal como modelo predictivo, muchas de esas cosas realmente no importan. La única pregunta importante es qué tan bien predice. Si es lo suficientemente bueno, envíalo. Si no, bueno, hay muchas alternativas.

Es solo cuando comienza a mirar las propiedades estadísticas tradicionales de un modelo de regresión que necesita verificar los supuestos de regresión. La linealidad es importante para dar sentido a sus estimaciones. La homocedasticidad es importante si desea intervalos de confianza y pruebas de significación. Los errores correlacionados pueden hacer que las estimaciones de sus parámetros sean sesgadas.

Todos estos son temas importantes, pero no son algo que deba aprender al principio, o incluso simplemente para comenzar a hacer análisis de datos. Sin embargo, me preocuparía si alguien no está expuesto a ellos.

Ellos deberían. La verificación diagnóstica de los residuos por violaciones de linealidad o el supuesto de varianza constante son igualmente importantes en la construcción de modelos predictivos o modelos explicativos. Si el modelo está mal especificado, está sacrificando el rendimiento predictivo. Además, es importante tratar la varianza no constante en la construcción de intervalos de predicción (no solo intervalos de confianza).

En una división de datos de capacitación / validación estándar, es una buena práctica buscar un modelo de regresión que se ajuste adecuadamente en el conjunto de datos de capacitación que incluye iteraciones de verificación residual y modificaciones del modelo. Luego, para proceder al rendimiento del modelo en los datos de validación en comparación con los modelos de la competencia.

Ya sabes, Lotfi (Zadeh) trajo enfoques confusos. Entonces, uno podría obtener una solución si pudiera difuminar. Pero, estaba el otro lado: ¿cómo desfuzzificar?

Ahora, he estado hablando desde lejos y me acercaré. Menciono a Lotfi como el manejo de lo que entró en la caja y lo que salió de la caja es un problema que no tiene una solución general.

Oh sí, vemos soluciones en el wazoo. Pero, todo el conocimiento del marco y su aplicabilidad también es parte de los requisitos.

Entonces, desde lejos, solía decir, enséñales a algunos gerentes algunas matemáticas y ten cuidado. Ya sabes, agua corriendo cuesta arriba. Apuesto a que ML / DL / DS es solo eso.

Ah, sí, sorpréndanos con graphis (fotos). Claro, hablemos y espacios sin traer las sutilezas que nos han permitido progresar. Ya sabes. todo tipo de caminos corren a la perdición.

Necesitamos más que los pensamientos de Lotfi. El problema del “marco” se menciona, en un sentido tentativo, de vez en cuando. Haré la audaz afirmación de que se aplica en este pequeño mundo de trucos numéricos. Lo que me molestó, hasta hace unos días, fue que no estaba claro cómo hacer esto evidente.

Bueno, ahora veo cómo mencionar la discusión. Y sí, realmente no debería desperdiciarse el tiempo de la computadora en alguna búsqueda de soluciones (esta regla se rompe desde el principio) sin un marco que regrese a una base que tenga significado.

Ya sabes, era casi una ley, en un momento, no alimentar algunos resultados del proceso aguas abajo que se obtuvieron de la simulación (u otro método deslucido). La primera vez que vi eso se rompió hace una década y quedé horrorizado. Por supuesto, las cosas salieron mal. Sin embargo, esto es ahora una cosa común.

Una vez más: tener una larga cadena de cómputo que alimenta resultados determinados artificialmente de un paso a otro sin detenerse para respirar o mirar lo que un sensor podría estar diciendo. Pura idiotez.

Entonces, la manera por Dios ganó en Go. Es decir, el uso de enfoques numéricos en algún tipo de esquema enormemente monte carlo’d de manera secuencial como si la basura se convirtiera en verdad, como los deseos se convierten en un caballo. Y, venció a un humano. Vaya cosa. La desventaja es que la arrogancia se eleva un poco; nosotros, los humildes humanos, tenemos que mirar furtivamente para ver qué más está bajando por la pica de los grandes cerebros.

Argh, nadie más ve esto?

Se llama “diagnóstico de modelo” para la regresión lineal. Es muy complejo y merece un tratamiento independiente. Si busca esas palabras, verá los tutoriales correspondientes, combinando otras cosas como el análisis influyente.

Por cierto, si utiliza la regresión lineal en un aprendizaje automático o en un contexto de predicción pura, no es importante saber si se cumplen los supuestos del modelo. Algún “error de modelado” es aceptable siempre que el rendimiento de la predicción sea aceptable.

He trabajado con un jefe de análisis que no sabía cuáles eran (resolví irme poco después). Entonces, en la práctica, a veces se los echa de menos en los negocios reales, aunque no deberían serlo.

Creo que es porque Data Science no es realmente una estadística clásica. Siento que Data Science mezcla de estadísticas, informática, matemática numérica y otras cosas. Este enfoque tiene inconvenientes, pero la gente no puede saber y hacer todo. Tal vez las cosas cambien en el futuro.

Hay un gran curso que tomé, sobre regresión lineal, que entra en esos detalles:

Modelado lineal integral con R | Udemy

Debe pagarlo, pero es barato siempre que haya un descuento (a menudo).

Estos son extremadamente importantes, y es desafortunado que estos programas de capacitación en línea no den una visión general del modelado lineal generalizado como lo haría un curso de posgrado en estadística.

Respondiste tu pregunta. Desde mi experiencia, a nadie le importan las suposiciones.