¿Por qué los tutoriales de regresión lineal en los sitios web de aprendizaje de ciencia de datos no discuten la necesidad de satisfacer supuestos de regresión como la linealidad o la homocedasticidad? ¿Las suposiciones de verificación rara vez se hacen en la práctica?

No todos los tutoriales de regresión están escritos por personas que realmente saben de lo que están hablando. Pero entre los que sí lo están, todavía hay razones por las que es posible que no cubras nada de esto.

Si está utilizando una regresión lineal como modelo predictivo, muchas de esas cosas realmente no importan. La única pregunta importante es qué tan bien predice. Si es lo suficientemente bueno, envíalo. Si no, bueno, hay muchas alternativas.

Es solo cuando comienza a mirar las propiedades estadísticas tradicionales de un modelo de regresión que necesita verificar los supuestos de regresión. La linealidad es importante para dar sentido a sus estimaciones. La homocedasticidad es importante si desea intervalos de confianza y pruebas de significación. Los errores correlacionados pueden hacer que las estimaciones de sus parámetros sean sesgadas.

Todos estos son temas importantes, pero no son algo que deba aprender al principio, o incluso simplemente para comenzar a hacer análisis de datos. Sin embargo, me preocuparía si alguien no está expuesto a ellos.

Aprendizaje automáticoCiencia de datosEstadísticaRegresiónRegresión lineal

Related Content

¿Existe un sitio web / lista de correo donde publican postdocs para la ciencia de datos, más aún en Europa? Definitivamente hay una lista de correo para el aprendizaje automático.

¿Cuál es el mejor método matemáticamente sólido para crear una tasa ponderada de participación en Facebook?

¿Cómo son las estadísticas generadas por los canales en los partidos de la Copa Mundial de la CCI que dicen: "India ha ganado todos sus partidos si batean primero y suman más de 270 +" / "India ha ganado todos sus partidos donde Kohli anotó> 100"?

¿Cómo se puede utilizar la asignación al azar para evaluar la independencia de las variables?

¿Qué es una certificación para un analista de big data?

¿Cuántas computadoras se pueden conectar a los enrutadores Cisco, Juniper y Rocus y por qué no se puede superar su límite?

¿Por qué Steve Jobs tenía tantas patentes cuando Gates, Page y Brin tienen como 10? Realmente no inventó nada, y no era ingeniero.

Ellos deberían. La verificación diagnóstica de los residuos por violaciones de linealidad o el supuesto de varianza constante son igualmente importantes en la construcción de modelos predictivos o modelos explicativos. Si el modelo está mal especificado, está sacrificando el rendimiento predictivo. Además, es importante tratar la varianza no constante en la construcción de intervalos de predicción (no solo intervalos de confianza).

En una división de datos de capacitación / validación estándar, es una buena práctica buscar un modelo de regresión que se ajuste adecuadamente en el conjunto de datos de capacitación que incluye iteraciones de verificación residual y modificaciones del modelo. Luego, para proceder al rendimiento del modelo en los datos de validación en comparación con los modelos de la competencia.

Honglin Yu

Ya sabes, Lotfi (Zadeh) trajo enfoques confusos. Entonces, uno podría obtener una solución si pudiera difuminar. Pero, estaba el otro lado: ¿cómo desfuzzificar?

Ahora, he estado hablando desde lejos y me acercaré. Menciono a Lotfi como el manejo de lo que entró en la caja y lo que salió de la caja es un problema que no tiene una solución general.

Oh sí, vemos soluciones en el wazoo. Pero, todo el conocimiento del marco y su aplicabilidad también es parte de los requisitos.

Entonces, desde lejos, solía decir, enséñales a algunos gerentes algunas matemáticas y ten cuidado. Ya sabes, agua corriendo cuesta arriba. Apuesto a que ML / DL / DS es solo eso.

Ah, sí, sorpréndanos con graphis (fotos). Claro, hablemos y espacios sin traer las sutilezas que nos han permitido progresar. Ya sabes. todo tipo de caminos corren a la perdición.

Necesitamos más que los pensamientos de Lotfi. El problema del “marco” se menciona, en un sentido tentativo, de vez en cuando. Haré la audaz afirmación de que se aplica en este pequeño mundo de trucos numéricos. Lo que me molestó, hasta hace unos días, fue que no estaba claro cómo hacer esto evidente.

Bueno, ahora veo cómo mencionar la discusión. Y sí, realmente no debería desperdiciarse el tiempo de la computadora en alguna búsqueda de soluciones (esta regla se rompe desde el principio) sin un marco que regrese a una base que tenga significado.

Ya sabes, era casi una ley, en un momento, no alimentar algunos resultados del proceso aguas abajo que se obtuvieron de la simulación (u otro método deslucido). La primera vez que vi eso se rompió hace una década y quedé horrorizado. Por supuesto, las cosas salieron mal. Sin embargo, esto es ahora una cosa común.

Una vez más: tener una larga cadena de cómputo que alimenta resultados determinados artificialmente de un paso a otro sin detenerse para respirar o mirar lo que un sensor podría estar diciendo. Pura idiotez.

Entonces, la manera por Dios ganó en Go. Es decir, el uso de enfoques numéricos en algún tipo de esquema enormemente monte carlo’d de manera secuencial como si la basura se convirtiera en verdad, como los deseos se convierten en un caballo. Y, venció a un humano. Vaya cosa. La desventaja es que la arrogancia se eleva un poco; nosotros, los humildes humanos, tenemos que mirar furtivamente para ver qué más está bajando por la pica de los grandes cerebros.

Argh, nadie más ve esto?

Daniel Livingston

Se llama “diagnóstico de modelo” para la regresión lineal. Es muy complejo y merece un tratamiento independiente. Si busca esas palabras, verá los tutoriales correspondientes, combinando otras cosas como el análisis influyente.

Por cierto, si utiliza la regresión lineal en un aprendizaje automático o en un contexto de predicción pura, no es importante saber si se cumplen los supuestos del modelo. Algún “error de modelado” es aceptable siempre que el rendimiento de la predicción sea aceptable.

John M. Switlik

He trabajado con un jefe de análisis que no sabía cuáles eran (resolví irme poco después). Entonces, en la práctica, a veces se los echa de menos en los negocios reales, aunque no deberían serlo.

Honglin Yu

Creo que es porque Data Science no es realmente una estadística clásica. Siento que Data Science mezcla de estadísticas, informática, matemática numérica y otras cosas. Este enfoque tiene inconvenientes, pero la gente no puede saber y hacer todo. Tal vez las cosas cambien en el futuro.

Hay un gran curso que tomé, sobre regresión lineal, que entra en esos detalles:

Modelado lineal integral con R | Udemy

Debe pagarlo, pero es barato siempre que haya un descuento (a menudo).

John M. Switlik

Estos son extremadamente importantes, y es desafortunado que estos programas de capacitación en línea no den una visión general del modelado lineal generalizado como lo haría un curso de posgrado en estadística.

Layth Alwan

Respondiste tu pregunta. Desde mi experiencia, a nadie le importan las suposiciones.

Daniel Livingston

More Interesting

¿A qué empresa debo postularme para un trabajo si soy ciudadano de la UE y quiero trabajar en los Estados Unidos?

¿Vale la pena aprender habilidades de análisis de datos después de tener 5 años de experiencia en la industria de TI?

¿Qué clasificadores de aprendizaje automático escalan muy bien a big data? ¿Hay alguna referencia de papel?

¿Cuáles son los pros y los contras de una carrera en ciencia de datos?

¿Será un buen paso cambiar de carrera de pruebas de software a científico de datos con R, Tableau y sobresalir después de 9 años de experiencia?

Cómo guardar sus datos en R

¿Qué son los patrones ocultos en big data?

¿Cuál es el salario base de un científico de datos en Airbnb?

¿Cuáles son las mejores consultoras de ciencia de datos?

¿Qué instituto es el mejor para ciencia de datos, Jigsaw Academy, Ivy Professional School, EduPristine o AnalytixLabs?

¿Cuáles son las ventajas de ser un científico de datos?

¿Cómo se pasa de ser un graduado en informática a un eventual científico de datos?

¿Qué es un desarrollador de big data?

¿Qué partes del trabajo de un científico de datos tienen menos probabilidades de ser automatizadas en el futuro?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

Web Analytics