¿Qué ventajas tiene el análisis de regresión múltiple sobre métodos de aprendizaje automático más sofisticados?

Dado que esta pregunta es acerca de la regresión lineal en el contexto del aprendizaje automático, voy a asumir que la preocupación es la precisión predictiva.

Incluso si ignoramos la interpretabilidad, la regresión lineal tiene ventajas. Es decir, la regresión lineal puede vencer a métodos más potentes cuando se trata de extrapolación, como en ciertos casos de pronóstico u otros problemas en los que necesita generalizar mucho más allá del rango del espacio de entrada de sus datos de entrenamiento. Por supuesto, este es un problema difícil para todos los métodos estadísticos, pero una regresión lineal bien especificada que captura el proceso de generación de datos subyacente hará un mejor trabajo en la extrapolación que un método de caja negra la mayor parte del tiempo.

Por alguna razón, la extrapolación parece ignorarse en gran medida como un problema en la ML moderna, probablemente porque es demasiado difícil. Hay algunas investigaciones sobre el uso de redes neuronales para la extrapolación y el pronóstico de series de tiempo, pero no se usa mucho en la práctica.

Cómo comenzar a estudiar neurociencia computacional

¿Cómo puede un estudiante de CS en su segundo año de ingeniería (en una universidad de nivel 3) encontrar su dominio / área de interés en ciencias de la computación?

¿Qué puedo hacer para reducir el correo electrónico no deseado que he recibido últimamente? Más información en comentarios.

¿Por qué necesitamos aprendizaje automático?

¿Cuál es la relación entre Big Data, Cloud computing y NOSQL?

¿Es la inteligencia biológica una máquina de Turing, o más bien un superconjunto de máquinas de Turing?

La gran respuesta es que un modelo de regresión es directamente interpretable . Es realmente fácil obtener ideas de un modelo de regresión sobre cómo cambiar sus estrategias comerciales. Es decir, a veces puede obtener más información procesable de un modelo de regresión que, por ejemplo, una red neuronal. Esta es la razón por la cual los economometristas usan modelos de regresión: quieren ver cómo los cambios en una entrada afectan a una salida.

Una respuesta secundaria es que las predicciones de un modelo de regresión son más fáciles de vender que las de un modelo de caja negra. Esto se debe a que un modelo de regresión es fácilmente explicable. Cualquiera que haya estado en una habitación llena de ejecutivos que no se sientan cómodos con la externalización de su toma de decisiones a un programa de computadora puede decirle lo importante que puede ser explicar un modelo y cómo funciona. Contrariamente a la creencia popular, los ejecutivos a menudo no están encantados de tomar el “mejor” modelo en términos de capacidad predictiva.

Una consideración terciaria es que los modelos de regresión son computacionalmente baratos y extremadamente rápidos . Especialmente cuando está ejecutando datos a través de un modelo millones (o más) de veces al día, estas diferencias de velocidad se suman a dólares y centavos reales. Si un modelo sofisticado de aprendizaje automático solo está arrojando un resultado marginalmente mejor que un modelo de regresión, pero su ejecución cuesta veinte veces más, entonces tengo que hacer un análisis de costo beneficio para determinar con cuál ir realmente en la producción.

Los modelos de regresión no irán a ninguna parte pronto.

Jacob Joseph

1. simplicidad
(Principio de KISS: Keep It Simple Stupid)
2. Control y maleabilidad.
(¿Puede afectar directamente los resultados ajustando algún parámetro?)
3. Reproducibilidad y naturaleza determinista.
(Cualquier sistema de producción debe ser bastante consistente. La naturaleza determinista lo garantiza en buena medida)

Si a la gente le gusta mi respuesta, probaría que les gustan las respuestas más simples.

Peter Flom

Muchas preguntas de Quora se refieren al aprendizaje automático. ¿Esto significa que los gráficos de computadora son obsoletos? Después de todo, el aprendizaje automático es una cosa que aprende en los cursos de CS, y los gráficos por computadora son otra.

Las ingenuas Bayes, K vecinos más cercanos y las máquinas de vectores de soporte son todas técnicas de clasificación. * Se usan cuando los resultados (variables dependientes) son binarios o algún otro conjunto limitado de valores. En esta foto, ¿es este píxel parte de una cara? ¿Es probable que esta persona vote en las próximas elecciones? ¿Esta máquina fallará antes de que expire el período de garantía? Esa clase de cosas.

La regresión lineal (ya sea simple o múltiple) se usa cuando los resultados son variables continuas. ¿Cuánto dinero gastará esta persona el próximo mes? ¿Cuántos puntos anotará este jugador en la próxima temporada de baloncesto? Esa clase de cosas.

Entonces no, no es que los modelos lineales sean “obsoletos”. Simplemente se adaptan a un tipo diferente de variable dependiente y, por lo tanto, a un tipo diferente de problema, que las técnicas de clasificación.

* La salida de la regresión logística es la probabilidad de que cada entrada esté en la categoría X, que no es estrictamente una técnica de clasificación, pero sigue siendo bastante útil para clasificar cosas. Tenga en cuenta que la matemática “bajo el capó” para el modelo logit es más o menos un modelo de regresión lineal, con los datos transformados a la función logística.

Peter Flom

La regresión múltiple puede volverse obsoleta, pero no se debe a SVM, K-NN, Naive Bayes o regresión logística. SVM y K-NN realmente no crean modelos, la regresión logística es para un tipo diferente de variable dependiente.

Los métodos estadísticos pueden ser tanto explicativos como de predicción. Los métodos de “caja negra” proporcionan muy poca explicación. También son poco conocidos y, a menudo, difíciles de interpretar. La regresión múltiple es buena en todos esos.

Pero debe reemplazarse, con bastante frecuencia, por métodos de regresión cuantil, regresión spline y regresión robusta.

Abhijit Oka

En términos simples, el aprendizaje automático es más adecuado para responder ‘qué’ o precisión mejor, mientras que las estadísticas son más adecuadas para responder ‘por qué’ o factores que conducen a la predicción.

Por ejemplo: puede construir una red neuronal sofisticada para predecir el precio de una acción y, al mismo tiempo, usar un modelo de regresión múltiple para predecir lo mismo. Es muy probable que la red neuronal sea mejor en precisión pero la regresión múltiple es mejor para explicar los factores que afectan el precio de las acciones.

Dependiendo de su objetivo de construir un modelo predictivo, puede elegir entre las técnicas.

Jacob Joseph

More Interesting

¿Cómo hacen los softwares OBD-ll?

¿Cómo mostraban las computadoras letras y formas antes de las pantallas de mapa de bits?

¿Cuáles son algunas formas comunes en que el hardware se daña en una computadora?

Para la Universidad de Purdue, ¿debo hacer Ciencias de la Computación o Ciberseguridad si planeo hacer Ciberseguridad después de la universidad?

Cómo ver las pruebas de software en los próximos 5 años

Deseo recibir notificaciones push en mi computadora con Windows 7. ¿Qué software me puede ayudar a lograr esto?

¿Por qué una CPU necesita tener una unidad separada para calcular puntos flotantes?

Informática: ¿De dónde viene la frase 'Roll your own' y por qué se usa en CS?

¿Qué razones existen para estudiar ingeniería de control? ¿Qué pueden hacer los ingenieros de control con su conocimiento?