¿Por qué se usa la regresión logística con tanta frecuencia en la ciencia de datos?

Hay un montón de buenos ejemplos de la necesidad de predecir un resultado binario. Dejemos eso de lado. La pregunta es: ¿por qué la regresión logística sobre cualquier número de otros métodos: máquinas de vectores de soporte, redes neuronales, bahías ingenuas, etc.

Primero, señalaré que si uno especifica la transformación correcta de X, el conjunto de predictores, entonces la regresión logística será tan buena o mejor que cualquier método competitivo. Ahora, uno todavía tiene que descubrir la transformación correcta de X. Más sobre eso más adelante.

En segundo lugar, si el modelo estadístico construido se va a poner en producción, los modelos de regresión logística ofrecen una forma de ponerlos en el código de la computadora utilizando funciones directas como +, *, log, etc. Para que un científico de datos pueda poner la ecuación matemática en sistema con relativa facilidad.

Ahora, resulta que obtener la transformación correcta de X se puede lograr más fácilmente usando técnicas de modelado alternativas, como redes neuronales, refuerzo o bosques aleatorios. Para mí, cuando necesito poner un modelo en producción rápidamente con un simple código de computadora, primero construiré el mejor modelo fuera de la regresión logística, descubriré la transformación de X, transformaré X y luego construiré mi modelo final en regresión logística .

Como nota final, la regresión logística a veces se usa porque fue la primera técnica de modelado en el bloque y las personas> 10 años atrás se acostumbraron a esa técnica. Sé que esto es muy cierto en las finanzas de consumo donde los tomadores de decisiones lo usan porque no se sienten cómodos con (es decir, ignoran) otras técnicas.

Es extremadamente bien entendido. No solo cómo interpretar sus resultados, sino también cómo calcular los resultados con precisión. También se puede usar fácilmente tanto para problemas de estimación de parámetros (problemas científicos en los que no le importa el tren / prueba) como para problemas de predicción donde se puede usar la regularización L2 / L1 y tiene algunas interpretaciones realmente útiles. Y también tiene una generalización muy fácil de digerir para la regresión multinomial, a diferencia de otros clasificadores famosos. Puede ser kernelized y funciona bastante bien en mi experiencia, tanto desde un punto de vista teórico como práctico.

Algunas ventajas:
1. Tiende a dar predicciones calibradas. Entonces, si toma todos los ejemplos donde P (Y = 1 | X)> 0.95, aproximadamente el 95% de ellos será Y = 1. Naive Bayes generalmente no está calibrado.
2. Dado que el gradiente es escaso (o tiene una aproximación escasa en el caso regularizado), es una buena opción para dominios con características dispersas, como NLP.
3. El descenso de gradiente estocástico se escala muy bien para conjuntos de datos de tamaño mediano, aunque el escalado de múltiples máquinas es difícil.

En general, creo que las redes neuronales con una activación softmax son mejores que la regresión logística y tienen las mismas propiedades agradables.

Se usa cuando los científicos estudian resultados binarios. Supongo que los científicos de datos a menudo estudian preguntas donde solo hay dos resultados.

Creo que esta es la forma más simple de resultado que existe. Si hay más de dos categorías, o si el resultado puede medirse en una escala continua, entonces debe pensar un poco más sobre lo que significan los resultados de su análisis.

Los seres humanos tienen prejuicios para pensar en las cosas en cualquiera de los dos términos. Es ésto o lo otro. Si o no. A medida que nos volvemos más sofisticados, comenzamos a pensar en otras opciones y gradaciones entre sí y no. Pero la forma más simple de análisis es limitar las opciones estudiadas a dos. Por supuesto, la regresión logística no es la herramienta más fácil de aprender.

Solo para agregar: la regresión logística es fácil de operar en entornos del mundo real. Hay muchos paquetes y bibliotecas disponibles en varios idiomas para implementar la regresión logística. Algunas de estas bibliotecas están muy optimizadas y son muy rápidas, lo que le evita reinventar la rueda.

Hay muchos datos de respuesta binaria y ahora es relativamente fácil de estimar. Más allá de eso, hay algunos teoremas que muestran que es un caso límite sensible cuando no se sabe mucho, ya que termina siendo un clasificador de entropía máximo. En algunas disciplinas así se llama.

En algunas disciplinas se usa en exceso. Las variables continuas generalmente no deben ser dicotomizadas y luego analizadas por regresión logística. La pérdida de información está marcada.

More Interesting

¿Dónde puedo hacer capacitación en línea de ciencia de datos?

¿Sería difícil hacer una aplicación que tome fotos de partituras y las reproduzca en el instrumento elegido?

En la regresión logística, ¿cómo encuentra el mejor límite de decisión posible algorítmicamente?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

¿Existe una relación entre la compresión de datos y la optimización del código?

Cómo aplicar la ciencia de datos a la industria energética / minera

¿Cuáles son las alternativas a los cursos como Big Data?

¿Cuáles son los mejores campos de arranque de ciencia de datos en términos de inserción laboral?

Quería obtener el certificado de ciencia de datos de Harvard. ¿Las materias enseñadas en este curso de certificación sientan una base sólida requerida para cambiar de carrera a la corriente de la ciencia de datos?

¿Cuáles son algunos ejemplos del mundo real en los que la ciencia de datos se usa con la teoría de juegos?

Cómo conseguir un trabajo en el campo del aprendizaje automático o la ciencia de datos en India si soy muy bueno en 3 lenguajes de programación y algoritmos

Cómo decidir qué datos recopilar al construir un modelo predictivo

¿Es el análisis de series temporales multivariantes un campo de estudio popular? ¿Qué es un buen libro para series de tiempo multivariadas?

¿Cuáles son los problemas con big data?

¿Cuáles son las desventajas de hacer una investigación utilizando datos de registros de salud electrónicos anónimos?