¿Por qué se usa la regresión logística con tanta frecuencia en la ciencia de datos?

Hay un montón de buenos ejemplos de la necesidad de predecir un resultado binario. Dejemos eso de lado. La pregunta es: ¿por qué la regresión logística sobre cualquier número de otros métodos: máquinas de vectores de soporte, redes neuronales, bahías ingenuas, etc.

Primero, señalaré que si uno especifica la transformación correcta de X, el conjunto de predictores, entonces la regresión logística será tan buena o mejor que cualquier método competitivo. Ahora, uno todavía tiene que descubrir la transformación correcta de X. Más sobre eso más adelante.

En segundo lugar, si el modelo estadístico construido se va a poner en producción, los modelos de regresión logística ofrecen una forma de ponerlos en el código de la computadora utilizando funciones directas como +, *, log, etc. Para que un científico de datos pueda poner la ecuación matemática en sistema con relativa facilidad.

Ahora, resulta que obtener la transformación correcta de X se puede lograr más fácilmente usando técnicas de modelado alternativas, como redes neuronales, refuerzo o bosques aleatorios. Para mí, cuando necesito poner un modelo en producción rápidamente con un simple código de computadora, primero construiré el mejor modelo fuera de la regresión logística, descubriré la transformación de X, transformaré X y luego construiré mi modelo final en regresión logística .

Como nota final, la regresión logística a veces se usa porque fue la primera técnica de modelado en el bloque y las personas> 10 años atrás se acostumbraron a esa técnica. Sé que esto es muy cierto en las finanzas de consumo donde los tomadores de decisiones lo usan porque no se sienten cómodos con (es decir, ignoran) otras técnicas.

Aprendizaje automáticoCiencia de datosEstadística (disciplina académica)Regresión (estadística)Regresión logística

¿Cuáles son algunos ejemplos específicos donde el análisis de datos topológicos (TDA) supera los puntos de referencia estándar de la industria en datos disponibles públicamente?

Deep Learning se implementa principalmente en big data. ¿Qué piensa sobre usarlo en datos con muestras limitadas pero de altas dimensiones como fMRI?

¿Cómo podemos crecer programadores principiantes como ciencia de datos profesional durante unos meses?

¿Qué partes del trabajo de un científico de datos tienen menos probabilidades de ser automatizadas en el futuro?

Estoy en mi último año de ingeniería mecánica y me colocaron en una empresa de análisis. No tengo muchos conocimientos técnicos en el campo, pero la superficie me parece fascinante. ¿Cómo puedo saber si la ciencia de datos es mi nicho?

¿Qué oportunidades de carrera en ciencia de datos y aprendizaje automático existen en la NASA?

Es extremadamente bien entendido. No solo cómo interpretar sus resultados, sino también cómo calcular los resultados con precisión. También se puede usar fácilmente tanto para problemas de estimación de parámetros (problemas científicos en los que no le importa el tren / prueba) como para problemas de predicción donde se puede usar la regularización L2 / L1 y tiene algunas interpretaciones realmente útiles. Y también tiene una generalización muy fácil de digerir para la regresión multinomial, a diferencia de otros clasificadores famosos. Puede ser kernelized y funciona bastante bien en mi experiencia, tanto desde un punto de vista teórico como práctico.

Jay Verkuilen

Algunas ventajas:
1. Tiende a dar predicciones calibradas. Entonces, si toma todos los ejemplos donde P (Y = 1 | X)> 0.95, aproximadamente el 95% de ellos será Y = 1. Naive Bayes generalmente no está calibrado.
2. Dado que el gradiente es escaso (o tiene una aproximación escasa en el caso regularizado), es una buena opción para dominios con características dispersas, como NLP.
3. El descenso de gradiente estocástico se escala muy bien para conjuntos de datos de tamaño mediano, aunque el escalado de múltiples máquinas es difícil.

En general, creo que las redes neuronales con una activación softmax son mejores que la regresión logística y tienen las mismas propiedades agradables.

Jay Verkuilen

Se usa cuando los científicos estudian resultados binarios. Supongo que los científicos de datos a menudo estudian preguntas donde solo hay dos resultados.

Creo que esta es la forma más simple de resultado que existe. Si hay más de dos categorías, o si el resultado puede medirse en una escala continua, entonces debe pensar un poco más sobre lo que significan los resultados de su análisis.

Los seres humanos tienen prejuicios para pensar en las cosas en cualquiera de los dos términos. Es ésto o lo otro. Si o no. A medida que nos volvemos más sofisticados, comenzamos a pensar en otras opciones y gradaciones entre sí y no. Pero la forma más simple de análisis es limitar las opciones estudiadas a dos. Por supuesto, la regresión logística no es la herramienta más fácil de aprender.

Steven Dillard

Solo para agregar: la regresión logística es fácil de operar en entornos del mundo real. Hay muchos paquetes y bibliotecas disponibles en varios idiomas para implementar la regresión logística. Algunas de estas bibliotecas están muy optimizadas y son muy rápidas, lo que le evita reinventar la rueda.

Peter Flom

Hay muchos datos de respuesta binaria y ahora es relativamente fácil de estimar. Más allá de eso, hay algunos teoremas que muestran que es un caso límite sensible cuando no se sabe mucho, ya que termina siendo un clasificador de entropía máximo. En algunas disciplinas así se llama.

En algunas disciplinas se usa en exceso. Las variables continuas generalmente no deben ser dicotomizadas y luego analizadas por regresión logística. La pérdida de información está marcada.

Steven Dillard

More Interesting

¿Dónde puedo hacer capacitación en línea de ciencia de datos?

¿Sería difícil hacer una aplicación que tome fotos de partituras y las reproduzca en el instrumento elegido?

En la regresión logística, ¿cómo encuentra el mejor límite de decisión posible algorítmicamente?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

¿Existe una relación entre la compresión de datos y la optimización del código?

Cómo aplicar la ciencia de datos a la industria energética / minera

¿Cuáles son las alternativas a los cursos como Big Data?

¿Cuáles son los mejores campos de arranque de ciencia de datos en términos de inserción laboral?

Quería obtener el certificado de ciencia de datos de Harvard. ¿Las materias enseñadas en este curso de certificación sientan una base sólida requerida para cambiar de carrera a la corriente de la ciencia de datos?

¿Cuáles son algunos ejemplos del mundo real en los que la ciencia de datos se usa con la teoría de juegos?