¿Por qué utilizamos el CDF de distribución logística para calcular las probabilidades en la regresión logística?

Tiendo a no pensar en ello como un CDF en absoluto. Es una función de respuesta que tiene una alta probabilidad de un resultado positivo para entradas altas y baja para entradas bajas, y es suave. También es muy fácil de usar ya que la derivada se puede escribir en términos del valor de la función, que es muy conveniente o algoritmos de tipo gradiente-descenso.

Si desea tener una idea de por qué podría usarse un CDF aquí, esto podría ser de interés. Considere un experimento aleatorio donde el resultado esperado es 0, pero algunos individuos pueden obtener puntajes muy bajos y otros pueden obtener puntajes muy altos. Las respuestas típicas siguen la distribución logística, de hecho. Su opinión le dice cómo le va a su individuo, y está compitiendo contra algún individuo desconocido. La regresión logística le dará la probabilidad de que su individuo gane. De hecho, este es el número de sistemas de clasificación para ajedrez o Go, por ejemplo, que funcionan. Utilizan la regresión logística para modelar el resultado previsto de un solo juego, y nos permiten determinar una clasificación razonable de individuos en función de los datos de sus juegos uno contra el otro.

Ampliando la respuesta de Robby:

Digamos [math] Y ^ * = X’B + e [/ math], donde [math] e [/ math] se distribuye logísticamente.

Ahora modelamos [matemáticas] P (Y | X) = P (Y ^ * \ ge e) = Pr (e \ le X’B) [/ math].

[math] Pr (e \ le X’B) [/ math] es el CDF logístico.

¡Este modelo es la interpretación variable latente de la regresión logística! Distribución logística – Wikipedia

La regresión probit es muy similar a la regresión logística. La única diferencia es que supone que el término de error se distribuye normalmente, en lugar de logística. La distribución normal tiene colas más delgadas que la distribución logística.

En la regresión logística, mapeamos la puntuación de un nuevo ejemplo, es decir, theta * x, donde theta el vector de parámetros de la hipótesis yx el vector de características del ejemplo, a la función de Distribución de probabilidad acumulativa logística (CDF), a través de la función Sigmoide. y de allí derivamos un número que interpretamos como la probabilidad de que ocurra la puntuación en caso de que el ejemplo se etiquete como positivo. Sin embargo, la función de distribución de probabilidad acumulativa está devolviendo la probabilidad de que la variable aleatoria X (aquí el puntaje) sea menor o igual al valor de lectura, no la probabilidad de que tenga el valor específico. Este último lo proporciona el PDF, la función de densidad de probabilidad (o masa). Entonces mi pregunta es: ¿Por qué usamos un CDF para deducir lo que proporciona el PDF?

More Interesting

¿Qué sería más beneficioso para un estudiante de tercer año de ECE, hacer aprendizaje automático u otros cursos?

¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando las estadísticas en términos de relevancia? ¿Por qué o por qué no?

¿Es más probable que una máquina que no ha otorgado un premio mayor otorgue uno que una máquina que acaba de otorgar un premio mayor?

¿Cuál es la mejor manera (habitual) de combinar los puntajes tf-idf para cada documento que un usuario ha visto al crear un perfil para este usuario?

Cómo entrenar un modelo de Keras con un gran conjunto de datos y luego ajustarlo con un conjunto de datos más pequeño de interés

¿Qué computadora portátil debo comprar, la Dell XPS 15 o la MacBook pro 13 '2017 para una Maestría en Ciencias de la Computación, en los EE. UU. Con enfoque en aprendizaje automático y ciencia de datos?

¿Por qué se usa tanto el aumento de gradiente con los árboles de decisión, en lugar de con otros clasificadores?

¿Es posible crear un 'ser' inteligente (AI) no una 'máquina'?

¿Debo escribir el código de Random Forest por mi cuenta o usar implementaciones existentes?

¿Cuáles son algunas de las ventajas de usar modelos de proceso gaussianos frente a SVM?

¿Hay algún conjunto de datos o API que proporcione una lista de palabras poco frecuentes?

¿Cuáles son las mejores empresas de minería de datos?

¿Cuáles son los beneficios del filtrado colaborativo?

¿Por qué usar Kohonen SOMs sobre K-means, o viceversa?

¿Cuál es la diferencia entre el aprendizaje automático y la forma en que Kepler obtuvo las leyes de Kepler?