¿Por qué utilizamos el CDF de distribución logística para calcular las probabilidades en la regresión logística?

Tiendo a no pensar en ello como un CDF en absoluto. Es una función de respuesta que tiene una alta probabilidad de un resultado positivo para entradas altas y baja para entradas bajas, y es suave. También es muy fácil de usar ya que la derivada se puede escribir en términos del valor de la función, que es muy conveniente o algoritmos de tipo gradiente-descenso.

Si desea tener una idea de por qué podría usarse un CDF aquí, esto podría ser de interés. Considere un experimento aleatorio donde el resultado esperado es 0, pero algunos individuos pueden obtener puntajes muy bajos y otros pueden obtener puntajes muy altos. Las respuestas típicas siguen la distribución logística, de hecho. Su opinión le dice cómo le va a su individuo, y está compitiendo contra algún individuo desconocido. La regresión logística le dará la probabilidad de que su individuo gane. De hecho, este es el número de sistemas de clasificación para ajedrez o Go, por ejemplo, que funcionan. Utilizan la regresión logística para modelar el resultado previsto de un solo juego, y nos permiten determinar una clasificación razonable de individuos en función de los datos de sus juegos uno contra el otro.

Aprendizaje automáticoEstadísticaRegresiónRegresión logística

¿Debo usar juicios de relevancia explícitos o comentarios de clics implícitos para recopilar datos de capacitación para construir un modelo de Aprendizaje para clasificar?

¿Hay algún kit de herramientas LSTM disponible en MATLAB?

Cómo interpretar una capa totalmente conectada como una capa convolucional para hacer predicciones densas de píxeles

¿Cuáles son algunas optativas de matemáticas avanzadas útiles para un estudiante universitario en CS (junior) que se inclina hacia el aprendizaje automático para la escuela de posgrado?

El primer avión fue inventado en 1903. El primer alunizaje fue en 1969. Dado que lo hicimos en 66 años, ¿por qué todavía no hemos puesto humanos en Marte?

¿Cuál es la diferencia entre PyTorch, Caffe y TensorFlow?

Ampliando la respuesta de Robby:

Digamos [math] Y ^ * = X’B + e [/ math], donde [math] e [/ math] se distribuye logísticamente.

Ahora modelamos [matemáticas] P (Y | X) = P (Y ^ * \ ge e) = Pr (e \ le X’B) [/ math].

[math] Pr (e \ le X’B) [/ math] es el CDF logístico.

¡Este modelo es la interpretación variable latente de la regresión logística! Distribución logística – Wikipedia

La regresión probit es muy similar a la regresión logística. La única diferencia es que supone que el término de error se distribuye normalmente, en lugar de logística. La distribución normal tiene colas más delgadas que la distribución logística.

Danny Serven

En la regresión logística, mapeamos la puntuación de un nuevo ejemplo, es decir, theta * x, donde theta el vector de parámetros de la hipótesis yx el vector de características del ejemplo, a la función de Distribución de probabilidad acumulativa logística (CDF), a través de la función Sigmoide. y de allí derivamos un número que interpretamos como la probabilidad de que ocurra la puntuación en caso de que el ejemplo se etiquete como positivo. Sin embargo, la función de distribución de probabilidad acumulativa está devolviendo la probabilidad de que la variable aleatoria X (aquí el puntaje) sea menor o igual al valor de lectura, no la probabilidad de que tenga el valor específico. Este último lo proporciona el PDF, la función de densidad de probabilidad (o masa). Entonces mi pregunta es: ¿Por qué usamos un CDF para deducir lo que proporciona el PDF?

Ioannis Metaxas

More Interesting

¿Qué sería más beneficioso para un estudiante de tercer año de ECE, hacer aprendizaje automático u otros cursos?

¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando las estadísticas en términos de relevancia? ¿Por qué o por qué no?

¿Es más probable que una máquina que no ha otorgado un premio mayor otorgue uno que una máquina que acaba de otorgar un premio mayor?

¿Cuál es la mejor manera (habitual) de combinar los puntajes tf-idf para cada documento que un usuario ha visto al crear un perfil para este usuario?

Cómo entrenar un modelo de Keras con un gran conjunto de datos y luego ajustarlo con un conjunto de datos más pequeño de interés

¿Qué computadora portátil debo comprar, la Dell XPS 15 o la MacBook pro 13 '2017 para una Maestría en Ciencias de la Computación, en los EE. UU. Con enfoque en aprendizaje automático y ciencia de datos?

¿Por qué se usa tanto el aumento de gradiente con los árboles de decisión, en lugar de con otros clasificadores?

¿Es posible crear un 'ser' inteligente (AI) no una 'máquina'?

¿Debo escribir el código de Random Forest por mi cuenta o usar implementaciones existentes?

¿Cuáles son algunas de las ventajas de usar modelos de proceso gaussianos frente a SVM?