El primer paso es maximizar la función de probabilidad (log). Esto ya está implementado en cualquier software estadístico estándar que pueda estar utilizando, pero también puede maximizarlo usted mismo utilizando un método de Newton o cuasi-Newton, ya que la función se comporta bien y es cóncava.
Sus probabilidades pronosticadas serán de la forma [matemática] \ hat {p} = \ frac {e ^ {x \ beta}} {1 + e ^ {x \ beta}} = \ frac {1} {1 + e ^ {-x \ beta} [/ math], donde [math] x [/ math] es una observación y [math] \ beta [/ math] los coeficientes de regresión ajustados.
Un límite de decisión es la región donde [math] \ hat {p} \ geq p ^ *, [/ math] para algún límite [math] p ^ * [/ math]. (Podría ser natural elegir [matemática] p ^ * = 0.5 [/ matemática], pero seamos más generales porque podemos).
- Hay tantas cosas en Python. ¿Qué conceptos necesito saber para el análisis de datos?
- ¿Qué queremos decir cuando usamos la palabra ruido en ciencia de datos y estadística?
- ¿El éxito del aprendizaje profundo es una noticia falsa?
- ¿Cuál es el mejor instituto en India para la ciencia de datos y análisis de negocios?
- ¿AlphaGo Zero amenaza el campo de la ciencia de datos ya que Zero no necesita capacitación y análisis de big data?
Entonces, queremos resolver:
[matemáticas] \ begin {align} [/ math]
[matemáticas] \ frac {1} {1 + e ^ {- x \ beta} y \ geq p ^ * \\ [/ matemáticas]
[matemáticas] 1 + e ^ {- x \ beta} y \ leq \ frac {1} {p ^ *} \\ [/ matemáticas]
[matemáticas] e ^ {- x \ beta} y \ leq \ frac {1} {p ^ *} – 1 \\ [/ matemáticas]
[matemáticas] -x \ beta y \ leq \ log (\ frac {1} {p ^ *} – 1) \\ [/ matemáticas]
[matemáticas] x \ beta y \ geq – \ log (\ frac {1} {p ^ *} – 1) \\ [/ matemáticas]
[matemáticas] \ end {alinear} [/ matemáticas]
Tenga en cuenta que el límite será lineal en los regresores, aunque siempre puede incluir términos no lineales; de hecho, este sería el caso para cualquier modelo lineal generalizado, como un probit o un logit multinomial. Tenga en cuenta que como [math] p ^ * \ rightarrow 0,1 [/ math] el RHS va a [math] – \ infty, \ infty [/ math] respectivamente. Cuando $ p ^ * = 0.5 $, el RHS es solo 0.
La forma en que elige [matemáticas] p ^ * [/ matemáticas] depende de la compensación entre falsos positivos y falsos negativos, que la respuesta de Cedric aborda muy bien de una manera que es más general que solo la configuración logística. Sin embargo, quiero agregar algunas advertencias:
- Hay dos formas diferentes de calcular la curva ROC: una es usar la distribución de $ \ hat {y} $ s para obtener el número esperado de verdaderos positivos y verdaderos negativos para cualquier límite dado. Otra forma más típica es utilizar sus datos reales y calcular cuántas observaciones se clasifican incorrectamente para cualquier límite. Estos pueden darle resultados diferentes, particularmente si la regresión está mal especificada, lo cual es casi siempre el caso en realidad.
- La curva ROC real en alguna aplicación de la vida real será una función de la distribución de [math] X [/ math] s, que puede ser diferente de la distribución de [math] X [/ math] s que usó para estimar el modelo. Si cree que este es el caso, y tiene alguna manera de adivinar cuál es la distribución específica de la aplicación de [math] X [/ math] s, entonces debe usar el primer método.
- Si cree que el modelo de regresión se ajusta relativamente bien y no está muy mal especificado, entonces puede renunciar a lidiar con las curvas ROC por completo y tomar una decisión utilizando un razonamiento marginal: ¿En qué [matemática] p ^ * [/ matemática] está? indiferente entre tratar algo como categoría 0 en lugar de categoría 1?