En la regresión logística, ¿cómo encuentra el mejor límite de decisión posible algorítmicamente?

El primer paso es maximizar la función de probabilidad (log). Esto ya está implementado en cualquier software estadístico estándar que pueda estar utilizando, pero también puede maximizarlo usted mismo utilizando un método de Newton o cuasi-Newton, ya que la función se comporta bien y es cóncava.

Sus probabilidades pronosticadas serán de la forma [matemática] \ hat {p} = \ frac {e ^ {x \ beta}} {1 + e ^ {x \ beta}} = \ frac {1} {1 + e ^ {-x \ beta} [/ math], donde [math] x [/ math] es una observación y [math] \ beta [/ math] los coeficientes de regresión ajustados.

Un límite de decisión es la región donde [math] \ hat {p} \ geq p ^ *, [/ math] para algún límite [math] p ^ * [/ math]. (Podría ser natural elegir [matemática] p ^ * = 0.5 [/ matemática], pero seamos más generales porque podemos).

Entonces, queremos resolver:

[matemáticas] \ begin {align} [/ math]

[matemáticas] \ frac {1} {1 + e ^ {- x \ beta} y \ geq p ^ * \\ [/ matemáticas]

[matemáticas] 1 + e ^ {- x \ beta} y \ leq \ frac {1} {p ^ *} \\ [/ matemáticas]

[matemáticas] e ^ {- x \ beta} y \ leq \ frac {1} {p ^ *} – 1 \\ [/ matemáticas]

[matemáticas] -x \ beta y \ leq \ log (\ frac {1} {p ^ *} – 1) \\ [/ matemáticas]

[matemáticas] x \ beta y \ geq – \ log (\ frac {1} {p ^ *} – 1) \\ [/ matemáticas]

[matemáticas] \ end {alinear} [/ matemáticas]

Tenga en cuenta que el límite será lineal en los regresores, aunque siempre puede incluir términos no lineales; de hecho, este sería el caso para cualquier modelo lineal generalizado, como un probit o un logit multinomial. Tenga en cuenta que como [math] p ^ * \ rightarrow 0,1 [/ math] el RHS va a [math] – \ infty, \ infty [/ math] respectivamente. Cuando $ p ^ * = 0.5 $, el RHS es solo 0.

La forma en que elige [matemáticas] p ^ * [/ matemáticas] depende de la compensación entre falsos positivos y falsos negativos, que la respuesta de Cedric aborda muy bien de una manera que es más general que solo la configuración logística. Sin embargo, quiero agregar algunas advertencias:

  1. Hay dos formas diferentes de calcular la curva ROC: una es usar la distribución de $ \ hat {y} $ s para obtener el número esperado de verdaderos positivos y verdaderos negativos para cualquier límite dado. Otra forma más típica es utilizar sus datos reales y calcular cuántas observaciones se clasifican incorrectamente para cualquier límite. Estos pueden darle resultados diferentes, particularmente si la regresión está mal especificada, lo cual es casi siempre el caso en realidad.
  2. La curva ROC real en alguna aplicación de la vida real será una función de la distribución de [math] X [/ math] s, que puede ser diferente de la distribución de [math] X [/ math] s que usó para estimar el modelo. Si cree que este es el caso, y tiene alguna manera de adivinar cuál es la distribución específica de la aplicación de [math] X [/ math] s, entonces debe usar el primer método.
  3. Si cree que el modelo de regresión se ajusta relativamente bien y no está muy mal especificado, entonces puede renunciar a lidiar con las curvas ROC por completo y tomar una decisión utilizando un razonamiento marginal: ¿En qué [matemática] p ^ * [/ matemática] está? indiferente entre tratar algo como categoría 0 en lugar de categoría 1?

No hay una “mejor” solución. Depende del problema que estés resolviendo. Es posible que desee ponderar TPR (tasa positiva verdadera) y FPR (tasa positiva falsa) de manera diferente según su problema. Puede ser importante para usted hacerse una prueba altamente sensible.

Por ejemplo:

Si maximiza su TPR, hay una mayor probabilidad de falsos positivos. Lo que podría tener graves consecuencias si, por ejemplo, clasifica si alguien tiene una enfermedad mortal.

Aquí le mostramos cómo podría maximizar su TPR y minimizar su FPR:

Paso 1. Obtenga valores

Realice una búsqueda en la cuadrícula en la que calcule el FPR (tasa de falsos positivos) y el TPR (tasa de falsos positivos) para un rango de valores de umbral.

Paso 2. Visualiza

Visualice esto como una curva ROC donde su FPR es la especificidad y el TPR es la sensibilidad. Por ejemplo:

Querrá el punto de umbral en el que la curva es la más cercana a la esquina superior izquierda, que es donde el TPR es 1 y el FPR es 0.

Paso 3. Calcular

Elija el valor de umbral que resulte en el mayor número de TPR y el menor número de FPR.

Esto puede hacerse por:

  • minimizando la distancia euclidiana entre la curva y la esquina superior izquierda.

O

  • Maximización (TPR + FPS – 1)

More Interesting

¿Cuál es la mejor manera de comenzar con la ciencia de datos?

¿Cómo serán las oportunidades de trabajo de Big Data para una persona de TI con 1.5 años de experiencia en 2016?

¿Cuál es el equilibrio entre técnica e intuición para un científico de datos exitoso?

¿Cómo uso el aprendizaje automático para datos espaciales?

¿Es Scala una mejor opción que Python para Apache Spark en términos de rendimiento, curva de aprendizaje y facilidad de uso?

¿Cómo se utilizan los grandes datos en la industria del petróleo y el gas? La industria del petróleo y el gas ya contaba con sistemas de adquisición de datos e informes implementados para la producción y el mantenimiento. ¿Qué nivel adicional de gestión de datos proporciona Big Data?

¿Por qué no se puede usar R para escribir código de grado de producción? ¿Por qué Python no se usa también para la creación de prototipos?

Cómo detectar patrones de respuesta de opción múltiple en R

¿Qué es la intuición estadística?

¿Cómo se relacionan la regresión lineal y el descenso de gradiente? ¿Es el descenso de gradiente un tipo de regresión lineal y es similar a los mínimos cuadrados ordinarios (OLS) y los mínimos cuadrados generalizados (GLS)?

¿Cuáles son las últimas informaciones de big data?

¿Cómo sabemos qué estructura de datos es mejor para el problema simplemente observando cuidadosamente el problema?

¿Cuáles son algunas iniciativas / compañías involucradas en el uso de la ciencia de datos para combatir el crimen, principalmente el tráfico de personas?

¿Está bien incluir una variable no significativa en un modelo lineal generalizado (GLM)?

¿Cuáles son las clases de ciencias de datos más útiles para abogados?