Esta pregunta de quora despertó mi interés, así que después de una breve búsqueda encontré este artículo muy interesante de JS Cramer (2002): “Los orígenes de la regresión logística” (http://papers.tinbergen.nl/02119…)
Describe el proceso que condujo al descubrimiento de la función logística por Pieres-Francois Verhulst en el siglo XIX y cómo se utilizó inicialmente para modelar el crecimiento de la población en varios países. Se dan algunas anécdotas para describir la personalidad … verhulst ‘… excéntrica (?). Pero estoy divagando, ya que aún no hemos alcanzado nuestro objetivo de regresión logística.
Entonces, el artículo continúa describiendo cómo, un poco más tarde, en la década de 1930, se inventó el modelo probit, basado en ideas de principios de 1800 sobre cómo modelar la variabilidad en las respuestas humanas a estímulos idénticos (curiosamente, un tema planteado por astrónomos que confiaron en observadores humanos de fenómenos celestes!) Se descubrió que el modelo probit es muy agradable debido a su relación con la distribución normal, quizás la distribución más importante que siempre se muestra en todas las áreas de las estadísticas. Se encontraron aplicaciones en el estudio de bioensayos, economía e investigación de mercado. Algunos ejemplos dados en el documento: la propiedad del automóvil por antigüedad en función de los ingresos del hogar (Farrell, 1954), la voluntad de comprar encendedores a varios precios en (Adam, 1958). Pero, nuevamente, aún no hemos alcanzado la regresión logística.
- ¿Qué es la traducción automática estadística?
- ¿El bosque aleatorio funciona con variables categóricas?
- ¿Puedo usar word2vec para hacer el análisis de co-palabras?
- Cómo encontrar el contexto de una conversación usando técnicas de aprendizaje automático / aprendizaje profundo / PNL
- ¿Por qué los investigadores de IA se centran solo en problemas de regresión y clasificación?
Entonces, nuevamente, el artículo continúa describiendo cómo, finalmente, después de la Segunda Guerra Mundial, un tipo llamado Joseph Berkson publicó una serie completa de documentos que presentaban el modelo logit y cómo era superior al modelo probit. Dirigido a aplicaciones en las ciencias biométricas. Comenzó un largo debate en el mundo científico y la comunidad tardó años en darse cuenta de lo bueno que era realmente el modelo logit. Entre 1960–1970, el logit alcanzó el probit en términos de popularidad y la gente se dio cuenta de que podía usarse para algo más que el bioensayo: análisis discriminante, modelos loglineales, estudios de casos y controles, economía, epidemiología, ciencias sociales … y luego finalmente, en 1975, cuando las computadoras se volvieron lo suficientemente rápidas como para calcular rápidamente los cálculos involucrados, McKelvey y Zavoina (1975) publicaron un documento que presentaba explícitamente una ecuación de regresión latente (un modelo probit ordenado) del comportamiento de votación de los congresistas estadounidenses, un tema muy alejado de las ciencias biomédicas. Y finalmente estamos: los análisis que vinculan respuestas discretas binarias a varias covariables se conocieron como regresión logística. Desde entonces ha encontrado muchas, muchas aplicaciones en todos los campos de la ciencia.
Gracias por hacer esta pregunta, ¡realmente aprendí mucho en el proceso de responderla! A cambio espero que mi respuesta te ayude. Maarten