Está tratando de estimar la función que relaciona el porcentaje de calvicie con la tasa de compra, en función de un número finito de muestras con porcentajes de calvicie particulares.
A medida que su pregunta y el ir y venir de la otra respuesta lleguen, no hay una solución que no requiera elecciones “arbitrarias” (el depósito es una de esas opciones) sobre qué formas de la función están permitidas, o más o menos probablemente a priori .
Simplifiquemos el problema: en lugar de muestras finitas, supongamos que tiene una certeza completa en cuanto a la velocidad en algunas ubicaciones a lo largo del eje x:
- ¿Debo demostrar la mayoría de los teoremas en los libros de texto de matemáticas al aprender? (Lea los detalles).
- ¿Qué es un gráfico bipartito?
- ¿Cómo funciona la fórmula para el bit de ajuste más a la derecha?
- ¿Por qué 0 ^ 0 es igual a 1 en el estándar IEEE 754 aunque no tiene sentido?
- Teoría de la complejidad computacional: ¿Hay conjeturas famosas que alguna vez se creyeron firmemente que eran ciertas pero que luego se demostraron falsas?
- Usted sabe con certeza que las personas que tienen un 0% de calvicie tienen un 0% de probabilidad de comprar su producto.
- Las personas que son 100% calvas tienen un 100% de probabilidad de comprar el producto.
- y las personas que tienen un 50% de calvicie tienen un 30% de probabilidad de comprar el producto.
Ahora quiere responder, ¿cuál es la tasa a la que las personas que tienen un 75% de calvicie comprarán el producto? Incluso en este caso simplificado, no hay una respuesta única a esta pregunta que no requiera elecciones “arbitrarias” sobre la forma de la función.
Volviendo al problema real, una solución totalmente general podría ser algo como esto: hay algún proceso aleatorio que produjo la función. Tenía cierta probabilidad de elegir funciones de varias formas, digamos, cualquier polinomio de quinto orden, o cualquier función constante por partes con 5 piezas del mismo tamaño (cinco cubos). Cada función tenía alguna probabilidad a priori de ser elegida. Tenemos que elegir estas probabilidades “a priori” “arbitrariamente”, o al menos fuera del contexto de este experimento.
Ahora recolectamos muestras limitadas de la función, por ejemplo, teníamos un tipo con un 37% de calvicie que no compró, y un tipo con un 92% de calvicie que compró, y un tipo con un 41% de calvicie que compró.
Podemos calcular inequívocamente, para cada función posible, ¿cuál es la probabilidad de que produzca la observación que vimos? Una o más de esas funciones tendrán la mayor probabilidad de haber producido nuestra observación. Podemos llamar a eso la “estimación de máxima verosimilitud”.
Usando esas probabilidades “previas” (la posibilidad de que nuestro proceso haya elegido cada función), podemos darle la vuelta y también calcular sin ambigüedades: dada la observación que vimos, ¿cuál es la probabilidad de que la función fuera posible? Una o más de esas funciones tendrán la mayor probabilidad. Podemos llamar a eso la “estimación de probabilidad máxima a posteriori”. Este tipo de procedimiento generalmente se llama “inferencia bayesiana”.
También podemos calcular una región de las funciones que juntas tienen una cierta probabilidad de contener la función verdadera, digamos, 95%. Llamaríamos a esta región un “intervalo de credibilidad”. Si no tiene muchas muestras, el intervalo puede ser bastante amplio; podría decirse que esto es apropiado si no tiene muchos datos.
Según tengo entendido, la otra respuesta sugiere que limite su proceso a considerar solo las funciones logísticas y luego elija la estimación de máxima verosimilitud. Es un procedimiento válido que en teoría no es más o menos arbitrario que cualquier otro. Ciertamente puede agregar más formas de funciones posibles y algunas anteriores y luego elegir el máximo estimado a posteriori también.
Si usted sabe a priori que la función es monótona, el simple bucketing (antes de que la función sea una función constante por partes con 5 piezas de igual forma) no representaría esa creencia. Lo mismo si crees que la función es suave. Es por eso que puedes elegir un modelo diferente.