¿Cómo calculo la probabilidad de que alguien compre mi spray de calvicie? La tecnología cambia la vida futura

Está tratando de estimar la función que relaciona el porcentaje de calvicie con la tasa de compra, en función de un número finito de muestras con porcentajes de calvicie particulares.

A medida que su pregunta y el ir y venir de la otra respuesta lleguen, no hay una solución que no requiera elecciones “arbitrarias” (el depósito es una de esas opciones) sobre qué formas de la función están permitidas, o más o menos probablemente a priori .

Simplifiquemos el problema: en lugar de muestras finitas, supongamos que tiene una certeza completa en cuanto a la velocidad en algunas ubicaciones a lo largo del eje x:

Usted sabe con certeza que las personas que tienen un 0% de calvicie tienen un 0% de probabilidad de comprar su producto.
Las personas que son 100% calvas tienen un 100% de probabilidad de comprar el producto.
y las personas que tienen un 50% de calvicie tienen un 30% de probabilidad de comprar el producto.

Ahora quiere responder, ¿cuál es la tasa a la que las personas que tienen un 75% de calvicie comprarán el producto? Incluso en este caso simplificado, no hay una respuesta única a esta pregunta que no requiera elecciones “arbitrarias” sobre la forma de la función.

Volviendo al problema real, una solución totalmente general podría ser algo como esto: hay algún proceso aleatorio que produjo la función. Tenía cierta probabilidad de elegir funciones de varias formas, digamos, cualquier polinomio de quinto orden, o cualquier función constante por partes con 5 piezas del mismo tamaño (cinco cubos). Cada función tenía alguna probabilidad a priori de ser elegida. Tenemos que elegir estas probabilidades “a priori” “arbitrariamente”, o al menos fuera del contexto de este experimento.

Ahora recolectamos muestras limitadas de la función, por ejemplo, teníamos un tipo con un 37% de calvicie que no compró, y un tipo con un 92% de calvicie que compró, y un tipo con un 41% de calvicie que compró.

Podemos calcular inequívocamente, para cada función posible, ¿cuál es la probabilidad de que produzca la observación que vimos? Una o más de esas funciones tendrán la mayor probabilidad de haber producido nuestra observación. Podemos llamar a eso la “estimación de máxima verosimilitud”.

Usando esas probabilidades “previas” (la posibilidad de que nuestro proceso haya elegido cada función), podemos darle la vuelta y también calcular sin ambigüedades: dada la observación que vimos, ¿cuál es la probabilidad de que la función fuera posible? Una o más de esas funciones tendrán la mayor probabilidad. Podemos llamar a eso la “estimación de probabilidad máxima a posteriori”. Este tipo de procedimiento generalmente se llama “inferencia bayesiana”.

También podemos calcular una región de las funciones que juntas tienen una cierta probabilidad de contener la función verdadera, digamos, 95%. Llamaríamos a esta región un “intervalo de credibilidad”. Si no tiene muchas muestras, el intervalo puede ser bastante amplio; podría decirse que esto es apropiado si no tiene muchos datos.

Según tengo entendido, la otra respuesta sugiere que limite su proceso a considerar solo las funciones logísticas y luego elija la estimación de máxima verosimilitud. Es un procedimiento válido que en teoría no es más o menos arbitrario que cualquier otro. Ciertamente puede agregar más formas de funciones posibles y algunas anteriores y luego elegir el máximo estimado a posteriori también.

Si usted sabe a priori que la función es monótona, el simple bucketing (antes de que la función sea una función constante por partes con 5 piezas de igual forma) no representaría esa creencia. Lo mismo si crees que la función es suave. Es por eso que puedes elegir un modelo diferente.