¿Qué es el soporte y la confianza en la minería de datos?

Déjame darte un ejemplo de “minería de patrones frecuentes” en las tiendas de comestibles. Los clientes van a Walmart, tesco, Carrefour, lo que sea, y ponen todo lo que quieren en sus canastas y al final se retiran. Acordemos algunos términos aquí:

T : (Un conjunto de) Todas las transacciones que los clientes realizan y se registran en el sistema de tiendas. (Dado que la mayoría de los clientes usan tarjetas de crédito / débito, hay un número único asociado a su lista de compras).
Cesta : conjunto de todos los artículos comprados por un cliente.
Conjunto de elementos: un conjunto de elementos que nos interesan.

Ahora, supongamos que analizamos las transacciones de los clientes y nos dimos cuenta de que “muchos de ellos”, si tenían vino en sus canastas, ¡también tenían queso ! ¡Espera un minuto! ¡Esta es una información muy importante para las empresas! Pueden preguntarse, “¿cómo podemos beneficiarnos de esto?”, “¿Por qué no podemos poner queso al comienzo de un pasillo y vino al final del siguiente y poner todos los artículos tentadores que un cliente con una botella de ¡el vino puede necesitar un empujón para comprar, en el medio! ”, o“ ¿podemos enviar anuncios sobre nuestros vinos en oferta a aquellos que regularmente compran queso ! ”. Bueno, con esta cantidad de información, ¡el cielo es el límite, supongo!

Pero la pregunta que deben responder antes de volverse codiciosos es qué tan importante es un patten (o regla). ¿Cuánto es económicamente razonable para ellos invertir en esta regla? ¡Cómo pueden asegurarse de que no están gastando más de lo que planean cosechar!

Entonces, tiene que haber una manera de evaluar la importancia de una regla descubierta. Aquí viene el apoyo y la confianza . Supongamos que la regla que descubrimos es la siguiente:

[matemática] Vino → Queso [Soporte: 9 \%, Confianza: 65 \%] [/ matemática]

Soporte : es el porcentaje de transacciones en T que contienen vino y queso juntos. (El 9% de todas las canastas tenían estos 2 artículos juntos).

[matemática] soporte (A → B) = P (A \ copa B) [/ matemática]

Confianza: es el porcentaje de transacciones en T, que contienen vino , que también contienen queso . En otras palabras, la probabilidad de tener queso , dado que el vino ya está en la canasta. (El 65% de todos los que compraron vino , también compraron queso ).

[matemáticas] confianza (A → B) = P (B | A) [/ matemáticas]

Si lo piensa, aparentemente no muchos clientes tienen este conjunto de artículos ( vino y queso ) en sus canastas (solo el 9%), sin embargo, si van por el vino , es algo probable (65%) que también lo hagan por ¡queso! Esto significa que si tenemos alguna oferta para nuestros productos de queso, definitivamente debemos informar a los compradores de vino , ya que son los mejores compradores potenciales.

Análisis deCiencia de datosdatosMinería de