¿Qué es el soporte y la confianza en la minería de datos?

Déjame darte un ejemplo de “minería de patrones frecuentes” en las tiendas de comestibles. Los clientes van a Walmart, tesco, Carrefour, lo que sea, y ponen todo lo que quieren en sus canastas y al final se retiran. Acordemos algunos términos aquí:

  • T : (Un conjunto de) Todas las transacciones que los clientes realizan y se registran en el sistema de tiendas. (Dado que la mayoría de los clientes usan tarjetas de crédito / débito, hay un número único asociado a su lista de compras).
  • Cesta : conjunto de todos los artículos comprados por un cliente.
  • Conjunto de elementos: un conjunto de elementos que nos interesan.

Ahora, supongamos que analizamos las transacciones de los clientes y nos dimos cuenta de que “muchos de ellos”, si tenían vino en sus canastas, ¡también tenían queso ! ¡Espera un minuto! ¡Esta es una información muy importante para las empresas! Pueden preguntarse, “¿cómo podemos beneficiarnos de esto?”, “¿Por qué no podemos poner queso al comienzo de un pasillo y vino al final del siguiente y poner todos los artículos tentadores que un cliente con una botella de ¡el vino puede necesitar un empujón para comprar, en el medio! ”, o“ ¿podemos enviar anuncios sobre nuestros vinos en oferta a aquellos que regularmente compran queso ! ”. Bueno, con esta cantidad de información, ¡el cielo es el límite, supongo!

Pero la pregunta que deben responder antes de volverse codiciosos es qué tan importante es un patten (o regla). ¿Cuánto es económicamente razonable para ellos invertir en esta regla? ¡Cómo pueden asegurarse de que no están gastando más de lo que planean cosechar!

Entonces, tiene que haber una manera de evaluar la importancia de una regla descubierta. Aquí viene el apoyo y la confianza . Supongamos que la regla que descubrimos es la siguiente:

[matemática] Vino → Queso [Soporte: 9 \%, Confianza: 65 \%] [/ matemática]

Soporte : es el porcentaje de transacciones en T que contienen vino y queso juntos. (El 9% de todas las canastas tenían estos 2 artículos juntos).

[matemática] soporte (A → B) = P (A \ copa B) [/ matemática]

Confianza: es el porcentaje de transacciones en T, que contienen vino , que también contienen queso . En otras palabras, la probabilidad de tener queso , dado que el vino ya está en la canasta. (El 65% de todos los que compraron vino , también compraron queso ).

[matemáticas] confianza (A → B) = P (B | A) [/ matemáticas]

Si lo piensa, aparentemente no muchos clientes tienen este conjunto de artículos ( vino y queso ) en sus canastas (solo el 9%), sin embargo, si van por el vino , es algo probable (65%) que también lo hagan por ¡queso! Esto significa que si tenemos alguna oferta para nuestros productos de queso, definitivamente debemos informar a los compradores de vino , ya que son los mejores compradores potenciales.

Pongamos esto simple,

Estas son las medidas específicas utilizadas para encontrar las reglas de asociación (en el análisis de la cesta de la compra) entre varios artículos. Por ejemplo, considere dos elementos X e Y entonces,

Soporte: Esto proporciona la frecuencia (número de veces que ocurrió el elemento) del elemento en el conjunto de datos. Si considera una canasta que contiene 10 artículos (5 manzanas, 3 huevos, 2 bolígrafos), el soporte de cualquier artículo preciso dice que la manzana puede ser 5 como se mencionó. Del mismo modo, el valor preciso se puede calcular por la proporción del número de ocurrencias con el número total de artículos en la cesta (es decir, soporte (manzanas) = ​​5/8).

Confianza: Esto explica la probabilidad de que se compre Y cuando se compra X. Esto define la asociación entre dos elementos. Por ejemplo, cuando una persona compra leche es más probable que compre pan también o viceversa. Esto se mide por la proporción de transacciones con el artículo X , en el que también aparece el artículo Y. Expresado como { X -> Y }. Calculado por la proporción del número de transacciones en las que se producen ambos (X e Y) para respaldar el artículo X.

El intervalo de confianza (IC) establece el rango (nivel de ventas alto +/- IC) dentro del cual se produce el resultado previsto correspondiente (es decir, ventas) por combinación de las entradas (es decir, demografía) el 95% del tiempo. Cuanto mayor sea el IC, menos predictivo y, por lo tanto, útil, el modelo.

  • Soporte: El soporte de una regla es una medida de la frecuencia con la que los elementos involucrados en ella ocurren juntos. Usando la notación de probabilidad: apoyo (A implica B) = P (A, B).
  • Confianza: La confianza de una regla es la probabilidad condicional de B dada A. Usando la notación de probabilidad: confianza (A implica B) = P (B dada A).

More Interesting

¿Para qué tipo de problemas es poco adecuado el aprendizaje automático?

¿Cuánto durará la tendencia al alza en el campo de la ciencia de datos?

Para ser un buen analista de negocios, ¿qué tan bueno debería ser en R prog? ¿Están bien los conceptos básicos o debo tener un conocimiento profundo de ellos?

¿Qué será mejor para un empleado de TI con experiencia de 3 años, para seguir un curso a tiempo completo o un curso a tiempo parcial en Data Science?

¿Cómo difieren las redes neuronales y los algoritmos genéticos en términos de método, procesos y resultados?

¿Cuál es la configuración recomendada para una aplicación de Big Data?

¿Cómo puede ayudar el big data a construir una carrera financiera?

¿Cuáles son las habilidades ideales de un gerente de producto 'big data'?

¿Es importante un curso de diseño y análisis de algoritmos para una carrera en análisis de datos?

¿Cómo hizo el experto en aprendizaje automático Michael Jordan, de UC Berkeley, la transición de una licenciatura en psicología a las matemáticas y la informática, y qué motivó estas transiciones?

¿Cómo son útiles Big Data y Hadoop?

¿Cómo obtengo un trabajo de análisis orientado a datos en LinkedIn u otra empresa enfocada en análisis sin muchos antecedentes en matemáticas, estadísticas o disputas de datos?

¿Qué es el análisis de Pareto?

¿Se han desacreditado o confirmado los ciclos de Edward Dewey en el análisis de datos moderno?

¿Por qué no hay un estándar para el estilo de codificación en GNU R?