¿Qué es la asociación de datos en el aprendizaje automático?

Definición de Wikipedia:

El aprendizaje de reglas de asociación es un método para descubrir relaciones interesantes entre variables en grandes bases de datos. Se pretende identificar reglas fuertes descubiertas en bases de datos utilizando algunas medidas de interés.

Las reglas de asociación son declaraciones if / then que ayudan a descubrir relaciones entre datos aparentemente no relacionados en una base de datos relacional u otro repositorio de información. Un ejemplo de una regla de asociación sería “Si un cliente compra una docena de huevos, tiene un 80% de probabilidades de comprar también leche”.

Una regla de asociación tiene dos partes, un antecedente (si) y un consecuente (entonces). Un antecedente es un elemento encontrado en los datos. Un consecuente es un elemento que se encuentra en combinación con el antecedente.

Vamos a ilustrar esto con un simple ejemplo. Suponga que la base de datos de transacciones minoristas de una tienda incluye la siguiente información:

  • Hay 600,000 transacciones en total.
  • 7.500 transacciones contienen pañales (1,25 por ciento)
  • 60,000 transacciones contienen cerveza (10 por ciento)
  • 6,000 transacciones contienen pañales y cerveza (1.0 por ciento)

Si no hubo asociación entre la cerveza y los pañales (es decir, son estadísticamente independientes), entonces esperamos que solo el 10% de los compradores de pañales también compren cerveza (ya que el 10% de todos los clientes compran cerveza). Sin embargo, descubrimos que el 80% (= 6000/7500) de los compradores de pañales también compran cerveza.

Muchos algoritmos de aprendizaje automático que se utilizan para la minería de datos y la ciencia de datos funcionan con datos numéricos. Y muchos algoritmos tienden a ser muy matemáticos (como Support Vector Machines). Pero, la minería de reglas de asociación es perfecta para datos categóricos (no numéricos) e implica poco más que un simple conteo. Ese es el tipo de algoritmo en el que MapReduce es realmente bueno , y también puede conducir a algunos descubrimientos realmente interesantes.

Saludos,

Ankur Singh