Cómo aplicar la minería de reglas de asociación en datos textuales usando Python

La respuesta a esta pregunta implica descargar la biblioteca naranja de

Índice del paquete de Python

Después de la descarga, ya ha terminado. Ahora pasando a la implementación:

necesitamos crear un archivo “filename.basket” para esta biblioteca para que podamos formular reglas. Por favor, vea lo recortado a continuación:

importar naranja

# escribir datos en el archivo de texto: data.basket

f = abierto (‘data.basket’, ‘w’)

para el elemento en raw_data:

f.write (elemento + ‘\ n’)

f.close ()

# Cargar datos del archivo de texto: data.basket

data = Orange.data.Table (“data.basket”)

# Identificar reglas de asociación con soportes de al menos 0.3

reglas = Orange.associate.AssociationRulesSparseInducer (datos, soporte = 0.3)

# imprimir reglas

print “% 4s% 4s% s”% (“Supp”, “Conf”, “Rule”)

para r en las reglas [:]:

imprimir “% 4.1f% 4.1f% s”% (r.support, r.confidence, r)

Supongo que este es un conjunto de datos de propósito especial / dominio específico, ya que no tiene sentido hacer minería de asociación en texto normal. Association Mining es un problema muy intensivo en cómputo y no tiene sentido ejecutarlo en datos de alta dimensión como texto. Hay muchos métodos aproximados para hacer cosas similares.

  1. Convierta su conjunto de datos de palabras en una matriz de términos de documento
  2. Reduzca la dimensionalidad utilizando si las dimensiones son demasiadas.
  3. Use el módulo de páginas web de Christian Borgelt (PyFIM) para hacer la extracción del conjunto de elementos.

More Interesting

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

¿Cómo comenzar a aprender Big Data Hadoop? ¿Hay alguna manera de que pueda aprender por mi cuenta o cualquier material o tutoriales, o necesito unirme a un instituto?

¿Cómo impactan los informes de Big Data y Analytics en la productividad de una empresa?

¿Existe una comunidad de ciencia de datos en Egipto?

Como más fresco, ¿debería aprender Hadoop o Spark? ¿Cuál es la hoja de ruta para el análisis de Big Data?

¿Los estadísticos viven en la tierra de la teoría, los aprendices de máquinas crean las soluciones prácticas y los científicos de datos son los que se ensucian las manos? Por supuesto, hay quienes viven en más de uno de estos mundos.

¿Cuál es el futuro del aprendizaje automático en las finanzas?

¿Cuál es la diferencia entre Data science, Big Data y Hadoop?

¿Hay alguna brecha de habilidades en el campo de Big Data también?

¿Entrar en Big Data es una buena opción ahora?

¿Qué debo hacer para convertirme en analista de datos una vez que mi título esté completo?

# redes de computadoras (CSE) Tengo una duda sobre el enfoque de capas. Los datos reales se transfieren a través de la capa física, pero ¿por qué todas las otras capas, como el transporte o la red, también transfieren datos en diferentes formas, como paquetes o segmentos? ¿Qué tipo de datos es ese?

¿Cómo se procesan y visualizan los grandes datos? ¿Qué herramientas se usan?

¿Cuál es el mejor instituto en Mumbai para hacer ciencia de datos y certificación de big data?

¿Cuáles son los diferentes métodos de aprendizaje automático que se pueden aplicar a los problemas de ventas y marketing?