Cómo aplicar la minería de reglas de asociación en datos textuales usando Python

La respuesta a esta pregunta implica descargar la biblioteca naranja de

Índice del paquete de Python

Después de la descarga, ya ha terminado. Ahora pasando a la implementación:

¿Hay una explicación fácil sobre cuándo usar fit y cuándo un fit_transform de sk-learn en Python?
¿Qué libro recomienda para aprender sobre todas las habilidades matemáticas que se necesitan para la ciencia de datos para alguien que esté familiarizado con las estadísticas básicas y las matemáticas?
En análisis en línea, ¿cómo se prueban 'miles de puntos de datos'?
¿Cuál es la diferencia entre la captura de datos de cambio y el abastecimiento de eventos?
¿Cómo se prueba que la probabilidad de una moneda es 1/2?

necesitamos crear un archivo “filename.basket” para esta biblioteca para que podamos formular reglas. Por favor, vea lo recortado a continuación:

importar naranja

# escribir datos en el archivo de texto: data.basket

f = abierto (‘data.basket’, ‘w’)

para el elemento en raw_data:

f.write (elemento + ‘\ n’)

f.close ()

# Cargar datos del archivo de texto: data.basket

data = Orange.data.Table (“data.basket”)

# Identificar reglas de asociación con soportes de al menos 0.3

reglas = Orange.associate.AssociationRulesSparseInducer (datos, soporte = 0.3)

# imprimir reglas

print “% 4s% 4s% s”% (“Supp”, “Conf”, “Rule”)

para r en las reglas [:]:

imprimir “% 4.1f% 4.1f% s”% (r.support, r.confidence, r)

Related Content

¿Es bueno aprender a almacenar datos?

¿Qué es más útil para la ciencia de datos: modelos de regresión o series de tiempo?

¿Por qué crees que la ciencia de datos será tan importante?

¿Cuánto tiempo lleva aprender correctamente big data y ser un analista exitoso?

¿Cuánto conocimiento de estadísticas básicas se utiliza realmente en la ciencia de datos moderna?

¿Cuáles son las diferencias entre una base de datos, data mart, data warehouse, un lago de datos y un cubo?

¿Cuál es el porcentaje promedio de tasa de retención del sitio web para plataformas registradas como Google, Facebook, Pinterest, YouTube o Twitter?

Supongo que este es un conjunto de datos de propósito especial / dominio específico, ya que no tiene sentido hacer minería de asociación en texto normal. Association Mining es un problema muy intensivo en cómputo y no tiene sentido ejecutarlo en datos de alta dimensión como texto. Hay muchos métodos aproximados para hacer cosas similares.

Convierta su conjunto de datos de palabras en una matriz de términos de documento
Reduzca la dimensionalidad utilizando si las dimensiones son demasiadas.
Use el módulo de páginas web de Christian Borgelt (PyFIM) para hacer la extracción del conjunto de elementos.

Muktabh Mayank

More Interesting

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

¿Cómo comenzar a aprender Big Data Hadoop? ¿Hay alguna manera de que pueda aprender por mi cuenta o cualquier material o tutoriales, o necesito unirme a un instituto?

¿Cómo impactan los informes de Big Data y Analytics en la productividad de una empresa?

¿Existe una comunidad de ciencia de datos en Egipto?

Como más fresco, ¿debería aprender Hadoop o Spark? ¿Cuál es la hoja de ruta para el análisis de Big Data?

¿Los estadísticos viven en la tierra de la teoría, los aprendices de máquinas crean las soluciones prácticas y los científicos de datos son los que se ensucian las manos? Por supuesto, hay quienes viven en más de uno de estos mundos.

¿Cuál es el futuro del aprendizaje automático en las finanzas?

¿Cuál es la diferencia entre Data science, Big Data y Hadoop?

¿Hay alguna brecha de habilidades en el campo de Big Data también?

¿Entrar en Big Data es una buena opción ahora?

¿Qué debo hacer para convertirme en analista de datos una vez que mi título esté completo?

# redes de computadoras (CSE) Tengo una duda sobre el enfoque de capas. Los datos reales se transfieren a través de la capa física, pero ¿por qué todas las otras capas, como el transporte o la red, también transfieren datos en diferentes formas, como paquetes o segmentos? ¿Qué tipo de datos es ese?

¿Cómo se procesan y visualizan los grandes datos? ¿Qué herramientas se usan?

¿Cuál es el mejor instituto en Mumbai para hacer ciencia de datos y certificación de big data?

¿Cuáles son los diferentes métodos de aprendizaje automático que se pueden aplicar a los problemas de ventas y marketing?

Web Analytics