Cómo hacer la clasificación y agrupamiento de documentos en rapidMiner

Gracias a todos … en realidad, descubrí cómo hacer esto. El código XML es el siguiente

PARA LA CLASIFICACIÓN UTILIZANDO EL ALGORITMO NAIVE BAYES (Puede cambiar el Algoritmo Naive Bayes a cualquier otro algoritmo que desee que esté presente en el rapidminer simplemente cambiando el nombre “Naive Bayes” en el XML al nombre del algoritmo con el que desea trabajar) .

Tendrá que cambiar la ruta de “Procesar documentos del archivo” a la carpeta donde se encuentran sus documentos y probablemente el nombre de la clase.

Y PARA LA AGRUPACIÓN K-MEDIOS, el código XML es el siguiente

& lt; p & gt; En muchos casos, no se puede definir ningún atributo de destino (etiqueta) y los datos se deben agrupar automáticamente. Este procedimiento se llama & amp; quot; Agrupación & amp; quot ;. RapidMiner admite una amplia gama de esquemas de agrupación que se pueden usar de la misma manera que cualquier otro esquema de aprendizaje. Esto incluye la combinación con todos los operadores de preprocesamiento. & lt; p & gt; & lt; p & gt; En este experimento, se carga el conocido conjunto de datos Iris (también se carga la etiqueta, pero solo se usa para visualización y comparación y no para construir los clústeres en sí). Uno de los esquemas de agrupamiento más simples, a saber, KMeans, se aplica a este conjunto de datos. Posteriormente, se realiza una reducción de dimensionalidad para apoyar mejor la visualización del conjunto de datos en dos dimensiones. & lt; / p & gt; & lt; p & gt; Simplemente realice el proceso y compare el resultado de la agrupación con la etiqueta original (por ejemplo, en la vista de gráfico del conjunto de ejemplos). También puede visualizar el modelo de clúster en sí. & lt; / p & gt;

Y PARA LA CLUSTERIZACIÓN UTILIZANDO AGLOMERATIVE HIERACHICHAL CLUSTERING, el código XML es el siguiente

Te sugiero que hagas esa pregunta aquí: http://community.rapidminer.com/

El siguiente video tutorial puede ser útil para usted

More Interesting

¿Las redes neuronales son siempre convexas con respecto a los pesos? Y si no, ¿cómo funciona tan bien el descenso de gradiente?

¿Cuál es la relación entre los modelos gráficos probabilísticos y las redes neuronales (aprendizaje profundo)?

¿Cuáles son los conjuntos de datos de visión por computadora más populares en este momento?

¿Qué debe saber todo programador competitivo (Topcoder) sobre los concursos de Kaggle y ML?

¿Cuál es el mejor algoritmo de agrupamiento adaptativo k-means (que k se elige automáticamente)?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

¿El análisis complejo es relevante para el aprendizaje automático?

Los algoritmos de ML escritos en Java funcionan bien para un conjunto de datos más pequeño. Para un conjunto de datos grande, ¿cómo podemos escalar estos algoritmos? ¿Necesitamos buscar algoritmos distribuidos / mapas distribuidos en memoria / NOSQL / archivos para leer y escribir grandes conjuntos de datos o hay alguna buena API?

¿Por qué la optimización del aprendizaje profundo es más rápida en las CPU que en las GPU?

¿Qué es una explicación intuitiva de lo que es la dimensión VC?

Cómo comenzar a aprender lenguaje máquina a partir de tutoriales

¿Cómo se usa el aprendizaje automático en FinTech (P2P, pagos), particularmente fuera de algo trading? ¿Alguien tiene ejemplos específicos en punto a punto, verificación de crédito, pagos, etc.?

Podría ser el primer experto en aprendizaje automático en una empresa como consultor o a tiempo completo. En cualquier caso, ¿cuál debería ser mi tasa?

Como todos están aprendiendo el aprendizaje automático y el aprendizaje profundo ahora, ¿debería adoptar un enfoque diferente para centrarme en un área específica, como la programación de gráficos o una más general, como el desarrollo de backend?