¿Qué es la agrupación de datos?

La agrupación es la agrupación de un conjunto particular de objetos en función de sus características, agregándolos de acuerdo con sus similitudes. Con respecto a la minería de datos, esta metodología divide los datos implementando un algoritmo de unión específico, el más adecuado para el análisis de información deseado.

Este análisis de agrupamiento permite que un objeto no forme parte de un clúster, ni pertenezca estrictamente a él, llamando a este tipo de partición dura de agrupamiento. Por otro lado, la partición suave indica que cada objeto pertenece a un grupo en un grado determinado. Se pueden crear divisiones más específicas para crear objetos similares que pertenezcan a múltiples grupos, para forzar a un objeto a participar en un solo grupo o incluso construir árboles jerárquicos en las relaciones grupales.

Hay varias formas diferentes de implementar esta partición, basadas en modelos distintos. Se aplican algoritmos distintos a cada modelo, diferenciando sus propiedades y resultados. Estos modelos se distinguen por su organización y tipo de relación entre ellos. Los más importantes son:

1. Centralizado: cada grupo está representado por una sola media vectorial, y un valor de objeto se compara con estos valores medios

2. Distribuido: el clúster se crea utilizando distribuciones estadísticas

3. Conectividad: la conectividad en estos modelos se basa en una función de distancia entre elementos

4. Grupo: los algoritmos solo tienen información de grupo

5. Gráfico: la organización del clúster y la relación entre los miembros se define mediante una estructura gráfica vinculada

6. Densidad: los miembros del grupo se agrupan por regiones donde las observaciones son densas y similares.

Algoritmos de agrupamiento en minería de datos

Según los modelos de clúster descritos recientemente, hay muchos clústeres que se pueden aplicar a un conjunto de datos para dividir la información. En este artículo describiremos brevemente los más importantes. Es importante mencionar que cada método tiene sus ventajas y desventajas. La elección del algoritmo siempre dependerá de las características del conjunto de datos y de lo que queramos hacer con él.

Basado en centroide

En este tipo de método de agrupación del sistema operativo, cada grupo está referenciado por un vector de valores. Cada objeto es parte del clúster cuya diferencia de valor es mínima, en comparación con otros clústeres. El número de clústeres debe estar predefinido, y este es el mayor problema de este tipo de algoritmos. Esta metodología es la más cercana al tema de clasificación y se usa ampliamente para problemas de optimización.

Basado en distribuido

En relación con los modelos estadísticos predefinidos, la metodología distribuida combina objetos cuyos valores pertenecen a la misma distribución. Debido a su naturaleza aleatoria de generación de valor, este proceso necesita un modelo bien definido y complejo para interactuar de una manera diferente con datos reales. Sin embargo, estos procesos pueden lograr una solución óptima y calcular correlaciones y dependencias.

Basado en la conectividad

En este tipo de algoritmo, cada objeto está relacionado con sus vecinos, dependiendo del grado de esa relación en la distancia entre ellos. Según esta suposición, los grupos se crean con objetos cercanos y se pueden describir como un límite de distancia máxima. Con esta relación entre los miembros, estos grupos tienen representaciones jerárquicas. La función de distancia varía en el foco del análisis.

Basado en la densidad

Estos algoritmos crean grupos de acuerdo con la alta densidad de miembros de un conjunto de datos, en una ubicación determinada. Agrega alguna noción de distancia a un nivel estándar de densidad para agrupar a los miembros en grupos. Este tipo de procesos puede tener menos rendimiento al detectar las áreas límite del grupo.

Aplicaciones principales de análisis de clúster

Dado que esta es una técnica de análisis de datos muy valiosa, tiene varias aplicaciones diferentes en el mundo de las ciencias. Cada conjunto de datos de gran tamaño puede procesarse mediante este tipo de análisis, produciendo excelentes resultados con muchos tipos distintos de datos.

Una de las aplicaciones más importantes está relacionada con el procesamiento de imágenes. detectar distintos tipos de patrones en datos de imágenes. Esto puede ser muy efectivo en la investigación de biología, distinguiendo objetos e identificando patrones. Otro uso es la clasificación de los exámenes médicos.

Los datos personales combinados con compras, ubicación, intereses, acciones y un número infinito de indicadores, pueden analizarse con esta metodología, proporcionando información y tendencias muy importantes. Ejemplos de esto son la investigación de mercado, estrategias de marketing, análisis web y muchos otros.

Otros tipos de aplicaciones basadas en algoritmos de agrupamiento son climatología, robótica, sistemas de recomendación, análisis matemático y estadístico, que proporcionan un amplio espectro de utilización.

Esta definición, que formulé generalizando los resultados de la agrupación de datos de diferente naturaleza.

Agrupación: el proceso de partición de observaciones de un conjunto de datos heterogéneo en subconjuntos homogéneos (agrupaciones) y la descripción de estos subconjuntos como estructuras en la forma más concisa.

Cluster: un conjunto de puntos, mínimamente distanciados de su núcleo.

Kernel: representante (s) del clúster. Puede ser un punto o un grupo de puntos, un eje, una curva, un hiperplano, un conjunto de vectores propios. El núcleo debe describir todo el clúster en la forma más concisa.

Clúster inmutable: Clúster, que está bastante aislado, es decir, no tiene ningún vecindario adyacente poblado. Los grupos inmutables se pueden excluir después de la identificación, porque no influyen en los pasos posteriores.

Cúmulo inmune: Cúmulo, que no se puede fusionar con otro, porque contiene un número considerable de puntos en sus representantes.

Clúster unitario (estable): es un clúster indivisible o, en otras palabras, dicho clúster, en el que las distancias de los miembros a su núcleo tienen una distribución unimodal o el número de puntos es pequeño.

Compuesto (grupo inestable): el grupo, que no es unitario, es decir, tiene un número significativo de puntos y está compuesto de partes no homogéneas, por lo tanto, puede dividirse en grupos más.

La suposición sobre la ausencia de la estructura del clúster debe ser probada antes de comenzar cualquier algoritmo de clúster, que particione los datos en clases siempre. El análisis de las distribuciones de las variables nos dice que hay heterogeneidad en ellas o no.

Esta definición, que formulé generalizando los resultados de la agrupación de datos de diferente naturaleza.

Agrupación: el proceso de partición de observaciones de un conjunto de datos heterogéneo en subconjuntos homogéneos (agrupaciones) y la descripción de estos subconjuntos como estructuras en la forma más concisa.

Cluster: un conjunto de puntos, mínimamente distanciados de su núcleo.

Kernel: representante (s) del clúster. Puede ser un punto o un grupo de puntos, un eje, una curva, un hiperplano, un conjunto de vectores propios. El núcleo debe describir todo el clúster en la forma más concisa.

Clúster inmutable: Clúster, que está bastante aislado, es decir, no tiene ningún vecindario adyacente poblado. Los grupos inmutables se pueden excluir después de la identificación, porque no influyen en los pasos posteriores.

Cúmulo inmune: Cúmulo, que no se puede fusionar con otro, porque contiene un número considerable de puntos en sus representantes.

Clúster unitario (estable): es un clúster indivisible o, en otras palabras, dicho clúster, en el que las distancias de los miembros a su núcleo tienen una distribución unimodal o el número de puntos es pequeño.

Compuesto (grupo inestable): el grupo, que no es unitario, es decir, tiene un número significativo de puntos y está compuesto de partes no homogéneas, por lo tanto, puede dividirse en grupos más.

La suposición sobre la ausencia de la estructura del clúster debe ser probada antes de comenzar cualquier algoritmo de clúster, que particione los datos en clases siempre. El análisis de las distribuciones de las variables nos dice que hay heterogeneidad en ellas o no.

La agrupación es la tarea de agrupar valores en grupos que son más similares entre sí que con los de otros grupos.

Hay más de 100 algoritmos de agrupamiento. Algunos de los más utilizados, según el informe técnico de Rexter Analytics, son los clusters de k-means (los otros dos algoritmos más utilizados son Regresión y Árbol de decisión).

En Analytics, la agrupación es parte del análisis no supervisado, un tipo de análisis en el que no tiene datos históricos para entrenar la máquina para predecir, está explorando el conjunto de datos desconocido para encontrar patrones.

Agrupando los datos en más de un grupo según su similitud. Por ejemplo, las noticias se pueden agrupar en diferentes grupos, grupos de entretenimiento, política, noticias nacionales y mundiales.

More Interesting

¿Cómo seleccionaría los datos para capacitar y probar los modelos?

¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?

¿Cuál es la razón para mapear datos de dos idiomas diferentes en un espacio de incrustación de palabras común y no usar dictonarios y asignarle el idioma b a los vectores del idioma a para entrenar un modelo de manera multilingüe?

¿Cómo se compara Orange con Tableau?

¿Cuál es el propósito de visualizar las capas de activación en una arquitectura de red neuronal convolucional?

¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

¿Qué hace que una red neuronal convolucional sea excelente?

¿Es posible una batalla de humanos contra máquinas en el futuro previsible?

¿Qué es el procesamiento del lenguaje natural en términos simples?

¿Cómo se puede reducir el tamaño del modelo TFIDF sin reducir significativamente la precisión?

Cómo entrenar una red neuronal con grandes datos

¿Qué son los modelos mixtos en términos simples?

¿Es el "grado de libertad" en el aprendizaje automático igual al número de variables independientes o el número de parámetros?

¿Es posible conseguir un trabajo en Machine Learning sin experiencia laboral?

¿Es posible que una computadora aprenda a distinguir gatos de perros de solo un conjunto de imágenes sin que le digamos qué imágenes son gatos y cuáles son perros, o incluso si hay cosas como gatos y perros, y si es así, cómo es exactamente esto? ¿hecho?