¿Cuáles son las aplicaciones más prácticas (vida cotidiana) del algoritmo de agrupación de k-means? ¿Cómo se ha utilizado exactamente k-means en estas aplicaciones?

Primero, déjame definir qué es un clúster

Grupo: un grupo de cosas o personas similares posicionadas o que se producen muy juntas.

Entonces, la agrupación es-

Agrupar cosas similares o puntos de datos más apropiados que pueden ser imágenes, videos, documentos de texto, etc.

El objetivo principal de todas las técnicas de agrupamiento es el mismo, es decir, formar grupos de cosas / puntos de datos similares.

y Así es el propósito de la agrupación k-means.

Tomar vectores de características como puntos de datos

Diferentes algoritmos de agrupación difieren en

  1. Criterios de convergencia (Cómo detenerse después de que se termine la agrupación)
  2. Cómo se asignan los puntos de datos a los clústeres.
  3. Medida de similitud (qué puntos de datos son similares)

Puede aplicar k-means a cualquier problema de agrupación siempre que tenga un vector de características adecuado (Modelo de espacio vectorial) desde puntos de datos y una medida de similitud / distancia que pueda medir similitud / distancia entre los vectores de características.

Para la aplicación práctica de clustering, piense en cualquier escenario en el que desee hacer grupos de cosas similares a partir de una colección de cosas distribuidas al azar.

Tomemos, por ejemplo, la agrupación de documentos

Tiene muchos documentos sobre diferentes temas (mitología, ciencia ficción, fantasía)

y desea formar grupos de documentos que pertenezcan al mismo tema / similar (según cómo extraiga las características de los documentos).

En este caso, la agrupación puede ayudar.

En la misma línea, piense que se aplica a un montón de imágenes y agrúpelas de manera similar.

Todo depende de cómo extraiga funciones de imágenes, videos, texto, otros

.

La función “similar” de la búsqueda web y la búsqueda de imágenes de Google funciona de la misma manera. (puede estar usando colecciones de otras técnicas también)

K-means (o cualquier otro algoritmo de agrupamiento para el caso) no se usa directamente ‘todos los días’. Estos se utilizan para calcular los vectores de código (los centroides de diferentes grupos). Para cualquier palabra / valor / clave que necesite ser ‘vectorizada’, calculamos su distancia de todos los vectores de código y asignamos el índice del vector de código con la distancia mínima a este valor.
Los archivos MP3, los teléfonos celulares son las áreas generales que utilizan esta técnica.
Hay alrededor de 40 tipos diferentes de sonidos en idioma inglés. Por lo tanto, generalmente usamos un tamaño de libro de códigos> = 64 para cuantificarlos.
Ahora, cada vez que hablamos con el receptor del teléfono, la señal analógica se muestrea a intervalos fijos, dando ciertos valores escalares (supongamos entre 0 y 1000). A estos valores se les asigna un número entre 1 y codebook_size en función de la distancia calculada. Esto comprime los datos por un factor de codebook_size: 1000B !

La segmentación del cliente es el mayor caso de uso de K-means.

More Interesting

¿Cuál es el algoritmo de programación monotónico de velocidad en los sistemas operativos?

¿Cuáles son los algoritmos criptográficos básicos que un programador debe saber?

¿Existe una versión del problema de la mochila en la que haya una restricción sobre qué objetos se pueden colocar en la bolsa?

¿Cuáles son los algoritmos populares de aprendizaje automático en línea y sus casos de uso típicos?

¿Cuáles son algunos ejemplos bien conocidos donde se usa la programación dinámica?

¿Cómo es posible que el hashing sea imposible de revertir? ¿Hay alguna prueba?

¿Ha habido algún trabajo teórico que delinee qué clase de algoritmos pueden y no pueden mapearse para mapear / reducir?

¿Por qué el orden de selección no se denomina orden de intercambio?

Dados los pares 'n1' de corchetes "[]", los pares 'n2' de corchetes "{}" y los pares 'n3' de corchetes "()", ¿cómo podemos encontrar todas las combinaciones válidas posibles de todos estos pares de manera eficiente?

¿Cuál es la última actualización de algo en SEO?

¿Qué son los algoritmos simples?

¿Explicar diferentes algoritmos de ruta más corta, sus restricciones, complejidades?

¿Cómo se calculan los tiempos de conducción de Google Maps?

¿Encontrar el número máximo de reinas que puedes colocar en un tablero de ajedrez modificado con paredes negras? Por favor, discuta el enfoque del algoritmo, la implementación y la complejidad en detalles.

¿Cuál es la lógica y la intuición detrás del algoritmo de optimización de momento y por qué se considera mejor que el descenso de gradiente?