¿Por qué el algoritmo de agrupación k-means se considera un algoritmo de aprendizaje no supervisado? ¿Qué es “aprender”? ¿No es solo otro algoritmo codicioso?

Primero aclaremos el aprendizaje no supervisado.

El aprendizaje no supervisado es un tipo de algoritmo de aprendizaje automático utilizado para extraer inferencias de conjuntos de datos que consisten en datos de entrada sin respuestas etiquetadas.

El método de aprendizaje no supervisado más común es el análisis de conglomerados, que se utiliza para el análisis exploratorio de datos para encontrar patrones ocultos o agrupación de datos. Los grupos se modelan utilizando una medida de similitud que se define sobre métricas como la distancia euclidiana o probabilística.

Los algoritmos de agrupamiento comunes incluyen:

  • Agrupación jerárquica : crea una jerarquía multinivel de agrupaciones creando un árbol de agrupación
  • Agrupación de k-medias : divide los datos en k agrupaciones distintas en función de la distancia al centroide de una agrupación
  • Modelos de mezcla gaussiana : modela grupos como una mezcla de componentes multivariados de densidad normal
  • Mapas autoorganizados : utiliza redes neuronales que aprenden la topología y distribución de los datos.
  • Modelos ocultos de Markov : utiliza datos observados para recuperar la secuencia de estados

El aprendizaje se refiere a la idea de que el algoritmo descubre o aprende los parámetros minimizando la función de costo para que pueda clasificar cualquier nuevo punto de datos.

En lo que respecta al algoritmo codicioso, tomar una conjetura aleatoria inicial del vector medio en los medios k más simples lo hace codicioso. Se puede ver como un algoritmo codicioso para dividir las n muestras en k grupos para minimizar la suma de las distancias al cuadrado a los centros de los grupos. Tiene algunas debilidades:

  • No se especificó la forma de inicializar los medios. Una forma popular de comenzar es elegir aleatoriamente k de las muestras.
  • Los resultados producidos dependen de los valores iniciales de las medias, y con frecuencia sucede que se encuentran particiones subóptimas. La solución estándar es probar varios puntos de partida diferentes.
  • Puede suceder que el conjunto de muestras más cercano a m i esté vacío, por lo que m i no se puede actualizar. Esta es una molestia que debe manejarse en una implementación, pero que ignoraremos.
  • Los resultados dependen de la métrica utilizada para medir || xm i ||. Una solución popular es normalizar cada variable por su desviación estándar, aunque esto no siempre es deseable.
  • Los resultados dependen del valor de k.

Supongamos que tienes 200 fotos de dos tipos de guitarras. Ahora, cuando cuantificas las imágenes, digamos, por ejemplo, la relación ancho / alto de las guitarras, tienes 200 puntos de datos. Cuando realiza una agrupación de k-medias en estos 200 puntos con ‘k’ configurada en dos, obtiene dos valores medios de la relación de ancho a altura (digamos, la media A y la media B), que representa los dos tipos de guitarras bastante bien.

El proceso de esta agrupación de hecho es un método codicioso. Pero el resultado del proceso de agrupación es que su sistema ha aprendido sobre las dos clases de guitarras y que están representadas por solo dos valores numéricos.

Ahora, suponga que obtiene una nueva imagen de una guitarra (imagen número 201) y desea saber qué tipo de guitarra es, su sistema calcula la relación entre el ancho y la altura de la guitarra y la compara con solo los dos valores medios (media A y Media B) su sistema aprendió del proceso de agrupación de k-means en el ‘entrenamiento de 200 puntos de datos’. Su máquina encuentra cuál de los dos medios está más cerca de los datos de relación de la imagen 201 y luego le dice a qué tipo de guitarra pertenece esta 201 guitarra, ya sea de tipo A representada por la media A o tipo B representada por la media B .

Por lo tanto, su sistema utiliza lo que ha aprendido de las 200 imágenes de ejemplo de dos tipos de guitarra para clasificar una nueva imagen de una guitarra.

Ahora, en todo el proceso, no le dijo a su sistema sobre la categoría de guitarra de cada una de las 200 imágenes de ejemplo que tenía, es decir, su sistema no sabía si una imagen de las 200 imágenes es de una guitarra española o una Les Paul electric. Tampoco le dijo a su sistema que, de las 200 imágenes de guitarra, cuántas imágenes de ejemplo tiene de guitarras españolas y cuántas de las guitarras Les Paul. Solo le dijo a su sistema que tiene 200 imágenes y que son de dos tipos. Cuando su máquina clasifica una nueva imagen de guitarra, la clasificará como Tipo A o Tipo B. Pero no le dirá si es una Guitarra española o una guitarra Les Paul directamente ya que su sistema no sabía sobre el tipo exacto de cada una de ellas. Las 200 imágenes de ejemplo.

Por lo tanto, se llama aprendizaje no supervisado .

Existen principalmente dos métodos de aprendizaje:

  • Aprendizaje supervisado
  • Aprendizaje sin supervisión

El aprendizaje supervisado es la máquina. tarea de aprendizaje de inferir una función a partir de datos de entrenamiento etiquetados. Los datos de entrenamiento consisten en un conjunto de ejemplos de entrenamiento. En supervisado En el aprendizaje, cada ejemplo es un par que consiste en un objeto de entrada (típicamente un vector) y un valor de salida deseado (también llamado señal de supervisión).

El aprendizaje no supervisado es un tipo de algoritmo de aprendizaje automático utilizado para extraer inferencias de conjuntos de datos que consisten en datos de entrada sin respuestas etiquetadas. Los más comunes sin supervisión El método de aprendizaje es el análisis de conglomerados, que se utiliza para el análisis exploratorio de datos para encontrar patrones ocultos o agrupación de datos.

La agrupación de k-medias tiene como objetivo dividir n observaciones en k agrupaciones en las que cada observación pertenece al grupo con la media más cercana, sirviendo como un prototipo del grupo . Ahora k significa es solo un algoritmo de clasificación sin tener etiquetas o clases predefinidas en lugar de agrupar los puntos de datos en una clase / grupo similar. Mientras que en el método supervisado especificamos diferentes clases durante el aprendizaje. Es por eso que K-Means es un algoritmo de aprendizaje no supervisado.

Ahora k significa algoritmo mientras el entrenamiento con datos de entrenamiento forma grupos o grupos y clasifica los datos en diferentes grupos. Esto se conoce como aprendizaje.

Espero haber podido responder correctamente. Señale cualquier cosa que haya escrito mal.

Gracias.

K-means es un algoritmo de agrupamiento, que es un algoritmo de aprendizaje no supervisado. El aprendizaje no supervisado contiene todos los modelos exploratorios, incluidos muchos algoritmos de agrupamiento. Aprender solo significa que se realiza una optimización en un criterio dado para particionar datos o ajustar un modelo. K-means optimiza dentro de la varianza del clúster y entre la varianza del clúster.

More Interesting

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Es posible crear un 'ser' inteligente (AI) no una 'máquina'?

¿Cuáles son algunos de los proyectos que uno puede hacer para comprender SVM y los trucos del kernel?

Sistemas de bases de datos: ¿Qué formatos de datos se utilizan para almacenar series de tiempo?

¿Cuál es la mejor arquitectura de red neuronal para procesar video?

¿Cuál es la principal diferencia entre la forma bayesiana de estimación de parámetros y la regresión lineal?

Cómo mejorar en Machine Learning y PNL

Si quiero comenzar con el aprendizaje profundo, ¿debería comprar una GPU de gama baja o aprovechar una solución en la nube? ¿Cuál es más barato / mejor?

¿Pueden los algoritmos de aprendizaje profundo predecir los resultados de los partidos deportivos?

¿Qué es el procesamiento del lenguaje natural?

Las entidades biológicas inconscientes que simplemente reaccionan automáticamente a su entorno han evolucionado y se han vuelto autoconscientes. ¿Qué impide que AI lo haga?

¿Puede la operación de agrupamiento aumentar el número de neuronas en el aprendizaje profundo?

¿Qué significa decir: "En la geometría de la información, el paso E y el paso M se interpretan como proyecciones bajo dos conexiones afines"?

¿Qué cosas asombrosas se pueden hacer con el aprendizaje automático?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?