¿Por qué el algoritmo de agrupación k-means se considera un algoritmo de aprendizaje no supervisado? ¿Qué es “aprender”? ¿No es solo otro algoritmo codicioso?

Primero aclaremos el aprendizaje no supervisado.

El aprendizaje no supervisado es un tipo de algoritmo de aprendizaje automático utilizado para extraer inferencias de conjuntos de datos que consisten en datos de entrada sin respuestas etiquetadas.

El método de aprendizaje no supervisado más común es el análisis de conglomerados, que se utiliza para el análisis exploratorio de datos para encontrar patrones ocultos o agrupación de datos. Los grupos se modelan utilizando una medida de similitud que se define sobre métricas como la distancia euclidiana o probabilística.

Los algoritmos de agrupamiento comunes incluyen:

Agrupación jerárquica : crea una jerarquía multinivel de agrupaciones creando un árbol de agrupación
Agrupación de k-medias : divide los datos en k agrupaciones distintas en función de la distancia al centroide de una agrupación
Modelos de mezcla gaussiana : modela grupos como una mezcla de componentes multivariados de densidad normal
Mapas autoorganizados : utiliza redes neuronales que aprenden la topología y distribución de los datos.
Modelos ocultos de Markov : utiliza datos observados para recuperar la secuencia de estados

El aprendizaje se refiere a la idea de que el algoritmo descubre o aprende los parámetros minimizando la función de costo para que pueda clasificar cualquier nuevo punto de datos.

En lo que respecta al algoritmo codicioso, tomar una conjetura aleatoria inicial del vector medio en los medios k más simples lo hace codicioso. Se puede ver como un algoritmo codicioso para dividir las n muestras en k grupos para minimizar la suma de las distancias al cuadrado a los centros de los grupos. Tiene algunas debilidades:

No se especificó la forma de inicializar los medios. Una forma popular de comenzar es elegir aleatoriamente k de las muestras.
Los resultados producidos dependen de los valores iniciales de las medias, y con frecuencia sucede que se encuentran particiones subóptimas. La solución estándar es probar varios puntos de partida diferentes.
Puede suceder que el conjunto de muestras más cercano a m i esté vacío, por lo que m i no se puede actualizar. Esta es una molestia que debe manejarse en una implementación, pero que ignoraremos.
Los resultados dependen de la métrica utilizada para medir || x – m i ||. Una solución popular es normalizar cada variable por su desviación estándar, aunque esto no siempre es deseable.
Los resultados dependen del valor de k.

AlgoritmosAnálisis de conglomeradosAprendizaje automáticoAprendizaje no supervisado

¿Puede explicar la optimización convexa sin matrices de arpillera y solo la segunda derivada?

¿Cómo se explica el aprendizaje automático y la inteligencia artificial a un niño de 5 años?

¿Hay alguna prueba de que no hay una solución algebraica para ajustar las redes neuronales con una (o más) capa (s) oculta (s)?

¿Qué piensa Pedro Domingos de la investigación de aprendizaje automático que está ocurriendo en la industria versus la academia?

¿Es posible mejorar automáticamente el archivo digital de una canción mediante muestreo y aprendizaje automático?

¿Debo inscribirme en una segunda licenciatura para comenzar una carrera en inteligencia artificial / aprendizaje automático?

Supongamos que tienes 200 fotos de dos tipos de guitarras. Ahora, cuando cuantificas las imágenes, digamos, por ejemplo, la relación ancho / alto de las guitarras, tienes 200 puntos de datos. Cuando realiza una agrupación de k-medias en estos 200 puntos con ‘k’ configurada en dos, obtiene dos valores medios de la relación de ancho a altura (digamos, la media A y la media B), que representa los dos tipos de guitarras bastante bien.

El proceso de esta agrupación de hecho es un método codicioso. Pero el resultado del proceso de agrupación es que su sistema ha aprendido sobre las dos clases de guitarras y que están representadas por solo dos valores numéricos.

Ahora, suponga que obtiene una nueva imagen de una guitarra (imagen número 201) y desea saber qué tipo de guitarra es, su sistema calcula la relación entre el ancho y la altura de la guitarra y la compara con solo los dos valores medios (media A y Media B) su sistema aprendió del proceso de agrupación de k-means en el ‘entrenamiento de 200 puntos de datos’. Su máquina encuentra cuál de los dos medios está más cerca de los datos de relación de la imagen 201 y luego le dice a qué tipo de guitarra pertenece esta 201 guitarra, ya sea de tipo A representada por la media A o tipo B representada por la media B .

Por lo tanto, su sistema utiliza lo que ha aprendido de las 200 imágenes de ejemplo de dos tipos de guitarra para clasificar una nueva imagen de una guitarra.

Ahora, en todo el proceso, no le dijo a su sistema sobre la categoría de guitarra de cada una de las 200 imágenes de ejemplo que tenía, es decir, su sistema no sabía si una imagen de las 200 imágenes es de una guitarra española o una Les Paul electric. Tampoco le dijo a su sistema que, de las 200 imágenes de guitarra, cuántas imágenes de ejemplo tiene de guitarras españolas y cuántas de las guitarras Les Paul. Solo le dijo a su sistema que tiene 200 imágenes y que son de dos tipos. Cuando su máquina clasifica una nueva imagen de guitarra, la clasificará como Tipo A o Tipo B. Pero no le dirá si es una Guitarra española o una guitarra Les Paul directamente ya que su sistema no sabía sobre el tipo exacto de cada una de ellas. Las 200 imágenes de ejemplo.

Por lo tanto, se llama aprendizaje no supervisado .

Hrishikesh Alshi

Existen principalmente dos métodos de aprendizaje:

Aprendizaje supervisado
Aprendizaje sin supervisión

El aprendizaje supervisado es la máquina. tarea de aprendizaje de inferir una función a partir de datos de entrenamiento etiquetados. Los datos de entrenamiento consisten en un conjunto de ejemplos de entrenamiento. En supervisado En el aprendizaje, cada ejemplo es un par que consiste en un objeto de entrada (típicamente un vector) y un valor de salida deseado (también llamado señal de supervisión).

El aprendizaje no supervisado es un tipo de algoritmo de aprendizaje automático utilizado para extraer inferencias de conjuntos de datos que consisten en datos de entrada sin respuestas etiquetadas. Los más comunes sin supervisión El método de aprendizaje es el análisis de conglomerados, que se utiliza para el análisis exploratorio de datos para encontrar patrones ocultos o agrupación de datos.

La agrupación de k-medias tiene como objetivo dividir n observaciones en k agrupaciones en las que cada observación pertenece al grupo con la media más cercana, sirviendo como un prototipo del grupo . Ahora k significa es solo un algoritmo de clasificación sin tener etiquetas o clases predefinidas en lugar de agrupar los puntos de datos en una clase / grupo similar. Mientras que en el método supervisado especificamos diferentes clases durante el aprendizaje. Es por eso que K-Means es un algoritmo de aprendizaje no supervisado.

Ahora k significa algoritmo mientras el entrenamiento con datos de entrenamiento forma grupos o grupos y clasifica los datos en diferentes grupos. Esto se conoce como aprendizaje.

Espero haber podido responder correctamente. Señale cualquier cosa que haya escrito mal.

Gracias.

Rajat Gupta

K-means es un algoritmo de agrupamiento, que es un algoritmo de aprendizaje no supervisado. El aprendizaje no supervisado contiene todos los modelos exploratorios, incluidos muchos algoritmos de agrupamiento. Aprender solo significa que se realiza una optimización en un criterio dado para particionar datos o ajustar un modelo. K-means optimiza dentro de la varianza del clúster y entre la varianza del clúster.

Colleen Farrelly

More Interesting

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Es posible crear un 'ser' inteligente (AI) no una 'máquina'?

¿Cuáles son algunos de los proyectos que uno puede hacer para comprender SVM y los trucos del kernel?

Sistemas de bases de datos: ¿Qué formatos de datos se utilizan para almacenar series de tiempo?

¿Cuál es la mejor arquitectura de red neuronal para procesar video?

¿Cuál es la principal diferencia entre la forma bayesiana de estimación de parámetros y la regresión lineal?

Cómo mejorar en Machine Learning y PNL

Si quiero comenzar con el aprendizaje profundo, ¿debería comprar una GPU de gama baja o aprovechar una solución en la nube? ¿Cuál es más barato / mejor?

¿Pueden los algoritmos de aprendizaje profundo predecir los resultados de los partidos deportivos?

¿Qué es el procesamiento del lenguaje natural?