¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?

Comprendamos la diferencia entre clasificación y agrupación con un ejemplo simple. Suponga que tiene un conjunto de datos de frutas con tres atributos y la etiqueta.

Color Forma Sabor Fruta
Plátano Dulce Largo Amarillo
Manzana Dulce Redonda Roja
Amarillo redondo amargo lima dulce
…
…
…

La clasificación es una técnica de aprendizaje supervisado que lo ayuda a clasificar una observación invisible en uno de los subgrupos que existen en el conjunto de datos de capacitación. Es aprendizaje supervisado porque sus datos de capacitación tienen conocimiento previo de las categorías, ya que tiene las etiquetas de destino (etiqueta de respuesta). La clasificación básicamente es el reconocimiento de patrones. Un algoritmo como árboles de decisión se entrenaría en el conjunto de datos, formaría un conjunto de reglas y luego sería capaz de clasificar observaciones no vistas como una manzana, plátano o lima dulce. La clasificación de clases múltiples se trata como un caso One vs Rest.

Los algoritmos de clasificación comunes son: Bayes ingenuos, árboles de decisión, bosques aleatorios, regresión logística, perceptrón, máquinas de vectores de soporte, redes neuronales, clasificador cuadrático.

La agrupación en clúster es una técnica de aprendizaje no supervisada que le ayuda a agrupar observaciones invisibles en agrupaciones similares. El conjunto de datos de entrenamiento para un algoritmo de agrupamiento no tiene conocimiento previo de las categorías, ya que no contendrá etiquetas de destino. Agrupará los datos en función de sus características, de modo que los objetos en un clúster serán más similares entre sí que los de otro clúster. Hay varias métricas para calcular la similitud entre objetos: distancia euclidiana, distancia de Mahalanobis, distancia de Manhattan, distancia de Minkowsi, etc.

Los algoritmos de agrupamiento generalmente se agrupan

Algoritmos de agrupamiento comunes: agrupamiento jerárquico, agrupamiento basado en centroide (k-means, k-medoids, k-medians), agrupación basada en distribución, agrupación basada en densidad.

La regresión es una técnica de aprendizaje supervisado que se usa ampliamente para predecir / pronosticar los valores de salida. Tiene una variable dependiente y una o más variables independientes, y el enfoque está en comprender cómo cambia la variable dependiente cuando cualquiera de las variables independientes varía mientras las otras son fijas. Un ejemplo muy común de esto es poder predecir los precios de la vivienda en función del área de la vivienda.

Técnicas de regresión comunes: mínimos cuadrados ordinarios, regresión no lineal y lineal, regresión polinómica, etc.