¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?

Comprendamos la diferencia entre clasificación y agrupación con un ejemplo simple. Suponga que tiene un conjunto de datos de frutas con tres atributos y la etiqueta.

Color Forma Sabor Fruta
Plátano Dulce Largo Amarillo
Manzana Dulce Redonda Roja
Amarillo redondo amargo lima dulce


La clasificación es una técnica de aprendizaje supervisado que lo ayuda a clasificar una observación invisible en uno de los subgrupos que existen en el conjunto de datos de capacitación. Es aprendizaje supervisado porque sus datos de capacitación tienen conocimiento previo de las categorías, ya que tiene las etiquetas de destino (etiqueta de respuesta). La clasificación básicamente es el reconocimiento de patrones. Un algoritmo como árboles de decisión se entrenaría en el conjunto de datos, formaría un conjunto de reglas y luego sería capaz de clasificar observaciones no vistas como una manzana, plátano o lima dulce. La clasificación de clases múltiples se trata como un caso One vs Rest.

Los algoritmos de clasificación comunes son: Bayes ingenuos, árboles de decisión, bosques aleatorios, regresión logística, perceptrón, máquinas de vectores de soporte, redes neuronales, clasificador cuadrático.

La agrupación en clúster es una técnica de aprendizaje no supervisada que le ayuda a agrupar observaciones invisibles en agrupaciones similares. El conjunto de datos de entrenamiento para un algoritmo de agrupamiento no tiene conocimiento previo de las categorías, ya que no contendrá etiquetas de destino. Agrupará los datos en función de sus características, de modo que los objetos en un clúster serán más similares entre sí que los de otro clúster. Hay varias métricas para calcular la similitud entre objetos: distancia euclidiana, distancia de Mahalanobis, distancia de Manhattan, distancia de Minkowsi, etc.

Los algoritmos de agrupamiento generalmente se agrupan

Algoritmos de agrupamiento comunes: agrupamiento jerárquico, agrupamiento basado en centroide (k-means, k-medoids, k-medians), agrupación basada en distribución, agrupación basada en densidad.

La regresión es una técnica de aprendizaje supervisado que se usa ampliamente para predecir / pronosticar los valores de salida. Tiene una variable dependiente y una o más variables independientes, y el enfoque está en comprender cómo cambia la variable dependiente cuando cualquiera de las variables independientes varía mientras las otras son fijas. Un ejemplo muy común de esto es poder predecir los precios de la vivienda en función del área de la vivienda.

Técnicas de regresión comunes: mínimos cuadrados ordinarios, regresión no lineal y lineal, regresión polinómica, etc.

Debido crédito: algunas de estas analogías están inspiradas / robadas de Brandon Rohrer.


La clasificación responde preguntas del tipo “¿qué categoría?”

Regresión para ¿cuántos?” O “¿cuánto?”

La agrupación se refiere a la búsqueda de estructura , al preguntar “¿qué grupos?” Dando una partición de puntos de datos (que es óptimo en algún sentido concreto).

Los dos primeros son ejemplos arquetípicos de aprendizaje supervisado: un nombre para aprender un mapeo de características a categorías o cantidades usando ejemplos vistos previamente de tales pares.

El último es el aprendizaje no supervisado, y lejos de ser la única técnica de este tipo (otra es la estimación de densidad, o hacer preguntas sobre cómo se distribuyen los datos )

También hay un tercer paradigma de aprendizaje principal, el aprendizaje por refuerzo, que responde “¿qué decisión?”

Estos paradigmas no son mutuamente excluyentes. Por ejemplo, la regresión o la clasificación se pueden resolver reduciéndolas a un problema de estimación de densidad (métodos bayesianos ). Otro paradigma híbrido es el aprendizaje semi-supervisado que pregunta ” qué categorías / cantidades, mientras se aprovechan los grupos (muy útil cuando las anotaciones son caras).

La clasificación es que la salida de la red es discreta, en otras palabras, la salida denota la probabilidad de cada clase. Si es binario, hay dos clases; de lo contrario, hay más de dos clases. En la mayoría de los casos, nos preocupamos por el resultado comparativamente, su valor absoluto no es tan importante.

La regresión es que la producción de la red es continua, y el valor de la producción es lo que nos importa. Por ejemplo, si desea predecir el precio de la vivienda de un distrito, entonces la producción de hecho es el precio predicho.

La agrupación en clúster es un método de aprendizaje no supervisado. El objetivo de la agrupación en clúster es dividir los datos en varios grupos según sus características comunes. A veces, las características comunes se deciden por “distancia”.