¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?

La regresión se usa para predecir valores continuos . La clasificación se usa para predecir de qué clase es parte un punto de datos ( valor discreto ).

Ejemplo: Tengo una casa con W habitaciones, X baños, Y pies cuadrados y Z de tamaño de lote. Basado en otras casas en el área que se han vendido recientemente, ¿por cuánto (cantidad en dólares) puedo vender mi casa? Usaría la regresión para este tipo de problema.

Ejemplo: Tengo una fruta desconocida de color amarillo, 5.5 pulgadas de largo, diámetro de una pulgada y densidad de X. ¿Qué fruta es esta? Usaría la clasificación para este tipo de problema para clasificarlo como un plátano (en lugar de una manzana o naranja).

Aquí hay una buena infografía para ayudar a razonar a través de los métodos que puede utilizar para su problema:
De: Elegir el estimador correcto Scikit-Learn

En vista de los nuevos temas de TI (AI, IoT, datos grandes / rápidos, análisis, blockchain, etc.), ¿hay alguna ventaja en aprender la programación de Python?

Cómo hacer que una red neuronal funcione como PCA

¿Qué es el preprocesamiento de audio?

¿Debería incluirse el error de salida en la retropropagación en el bucle?

¿Cuál es la diferencia entre máquinas de vectores de soporte y aprendizaje profundo?

¿Cómo difiere el proceso de solicitud para los Premios de Investigación de Google del proceso de solicitud de subvención académica estándar?

Aunque la clasificación y la regresión se encuentran bajo el mismo paraguas del aprendizaje automático supervisado y comparten el concepto común de usar datos pasados para hacer predicciones o tomar decisiones, ahí es donde termina su similitud.

Dejame explicarte con un ejemplo:

¿Alguna vez te has preguntado cómo Gmail puede clasificar algo como spam o no spam?

El proceso detrás de esto es enseñar un modelo para identificar cualquier correo entrante, entrenándolo con millones de correos electrónicos que ya se han determinado como spam o no. Para clasificar el correo como spam, se tienen en cuenta las siguientes cosas:

Si el correo contiene términos relacionados con spam como “lotería”
Si los usuarios han clasificado el correo como spam
Con qué frecuencia se reciben

CLASIFICACIÓN

Ahora con estos correos electrónicos, el modelo está capacitado para identificar nuevos correos electrónicos.

Aquí hay una imagen del proceso:

Entonces, aquí, después de que el sistema haya sido entrenado para identificar correos electrónicos, cuando nuevos correos electrónicos lleguen a su bandeja de entrada, se clasificarán automáticamente como spam o no spam.

Los problemas de clasificación requieren que los elementos se dividan en diferentes categorías, en función de datos anteriores. En cierto modo, estamos resolviendo un problema de sí / no. Si algo cumple con los estándares requeridos, o si está roto o no, etc.

REGRESIÓN

Ahora con un problema de regresión, el sistema intenta predecir un valor para una entrada en base a datos pasados. A diferencia de la clasificación, estamos prediciendo un valor basado en datos pasados, en lugar de clasificarlos en diferentes categorías.

Digamos que desea predecir si llovería y, si lo hace, cuánta lluvia recibiría.

La probabilidad de la cantidad de lluvia que obtendríamos hoy se puede calcular midiendo otros factores climáticos como la temperatura, la humedad, la presión, la velocidad del viento, la dirección del viento y luego viendo cómo se correlacionan con las lluvias en el pasado. Si las mediciones tomadas hoy están fuertemente correlacionadas con los días en que llovió, entonces la probabilidad de que llueva es alta hoy.

Espero que esto te ayude a entender. Si está interesado en obtener más información sobre el aprendizaje automático y obtener un conocimiento profundo, consulte nuestra Capacitación sobre certificación de aprendizaje automático .

Damian Sowinski

Los problemas de regresión y clasificación pertenecen a la categoría supervisada de aprendizaje automático. En el aprendizaje automático supervisado, se aprende un modelo o una función de los datos para predecir los datos futuros. En términos simples, y = f (x) es un modelo predictivo aprendido del conjunto de datos D = {(X1, y1), … (Xn, y2} donde X es el vector de entrada e y es la salida.

Según el tipo de producto y, los problemas de aprendizaje se clasifican en regresión y clasificación. En caso de clasificación, la variable de salida es discreta y en regresión, la variable de salida es continua.

Pralhad Teggi

En ambos casos tenemos datos que viven en algún espacio. El objetivo de la regresión es encontrar superficies en ese espacio que mejor se “ajusten” a la distribución general de los datos. Entonces se pueden usar estas superficies para predecir dónde podría existir un nuevo dato. El objetivo de la clasificación es encontrar superficies que separen mejor los diferentes grupos de datos. Estos ‘límites de decisión’ luego le permiten diferenciar entre clases de datos y clasificar cualquier dato nuevo.

Pralhad Teggi

Ambos se relacionan con el aprendizaje supervisado de manera tal que
En la máquina de regresión tiene que predecir la salida solo por otro lado, en caso de que la máquina de clasificación también tenga que identificar la clase / tipo / categoría de la salida, es decir, si la entrada es frutas y la salida es el número de frutas (incluyendo plátano, manzana, mango, etc. .) entonces este puede ser el caso de la regresión si la producción deseada es cuántas frutas según el tipo, entonces la producción deseada puede ser como N plátanos N manzanas y N mangos

Pralhad Teggi

La regresión y la clasificación están relacionadas con la predicción, donde la regresión predice un valor de un conjunto continuo, mientras que la clasificación predice la ‘pertenencia’ a la clase.

por ejemplo: el precio de una casa dependiendo del ‘tamaño’ (pies cuadrados o cualquier unidad) y decir ‘ubicación’ de la casa, puede ser algún ‘valor numérico’ (que puede ser continuo): esto se relaciona con la regresión.

De manera similar, la predicción del precio puede ser en palabras, a saber, ‘muy costoso’, ‘costoso’, ‘asequible’, ‘barato’ y ‘muy barato’: esto se relaciona con la clasificación.

Cada clase puede corresponder a algún rango de valores.

Syed Muhammad Ali

En el problema de regresión, estamos tratando de predecir el valor de una función con valor continuo. Mientras que en la clasificación, tratamos de encontrar la etiqueta de clase correcta para la entrada dada. La capacitación a partir de los datos de entrada es común en ambas tareas.

Kaushik Kasi

En un problema de regresión, estamos tratando de predecir resultados dentro de una salida continua, lo que significa que estamos tratando de asignar variables de entrada a alguna función continua. En la regresión, en un problema de clasificación, en cambio estamos tratando de predecir resultados en un resultado discreto.

Ejemplo:

Dada la información sobre el tamaño de las casas en el mercado inmobiliario, intente predecir su precio. El precio en función del tamaño es una salida continua , por lo que este es un problema de regresión.

Podríamos convertir este ejemplo en un problema de clasificación al hacer nuestra producción sobre si la casa “se vende por más o menos que el precio de venta”. Aquí estamos clasificando las casas según el precio en dos categorías discretas .

Damian Sowinski

More Interesting

¿Cuál es la diferencia entre Deconvolución, Upsampling, Unpooling y Convolutional Sparse Coding?

Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?

¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?

¿Qué técnicas son buenas para suavizar los clics de las consultas de cola larga en los motores de búsqueda?

¿Cuál es el mejor libro sobre Support Vector Machines?

¿Cuántas de las noticias sobre IA y DL en este momento son sobre nuevas innovaciones y cuánto sobre aplicaciones? ¿Cuánto de eso es bombo? ¿Habrá una meseta pronto?

¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?

¿A quién demuestra que los núcleos radiales son núcleos válidos? ¿Cómo se muestra esto mediante la integración de características?

¿Es un 'predictor de la siguiente palabra' que hice el aprendizaje automático o el procesamiento del lenguaje natural?

¿Cuáles son las ventajas de ReLU sobre softmax en la red neuronal profunda?