¿Por qué la clasificación funciona mejor para predecir conjuntos de datos con categorías nominales o binarias que los conjuntos de datos con categorías ordinales (como las clases de ingresos)?

Cuando tenemos un problema de clasificación, usualmente usamos datos nominales. Los datos nominales no tienen ningún orden. Ejemplos son: gatos, perros, caballos; o pan, mantequilla, leche, etc.

Bueno. Veamos qué sucede cuando tenemos clases ordinales al realizar la clasificación. Déjame tomar tu ejemplo de ingresos.

Digamos que tiene tres “clases” de ingresos: bajo, medio y alto. Su algoritmo tendrá entradas que intentarán clasificar las observaciones en baja, media y alta. Sin embargo, está perdiendo una información muy importante.

alto> medio> bajo

Lo sabes, pero no se lo estás contando a tu algoritmo. Al usar la clasificación, se comunica esencialmente la idea de que sus categorías son como gatos, perros y caballos: sin relación, sin orden.

Como sabemos muy bien, un gato no es “más grande” que un perro. Ni siquiera tiene sentido decir: gato> perro. Es por eso que tenemos diferentes clases para ellos. Una combinación de entradas le daría una salida, que no está relacionada con otra.

Con su ejemplo de ingresos, sin embargo, puede tener este caso:

  1. Una combinación de insumos: 30 años de edad, educación secundaria , etc.
    Produce: bajos ingresos
  2. Otra combinación de insumos: 30 años de edad, doctorado , etc. produce altos ingresos.
  3. Tercera observación: 30 años, licenciatura , etc. El resultado debería estar en algún lugar entre “sin educación” y “doctorado”, ¿verdad?

Bueno, al menos eso es lo que esperamos cuando vamos a la universidad.

Hemos instruido al algoritmo que

Doctorado> Bachillerato> educación secundaria

Pero no le hemos dicho que alto> medio> bajo.

Clasificación, no te deja hacer eso. Esencialmente, tiene que ver suficientes muestras con una licenciatura y aprender que van a medio o alto, o lo que sea. No puede usar ninguna información sobre las clases que tenemos.

Una solución a este problema es usar la regresión , en lugar de la clasificación. Con una regresión, se define muy claramente que existe cierta jerarquía.

En presencia de una regresión, todo lo demás igual, entradas más grandes producen salidas más grandes.

Con la clasificación no podemos hacer esa afirmación. Hay algunos documentos sobre el tema que realmente realizan la clasificación de datos ordinales con gran éxito, pero estos son valores atípicos.

Esa es más o menos la respuesta. Espero que ayude 🙂

Generalmente porque su algoritmo de clasificación estándar trata las diferentes clases como mutuamente excluyentes y excluye el concepto de vinculación entre las clases. Para los casos en que su clasificación es nominal, esto funciona perfectamente. El problema principal con las clases ordinales es que su modelo puede estar optimizándose para una separación entre dos ejemplos muy similares.

Por ejemplo: si tengo dos categorías ordinales, digamos rangos de ingresos, dos de mis clases podrían ser $ 50k – $ 75k y $ 75k – $ 100k. Esto significa que puede tener ejemplos que está tratando de categorizar en $ 74,999 y $ 75,001. Estos son casi idénticos, pero al configurar el problema como una tarea de clasificación, le está diciendo implícitamente a su modelo que la diferencia entre un salario de $ 74,999 y $ 75,001 es tan grande como la diferencia entre $ 50,000 y $ 100,000.

Baste decir que obligar a un modelo a intentar ajustar una representación de datos no nativa conduce a un peor rendimiento del modelo que si lo tratara directamente como un problema de regresión.

More Interesting

¿Cuánto se relacionan estos términos como ciencia de datos, aprendizaje automático, inteligencia artificial e internet de las cosas con el mundo venidero? ¿De dónde puedo aprender estos temas? ¿Cuánto están relacionados con la ingeniería de comunicación electrónica?

¿A qué empresa debo postularme para un trabajo si soy ciudadano de la UE y quiero trabajar en los Estados Unidos?

¿Se saturará el mercado laboral para estadísticos y científicos de datos en los Estados Unidos en los próximos 5 años?

¿Cómo nos pueden decir las estadísticas sobre la causalidad?

Cómo aprender las pruebas de Big Data en 1 mes

¿Hay un curso sobre Hadoop / data science en ETS, Montreal?

¿Cuáles son las tendencias en análisis de big data?

¿Qué es el Big Data POC?

¿Es la ciencia de datos una sólida trayectoria profesional o simplemente otro rol sensacional que desaparecerá después de unos años de prominencia?

¿Cuál es el mejor centro en Chennai para recibir capacitación científica en DATA?

¿Qué campo es mejor (para el crecimiento profesional en TI y seguridad laboral en los próximos cinco años), RPA (Robotics Process Automation) o Data Science?

¿En qué medida los roles de Data Science requieren familiaridad con Machine Learning?

¿Qué motivó la minería de datos?

Entre la criptografía y la seguridad de la red, el procesamiento de imágenes y la minería de datos, ¿qué 2 asignaturas son mejores como asignatura optativa?

Cómo avanzar mi habilidad R al siguiente nivel