¿Por qué la clasificación funciona mejor para predecir conjuntos de datos con categorías nominales o binarias que los conjuntos de datos con categorías ordinales (como las clases de ingresos)?

Cuando tenemos un problema de clasificación, usualmente usamos datos nominales. Los datos nominales no tienen ningún orden. Ejemplos son: gatos, perros, caballos; o pan, mantequilla, leche, etc.

Bueno. Veamos qué sucede cuando tenemos clases ordinales al realizar la clasificación. Déjame tomar tu ejemplo de ingresos.

Digamos que tiene tres “clases” de ingresos: bajo, medio y alto. Su algoritmo tendrá entradas que intentarán clasificar las observaciones en baja, media y alta. Sin embargo, está perdiendo una información muy importante.

alto> medio> bajo

Lo sabes, pero no se lo estás contando a tu algoritmo. Al usar la clasificación, se comunica esencialmente la idea de que sus categorías son como gatos, perros y caballos: sin relación, sin orden.

Como sabemos muy bien, un gato no es “más grande” que un perro. Ni siquiera tiene sentido decir: gato> perro. Es por eso que tenemos diferentes clases para ellos. Una combinación de entradas le daría una salida, que no está relacionada con otra.

Con su ejemplo de ingresos, sin embargo, puede tener este caso:

Una combinación de insumos: 30 años de edad, educación secundaria , etc.
Produce: bajos ingresos
Otra combinación de insumos: 30 años de edad, doctorado , etc. produce altos ingresos.
Tercera observación: 30 años, licenciatura , etc. El resultado debería estar en algún lugar entre “sin educación” y “doctorado”, ¿verdad?

Bueno, al menos eso es lo que esperamos cuando vamos a la universidad.

Hemos instruido al algoritmo que

Doctorado> Bachillerato> educación secundaria

Pero no le hemos dicho que alto> medio> bajo.

Clasificación, no te deja hacer eso. Esencialmente, tiene que ver suficientes muestras con una licenciatura y aprender que van a medio o alto, o lo que sea. No puede usar ninguna información sobre las clases que tenemos.

Una solución a este problema es usar la regresión , en lugar de la clasificación. Con una regresión, se define muy claramente que existe cierta jerarquía.

En presencia de una regresión, todo lo demás igual, entradas más grandes producen salidas más grandes.

Con la clasificación no podemos hacer esa afirmación. Hay algunos documentos sobre el tema que realmente realizan la clasificación de datos ordinales con gran éxito, pero estos son valores atípicos.

Esa es más o menos la respuesta. Espero que ayude 🙂

Análisis deAprendizaje automáticoCiencia de datosConjuntos de datosdatos

¿Cómo es trabajar con DJ Patil?

¿Cómo podemos usar el aprendizaje automático y la ciencia de datos para tener un impacto significativo en el campo agrícola en la India?

¿Qué tan importante es la prueba A / B para un científico de datos que trabaja en una empresa de tecnología?

¿Cuáles son las definiciones de 'experimento, prueba, replicación, repetición, datos, mediciones' en estadística?

Cómo actualizar el ancho de banda en mi lugar de trabajo

¿Hay alguna posibilidad de convertirse en un ingeniero de big data sin tener conocimientos de Java o conocimientos de codificación?

Generalmente porque su algoritmo de clasificación estándar trata las diferentes clases como mutuamente excluyentes y excluye el concepto de vinculación entre las clases. Para los casos en que su clasificación es nominal, esto funciona perfectamente. El problema principal con las clases ordinales es que su modelo puede estar optimizándose para una separación entre dos ejemplos muy similares.

Por ejemplo: si tengo dos categorías ordinales, digamos rangos de ingresos, dos de mis clases podrían ser $ 50k – $ 75k y $ 75k – $ 100k. Esto significa que puede tener ejemplos que está tratando de categorizar en $ 74,999 y $ 75,001. Estos son casi idénticos, pero al configurar el problema como una tarea de clasificación, le está diciendo implícitamente a su modelo que la diferencia entre un salario de $ 74,999 y $ 75,001 es tan grande como la diferencia entre $ 50,000 y $ 100,000.

Baste decir que obligar a un modelo a intentar ajustar una representación de datos no nativa conduce a un peor rendimiento del modelo que si lo tratara directamente como un problema de regresión.

Iliya Valchanov

More Interesting

¿Cuánto se relacionan estos términos como ciencia de datos, aprendizaje automático, inteligencia artificial e internet de las cosas con el mundo venidero? ¿De dónde puedo aprender estos temas? ¿Cuánto están relacionados con la ingeniería de comunicación electrónica?

¿A qué empresa debo postularme para un trabajo si soy ciudadano de la UE y quiero trabajar en los Estados Unidos?

¿Se saturará el mercado laboral para estadísticos y científicos de datos en los Estados Unidos en los próximos 5 años?

¿Cómo nos pueden decir las estadísticas sobre la causalidad?

Cómo aprender las pruebas de Big Data en 1 mes

¿Hay un curso sobre Hadoop / data science en ETS, Montreal?

¿Cuáles son las tendencias en análisis de big data?

¿Qué es el Big Data POC?

¿Es la ciencia de datos una sólida trayectoria profesional o simplemente otro rol sensacional que desaparecerá después de unos años de prominencia?

¿Cuál es el mejor centro en Chennai para recibir capacitación científica en DATA?