Cuando tenemos un problema de clasificación, usualmente usamos datos nominales. Los datos nominales no tienen ningún orden. Ejemplos son: gatos, perros, caballos; o pan, mantequilla, leche, etc.
Bueno. Veamos qué sucede cuando tenemos clases ordinales al realizar la clasificación. Déjame tomar tu ejemplo de ingresos.
Digamos que tiene tres “clases” de ingresos: bajo, medio y alto. Su algoritmo tendrá entradas que intentarán clasificar las observaciones en baja, media y alta. Sin embargo, está perdiendo una información muy importante.
- En ajedrez, ¿por qué es tan ventajoso jugar al blanco?
- ¿Qué hizo que Palantir fuera tan exitoso?
- ¿Cuál es la herramienta de big data más fácil que se puede utilizar para el aprendizaje automático?
- ¿Qué son los grados fantasmas de libertad?
- ¿De qué se trata este bombo de big data?
alto> medio> bajo
Lo sabes, pero no se lo estás contando a tu algoritmo. Al usar la clasificación, se comunica esencialmente la idea de que sus categorías son como gatos, perros y caballos: sin relación, sin orden.
Como sabemos muy bien, un gato no es “más grande” que un perro. Ni siquiera tiene sentido decir: gato> perro. Es por eso que tenemos diferentes clases para ellos. Una combinación de entradas le daría una salida, que no está relacionada con otra.
Con su ejemplo de ingresos, sin embargo, puede tener este caso:
- Una combinación de insumos: 30 años de edad, educación secundaria , etc.
Produce: bajos ingresos - Otra combinación de insumos: 30 años de edad, doctorado , etc. produce altos ingresos.
- Tercera observación: 30 años, licenciatura , etc. El resultado debería estar en algún lugar entre “sin educación” y “doctorado”, ¿verdad?
Bueno, al menos eso es lo que esperamos cuando vamos a la universidad.
Hemos instruido al algoritmo que
Doctorado> Bachillerato> educación secundaria
Pero no le hemos dicho que alto> medio> bajo.
Clasificación, no te deja hacer eso. Esencialmente, tiene que ver suficientes muestras con una licenciatura y aprender que van a medio o alto, o lo que sea. No puede usar ninguna información sobre las clases que tenemos.
Una solución a este problema es usar la regresión , en lugar de la clasificación. Con una regresión, se define muy claramente que existe cierta jerarquía.
En presencia de una regresión, todo lo demás igual, entradas más grandes producen salidas más grandes.
Con la clasificación no podemos hacer esa afirmación. Hay algunos documentos sobre el tema que realmente realizan la clasificación de datos ordinales con gran éxito, pero estos son valores atípicos.
Esa es más o menos la respuesta. Espero que ayude 🙂