Esta es una pregunta muy importante para resolver problemas de ciencia de datos y completar proyectos en estos días. Bueno, las matemáticas no tienen respuestas para datos categóricos. Primero debe convertirlo a representación numérica o factor. Hay tantas funciones en R para hacer eso. “As.factor ()” es un ejemplo. En algunos modelos, puede hacerlo haciendo “type = class”.
Y sobre algoritmos, no está arreglado. Desde mi experiencia, diría que SVM funciona bastante bien para la clasificación categórica. Además, “bosque aleatorio”, “árboles de decisión” y “clasificadores de aumento de gradiente” son muy poderosos para la clasificación. Pero, le sugiero que realice el preprocesamiento antes de crear cualquier modelo inferencial. Haga PCA para verificar el equilibrio de sesgo-varianza, reduzca las dimensiones de los datos si es posible. Pruebe la validación cruzada utilizando el paquete “caret” con diferentes algoritmos en su conjunto de entrenamiento. Luego seleccione el mejor algoritmo para probar su conjunto de datos.
Personalmente por experiencia, prefiero usar SVM para la clasificación categórica si el conjunto de datos es pequeño. Los bosques aleatorios y los árboles de decisión son muy poderosos para la clasificación en conjuntos de datos grandes y medianos por su fuerte estructura relacional y jerárquica. Por supuesto, hay muchos otros algos, así que sigue cavando y prueba cosas diferentes en el conjunto de datos. Esa es la única forma “inherente” de aprender ciencia de datos.
- Cómo implementar un código C para la eliminación de un nodo de una lista vinculada considerando todos los casos de prueba
- ¿Cuál es el algoritmo de clave pública y privada?
- ¿Cuál es una manera de ordenar una matriz en C por una entrada simple?
- ¿Por qué la clasificación de montón se considera un algoritmo in situ?
- ¿Cuál es el algoritmo más simple que permite a un robot descubrir e inventar?