¿Cuáles son los algoritmos que se pueden usar en R para la predicción de datos categóricos?

Esta es una pregunta muy importante para resolver problemas de ciencia de datos y completar proyectos en estos días. Bueno, las matemáticas no tienen respuestas para datos categóricos. Primero debe convertirlo a representación numérica o factor. Hay tantas funciones en R para hacer eso. “As.factor ()” es un ejemplo. En algunos modelos, puede hacerlo haciendo “type = class”.

Y sobre algoritmos, no está arreglado. Desde mi experiencia, diría que SVM funciona bastante bien para la clasificación categórica. Además, “bosque aleatorio”, “árboles de decisión” y “clasificadores de aumento de gradiente” son muy poderosos para la clasificación. Pero, le sugiero que realice el preprocesamiento antes de crear cualquier modelo inferencial. Haga PCA para verificar el equilibrio de sesgo-varianza, reduzca las dimensiones de los datos si es posible. Pruebe la validación cruzada utilizando el paquete “caret” con diferentes algoritmos en su conjunto de entrenamiento. Luego seleccione el mejor algoritmo para probar su conjunto de datos.

Personalmente por experiencia, prefiero usar SVM para la clasificación categórica si el conjunto de datos es pequeño. Los bosques aleatorios y los árboles de decisión son muy poderosos para la clasificación en conjuntos de datos grandes y medianos por su fuerte estructura relacional y jerárquica. Por supuesto, hay muchos otros algos, así que sigue cavando y prueba cosas diferentes en el conjunto de datos. Esa es la única forma “inherente” de aprender ciencia de datos.

AlgoritmosAnálisis de datosAnálisis PredictivoAprendizaje automáticoMinería de datosR

Related Content

¿Cómo podría implementar un gráfico inductivo en Haskell?

¿Cómo se implementa una cadena de bloques en el código?

Cómo saber si un algoritmo es [matemática] O (n) [/ matemática], [matemática] O (2n) [/ matemática] o [matemática] O (n ^ 2) [/ matemática]

En el software de servidor web, ¿alguna vez se prefiere la ordenación en lugar de la clasificación rápida, porque un ataque DoS podría desencadenar el comportamiento de clasificación rápida en el peor de los casos?

¿Por qué las listas enlazadas son más convenientes que las matrices en el dominio de la computación simbólica?

¿Cuál es la mejor manera de comprender y dominar la estructura de datos?

¿Cuál es el método computacionalmente más eficiente para agregar todos los elementos de una matriz (o matriz)?

La regresión logística se puede usar para predecir la salida binomial categórica (Verdadero o Falso) y la regresión logística multinomial si su salida tiene más de dos datos categóricos (por ejemplo, Bajo, Medio y Alto).

Anant Prakash Awasthi

Hay muchos modelos que se pueden usar para predecir un resultado categórico. Solo en el paquete CAREt 200+ modelos están disponibles.

El paquete caret

Es mejor limitar su búsqueda y luego buscar una metodología.

Espero que sea de ayuda.

Anant Prakash Awasthi

More Interesting

Cómo calcular la correlación de cada fila en una matriz 2D con una matriz 1D de la misma longitud

¿Cuál es el algoritmo más ineficiente para los estándares actuales que se usa ampliamente en la industria?

¿Qué necesitamos antes de comenzar las estructuras de datos?

¿Cuál es una buena fuente para aprender estructuras de datos y algoritmos?

¿Qué es un algoritmo de descubrimiento de ruta de ataque cibernético?

Cómo aprender estructuras de datos usando C ++ de manera simple

¿Las estructuras en lenguaje C son similares a los objetos en Java?

¿Cómo se escribe un programa que verifica todas las permutaciones de una cadena determinada y determina si es un palíndromo?

¿Cuáles son algunos algoritmos informáticos inspirados en la naturaleza?

¿Cuáles son los algoritmos posibles que se pueden usar para ordenar cada cubo en el algoritmo de clasificación de cubo?

¿Cuál es el significado de usar una cola prioritaria en el algoritmo de Dijkstra? ¿Qué diferencia hay si usamos una cola normal?

Cómo encontrar el enésimo número faltante más pequeño de una matriz de números

Cómo crear un sistema de clasificación que dependa de tres variables (nivel, resultado y tiempo) cuanto más altas sean las dos primeras, mejor, mientras que por un tiempo, un valor menor es mejor

¿Cuál es el número total de comparaciones en un tipo de burbuja?

¿Cuál es el proceso de un algoritmo de red neuronal convolucional para un OCR?

Web Analytics