¿Cuál es la mejor manera de predecir una clase +/- en un escenario de aprendizaje automático donde tengo k características trinarias y un conjunto de datos del orden de cientos o miles?

Suponiendo que las características no son ordinales (e incluso si lo son), comenzaría con ingenuos bayes.
Maneja las características categóricas correctamente y, a menudo, produce resultados sorprendentemente buenos. Puede configurarlo fácilmente con R (solo reemplace los datos del iris con sus datos):

#get the data data<-iris #get data statistics summary(data) #split to train and test randomly index<-1:nrow(data) train<-sample(index,100) test<-index[-train] #install the needed package for Naive Bayes (called e1071) if(require("e1071")==FALSE) install.packages("e1071") #create an instance of the Naive Bayes classifier classifier<-naiveBayes(data[train,1:4], data[train,5]) #predict results<-predict(classifier, data[test,-5]) #show results table(results, data[test,5])

También puede encontrar una implementación en Python, Weka, RapidMiner y, básicamente, en cualquier otra plataforma de análisis.

Related Content

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

¿Qué núcleo (para los métodos de núcleo en el aprendizaje automático) es menos sensible a la alta dimensión: cauchy, gaussiana o laplaciana?

¿Será la Universidad de Gotemburgo un buen lugar para estudiar el procesamiento del lenguaje natural con CLASP en camino?

¿Cuál es la diferencia entre la regresión de mínimos cuadrados ordinarios y la regresión lineal con el método de mínimos cuadrados?

¿Qué es mejor para mí como estudiante? ¿Debería codificar los modelos de aprendizaje automático (donde pueda) o debería usar la biblioteca tanto como pueda?

¿Debería un científico de datos novato centrarse en conceptos matemáticos o herramientas?

¿Cuál es una buena puntuación porcentual en los problemas de conocimiento de Kaggle para principiantes?

More Interesting

¿Qué IIT en India tiene el mejor programa de CS para el aprendizaje automático?

¿Cómo escriben las personas pruebas automatizadas para sus algoritmos estocásticos?

¿Cómo manejan las empresas en Silicon Valley sus datos de flujo de red?

¿Cuál es la diferencia entre el condicionamiento operante y el aprendizaje de refuerzo?

Después de la selección de características utilizando el método de rankeador, WEKA, el número de atributos en el conjunto de prueba es diferente del conjunto de entrenamiento. ¿Cómo los comparas?

¿Cuáles son los algoritmos utilizados en los sistemas de preguntas y respuestas en PNL?

¿Qué hace que un modelo sea interpretable?

Cómo recopilar datos para problemas de la vida real mientras se entrena un modelo de aprendizaje automático

¿Cómo reconocemos a un usuario en particular en un registro de chat de Internet multiusuario largo?

¿Qué es el preprocesamiento de audio?

¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?

¿Por qué la similitud entre palabras generalmente se calcula a través del coseno métrico, no euclidiano?

¿Cómo puede un estudiante de primer año en la universidad comenzar su viaje para una carrera en ML e IA?

¿De dónde viene el gráfico en una red bayesiana?

¿Qué área de IA y aprendizaje profundo es útil para vehículos autónomos?

Web Analytics