Puedes ver el concurso de Yelp de DrivenData. Este iPython Notebook describe detalles, desde reseñas crudas de Yelp hasta un modelo de violaciones de higiene (en 3 sencillos pasos). En resumen
- Trata tu problema como un problema de regresión
- Sus características serían una colección de características textuales extraídas a mano (p. Ej., Uso de palabras positivas / negativas), vectores tf-idf de auto-comentario y comentario de revisor
- Utilice el modelo de regresión de mínimos cuadrados ordinarios y realice una validación cruzada.
Dependiendo de los resultados, puede
- Elija más extracción de características: por ejemplo, Word2Vec. Usar validación cruzada
- Elija modelos alternativos: regresor forestal aleatorio con validación cruzada o eliminación de características recursivas
- Finalmente, puede ensamblar sus modelos. Kaggle Ensembling Guide. Probaría Neural Network, OLS Regression y Random Forests.
Nota: He pegado enlaces de Python pero creo que puedes R equivalente para el mismo
- ¿Cuál es el propósito de usar más de una capa convolucional en una red neuronal convolucional?
- ¿Qué debo hacer para un bot de chat con aprendizaje automático?
- ¿Desde dónde puedo aprender la implementación del aprendizaje automático en Python?
- ¿Qué tan útil es un trabajo cuantitativo en Goldman Sachs para un doctorado posterior en Machine Learning?
- ¿Qué condiciones se deben cumplir para que el tiempo de ejecución se acelere al usar GPU para redes neuronales (NN)?