Recomiendo No use Hadoop: sus datos no son tan grandes: explica muy bien qué tecnologías podría usar dependiendo del tamaño de sus datos.
Si desea crear un servicio de recomendación, creo que el filtrado colaborativo es una buena manera de comenzar. Trabajé con las bibliotecas Mahout y Spark Machine Learning y son muy fáciles de usar e implementar:
Mahout enlaces útiles:
1. Aprendizaje automático escalable y minería de datos
2. Capítulo de recomendación de Mahout en acción
http://openresearch.baidu.com/u/…
- ¿Realmente hace una diferencia entre los programas de EM de uno y dos años en los Estados Unidos, con respecto al campo de la ciencia de datos en términos de conseguir un trabajo también?
- ¿Cómo es el alcance del big data (analítico) en todo el mundo y también en India en los próximos años?
- ¿Qué paquete R es el más utilizado por los científicos de datos para la visualización de datos?
- ¿Qué se necesita para clasificar dentro del # 10 en Kaggle? ¿Cuál es el camino de aprendizaje ideal para un principiante en ciencia de datos? ¿Qué todas las tecnologías y habilidades necesita adquirir y en qué orden? ¿Cuánto tiempo se tarda?
- ¿Cuáles son algunas de las aplicaciones más útiles para la minería de datos?
Chispa:
1. La Guía de programación de la Biblioteca de aprendizaje automático (MLlib) es un muy buen lugar para comenzar
2. Este tutorial Guía de programación de la Biblioteca de aprendizaje automático (MLlib)
Si desea un curso “rápido” de 4 horas a través de recomendaciones, pruebe las conferencias de Xavier Amatriain en MLSS 2014