¿Hay conjuntos de datos abiertos que contengan textos y calificaciones de los usuarios para ellos?

Puede descargar el conjunto de datos MovieLens 1M y explotar la información de género para un sistema de recomendación básico basado en contenido (CB-RecSys). Además, puede usar un mapeo de DBpedia (sisinflab / LODrecsys-datasets) que contiene un URI de DBpedia para cada película y descargar, usando consultas SPARQL, todos los datos que necesita, como la página de Wikipedia o algunas propiedades específicas asociadas a entidades de películas.

Después de eso, debe diseñar una metodología específica para representar los elementos y usuarios que debe explotar para generar sugerencias. Un enfoque común y simple es representar elementos como los vectores TF-IDF calculados a partir de sus descripciones y modelar el vector de usuario como el centroide de los elementos que le gustan. Después de eso, puede hacer una recomendación top-N clasificando cada elemento en orden decreciente por el puntaje de similitud entre el elemento y la representación vectorial del usuario.

Si desea obtener más información al respecto, le sugiero que lea el último capítulo del Manual del sistema de recomendaciones sobre sistemas de recomendación basados ​​en contenido basados en la semántica que describe muchas metodologías utilizadas para aumentar las capacidades de CB-RecSys.

Debe echar un vistazo al conjunto de datos de Amazon Snap:

https://snap.stanford.edu/data/w

Es posible que desee ver este

Tengo todos los comentarios de Reddit disponibles públicamente para investigación. ~ 1.7 billones de comentarios a 250 GB comprimidos. ¿Algún interés en esto? • / r / conjuntos de datos

Cada comentario tiene un “puntaje” que puede indicar una calificación, aunque puede diferir un poco en diferentes subreddits:

Los comentarios principales de r / chistes son probablemente seguimientos cortos y divertidos, mientras que los comentarios principales de r / eli5 indican la precisión (y simple) de la respuesta, etc.

More Interesting

¿Hay algún lugar para ingenieros de software que no aprendan IA o Machine Learning en los próximos 10 años o todos tienen que aprenderlo?

¿Cuándo las funciones coercitivas tienen un minimizador?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Qué temas de matemáticas recomienda Conner Davis a alguien interesado en el aprendizaje automático teórico para aprender en su tiempo libre?

¿Qué sucede si hacemos que la forma de una función de activación sea diferente en cada capa, permitiendo que también se aprenda su forma, si las capas superiores tienen menos unidades, haciéndolas más no lineales?

¿Es el análisis de datos funcionales simplemente renombrado análisis wavelet en estadísticas?

¿Hay algún conjunto de datos o API que proporcione una lista de palabras poco frecuentes?

¿Cuáles son los grandes problemas en la inferencia variacional?

¿Cuál es el significado de la optimización convexa en el aprendizaje automático?

¿Vale la pena adquirir un conocimiento profundo tanto del aprendizaje automático como de la biología? ¿Debo concentrarme?

¿Qué consejo le darías a alguien que acaba de comenzar el curso de Andrew Ng sobre aprendizaje automático?

¿Qué distingue una capa de una red neuronal de otras capas?

¿Cuál es la diferencia entre tensorflow y CVX?

¿Qué nuevas empresas están buscando actualmente científicos de datos?

¿Qué significa estadísticas de coexistencia?