¿Cuál es la mejor manera de implementar mi algoritmo de reducción de dimensiones?

Definitivamente no hay una manera única. Pero una forma sería almacenar la lista de canciones para cada etiqueta (en cuanto a memoria, esto sería mucho más eficiente que almacenar un vector característico para cada etiqueta, ya que tenemos 10,000 etiquetas, lo que hace que los datos sean muy escasos). Entonces, la similitud entre dos etiquetas podría representarse como el tamaño de la intersección entre sus respectivas listas de canciones. Si somos un poco cuidadosos y almacenamos la lista en un orden ordenado (de las ID de las canciones), entonces encontrar la intersección que se puede hacer es una manera muy eficiente (vea Encontrar la intersección de dos matrices ordenadas). Por supuesto, dicho método requeriría una pasada completa de todos los datos para crear la lista de canciones para cada etiqueta. Pero supongo que tal conjunto de datos evolucionará lentamente con el tiempo, y siempre podemos actualizar las listas existentes en lugar de tener que crearlas de nuevo cada vez.

En general, para datos dispersos, almacenar información como una lista de entidades en lugar de un vector largo disperso siempre es más eficiente, tanto en términos de memoria como de tiempo.

More Interesting

¿Se pueden describir las redes adversas generativas como un método de entrenamiento en el que se aprende la función de pérdida en lugar de seleccionarse manualmente?

¿Cuáles son algunos de los problemas de aprendizaje automático (nivel introductorio) que un estudiante de economía puede modelar con los datos disponibles para una tesis de licenciatura?

Tengo problemas para mejorar el rendimiento de mi red neuronal a medida que aumento el número de unidades, ¿cuál podría ser el problema?

¿Cuál es la relación entre un modelo múltiple que interactúa y un filtro de Kalman?

¿Cuál es la diferencia entre lógica difusa y aprendizaje automático?

¿Cómo almacena un sistema de aprendizaje automático su memoria aprendida?

¿Por qué es importante aprender el descenso de gradiente en el aprendizaje automático?

¿Cómo se comparan las bibliotecas de aprendizaje automático de C ++ con las disponibles en Python?

¿Cuáles son las principales empresas que trabajan en Deep Reinforcement Learning aparte de DeepMind y OpenAI?

¿La variable de tiempo muestra una conexión recurrente en RNN?

¿Cuál es la diferencia entre embolsado y bootstrapping en ML / estadísticas?

¿Cuál es el algoritmo de aprendizaje automático más rápido para implementar para la detección de fraudes?

¿Qué compañías con sede en Dallas están desarrollando y / o invirtiendo en tecnologías de Inteligencia Artificial / Aprendizaje Automático?

¿Qué es más exigente, desarrollo de aplicaciones, aprendizaje automático, aprendizaje profundo, inteligencia artificial o IOT?

¿Qué pila de tecnología usa Akinator?