Modelo similar: ¿Cuál es el mejor algoritmo para usar en grandes conjuntos de datos?

Este es un problema interesante.

Hay muchas ideas y algoritmos para los vecinos más cercanos en grandes dimensiones, la mayoría de las veces si tiene muchos datos desea un algoritmo de aproximación para NN. Una posible solución es usar LSH (hashing sensible a la localidad) junto con la distancia de Hamming, esto puede ser muy rápido y hay muchas formas de ajustarlo, esto funciona bien en general cuando desea encontrar vectores que sean similares a otros, pero usted No son muy estrictos acerca de la similitud.

Existen otros enfoques para aproximar el problema, algunos construyen un gráfico, otros usan K-medias para comparar primero con k centroides y luego con los puntos asociados con los n centroides más cercanos, etc.

Si tomamos una vista desde fuera del problema de los vecinos más cercanos si sus datos son como los describe, creo que las máquinas de factorización pueden ser un algoritmo a considerar. En este caso, el algoritmo “aprenderá” las características para cada usuario en su problema y la similitud entre los usuarios será un producto interno entre estos vectores aprendidos, es posible que pueda usar FM para resolver su problema sin siquiera calcular similitudes.

¿Qué es un algoritmo en términos simples?

¿Por qué el NN recurrente agrega el paso T-1 a la entrada actual pero se concatena?

¿Cuál es el tiempo de ejecución del método sort () en la biblioteca de Colecciones?

Actualmente estoy leyendo un libro sobre estructuras de datos y algoritmos. ¿Cuáles son algunos recursos que puedo usar para practicar la implementación?

¿Puede alguien sin antecedentes de cálculo aprender estructuras de datos y algoritmos leyendo CLRS?

¿Por qué la inevitabilidad de la IA u otra tecnología me hace querer ponerme un arma en la cabeza?

Las máquinas de vectores de soporte (SVM) están diseñadas para manejar datos de alta dimensión. Puede ser un proceso lento, pero en general da muy buenos resultados debido al truco del núcleo (asigna datos a espacios dimensionales superiores donde es separable linealmente). Puede usar LIBSVM que es una biblioteca SVM de código abierto escrita en C (LIBSVM – Una biblioteca para máquinas de vectores de soporte). También puede usar algunas técnicas de selección de funciones para reducir la cantidad de funciones (como PCA) y reducir la complejidad de su problema.

Ron Shefi

Realmente depende del comportamiento que buscas y la forma exacta de los datos.

Los vecinos más cercanos también tienen varios tipos diferentes de implementaciones, varias de las cuales son aproximadas y pueden ser muy rápidas, como FLANN y ANNOY.

Si no está buscando vecinos cercanos, sino simplemente tratando de agrupar a los usuarios en una cantidad no demasiado grande de contenedores, (como 10s o 100s) el mini lote k significa que es ideal para agruparse con muchos usuarios.

Nuevamente, dependiendo de los datos y el caso de uso, siempre podría submuestras. Muchos algoritmos no necesitan cientos de millones de muestras para funcionar bien; a veces todo lo que necesitas es 10s de miles o 100s de miles.

Ron Shefi

More Interesting

¿Es seguro decir que un algoritmo iterativo es mejor que el recursivo para el mismo problema dado que ambos son de la misma complejidad temporal?

¿Cómo los algoritmos de programación dinámica son mejores que otros algoritmos?

¿Cuál es la recurrencia de este problema DP?

¿Por qué son importantes las estructuras de datos y los algoritmos?

¿Cuál es el algoritmo más eficiente para descubrir el punto de silla de una matriz?

¿Podemos utilizar el algoritmo de Clasificación colectiva iterativa (ICA) de forma distributiva para procesar grandes datos?

¿Cómo se puede calcular su edad en días? Necesito el algoritmo más simplificado para resolverlo.

¿Qué es mejor para la programación competitiva, la introducción del MIT a los algoritmos o los tutoriales de TopCoder?

¿Podemos encontrar si la matriz no contiene un elemento mayoritario en un tiempo casi constante?

¿Cómo funciona el algoritmo SCC de Tarjan?