¿Cuál es la mejor base de datos para almacenar vectores de características de gran tamaño para su posterior recuperación y calcular las mediciones de distancia para la coincidencia de similitudes?

Si la estructura de su vector de características es estática y sus criterios de búsqueda cambian, puede que le ayude utilizar una base de datos de almacenamiento en columnas como vertical, c-store, … Debido a que el db contiene valores por ‘colomn’, no necesitará extraer ( y el descarte) entradas de vector que no sirven de nada, ya que serán bases de datos de almacenamiento en fila, como Oracle, Postgres, SQL Server en modo de ejecución estándar.

Puede escribir el suyo sin demasiado alboroto creando ‘índices’ sobre sus entradas y admitiendo operaciones booleanas y filtrado. Depende del tamaño, la velocidad y los requisitos de flexibilidad de búsqueda.

El problema es que ‘vector’ no es un tipo de datos estándar en las bases de datos, por lo que enseñar a db a ‘hacer’ operaciones de vectores puede ser … difícil con resultados marginales (los grandes datos con gran procesamiento llevan tiempo).

Pruebe los paquetes matemáticos y / o estadísticos para ver si tienen las características que necesita. De lo contrario, rueda el tuyo.

More Interesting

¿Quiénes son algunos de los mayores usuarios de Apache Hive? ¿Cuáles son sus casos de uso? ¿experiencias?

Aprendizaje automático: ¿es el enfoque descrito a continuación una buena forma de evaluar la calidad de las recomendaciones basadas en comentarios implícitos?

¿Qué son las características y clases en ingeniería de características?

¿Cuál debería ser el plan adecuado para aprender el aprendizaje automático desde cero para un estudiante del tercer semestre?

¿Cuáles son los buenos pesos iniciales en una red neuronal?

¿Cuál es una buena manera de entender las dos fórmulas con respecto a este modelo gráfico de probabilidad dado?

¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?

¿Debo aprender primero el aprendizaje profundo o de refuerzo? ¿Hay un orden natural? ¿Debería hacerse al mismo tiempo?

¿Por qué el aprendizaje del 'lenguaje ensamblador y máquina' se enfatiza menos en las universidades en comparación con el aprendizaje de lenguajes de programación generales?

¿Cuáles son los trabajos más interesantes de CVPR 2016 y por qué?

¿Cuáles son algunos buenos textos en MCMC?

¿Cómo puedo hacer que mi computadora esté disponible para Google, Quora, Facebook, para poder contribuir a sus tareas de aprendizaje automático durante el tiempo de inactividad?

¿Existen por sí mismas redes neuronales que cambian automáticamente y que pueden cambiar su estructura interna (capas, nodos, hyerparameters)?

Cómo construir una consulta a partir de una pregunta de lenguaje natural en Python

¿Cuándo debería preferir los algoritmos de aprendizaje profundo a los algoritmos de aprendizaje automático poco profundos?