Cómo optimizar las consultas SPARQL La tecnología cambia la vida futura

El grado en que los enfoques de Machine Learning son (a) útiles (b) posibles, o (c) superfluos depende mucho de cuál sea el almacén subyacente (utilizaré el término almacén SPARQL para referirme a una base de datos que presenta una interfaz SPARQL , independientemente de si se trata de una tienda triple / cuádruple pura).

La agrupación es un buen ejemplo.

En el uso típico de la base de datos, se refiere a la organización física de tablas para que las cosas se almacenen de manera que los datos que puedan usarse en un futuro próximo se ubiquen cerca de los datos a los que se accede al mismo tiempo.

Algunos ejemplos relacionados con la tienda SPARQL:

Diseño del disco

Algunas tiendas permiten que las instancias de algunas clases se almacenen como filas, con la mayoría o todas las propiedades asociadas con una entidad específica almacenada en secuencia. Esto hace que las consultas que acceden a muchas propiedades para un solo sujeto sean más eficientes.
Algunos de estos almacenes permiten ordenar filas en función del valor de una columna. Las consultas que atraviesan filas de acceso en este orden pueden ser bastante eficientes.
Algunas tiendas que admiten tablas se pueden distribuir de modo que, en lugar de que las propiedades de un tema determinado se almacenen juntas por fila, en su lugar, puede organizar las cosas para que todos los valores de una columna se almacenen juntos. Este tipo de almacenamiento en columnas puede ser bastante eficiente si solo se necesita un subconjunto de propiedades, y si se deben recorrer diferentes propiedades en diferentes órdenes.
Si muchas consultas requieren perseguir un enlace específico, es posible ordenar datos para que los elementos vinculados sean adyacentes. Esto se vuelve más complicado si se siguen varios enlaces diferentes.
Algunas tiendas mantienen esencialmente todos los datos en la memoria, lo que evita más o menos el problema de cómo se almacenan los datos en el disco. Sin embargo, estas tiendas pueden no tener tanta indexación u otra optimización.

Tiendas distribuidas

Algunas tiendas se pueden distribuir en varios servidores. Estos pueden escalar extremadamente bien, hasta que sea necesario seguir enlaces de ida y vuelta a través de múltiples máquinas. Mantener los datos de las entidades conectadas por enlaces seguidos con frecuencia lo más cerca posible es muy importante. Esto es generalmente similar al concepto de agrupamiento en ML (handwave).
Esto puede ser simple (por ejemplo, si solo se puede llegar a una entidad desde otra entidad, por ejemplo, un valor de tortuga usando la notación []). Almacenar entidades fuertemente relacionadas juntas es, por lo tanto, una táctica útil. Si las entidades se almacenan en orden cronológico, esta agrupación puede ocurrir naturalmente.
Por supuesto, SPARQL permite acceder a estos objetos sin seguir los enlaces; sin embargo, estas consultas pueden tener más paralelismo disponible antes de que comiencen las cosas difíciles.

Aprendizaje automático

En general, se han realizado esfuerzos exitosos para predecir el rendimiento de las consultas SPARQL utilizando los enfoques habituales de aprendizaje automático (por ejemplo, SVM, KNN).

Casi todas las tiendas utilizan técnicas tradicionales de bases de datos que podrían considerarse ML, como la optimización de consultas genéticas y el análisis de selectividad.

[Citas necesarias]