¿Por qué tantos datos se vuelven ‘oscuros’?

Esto es simplemente porque la mayoría de los datos son “grises” o “negros” (por lo tanto, “oscuros”) en los escenarios del mundo real.

Los datos “blancos” puros solo pueden obtenerse en experimentos totalmente controlados. Los datos blancos suelen ser puramente sintéticos (por lo tanto, rara vez tienen un valor real) u obtenerse por destilación de datos oscuros. El proceso de destilación es muy costoso y no es completamente automático, por lo que el ser humano está involucrado en la toma de decisiones.

Esto tiene dos resultados principales. Primero, los datos blancos obtenidos de los datos de palabras reales siempre estarán sesgados. Nunca cubrirá todos los casos de uso que puedan ocurrir. En otras palabras, tiene un poder limitado. En segundo lugar, los datos blancos del mundo real son un mito. Cuanto más blanco, más sintético.

Por lo tanto, muchas empresas están muy interesadas en el uso de datos oscuros directamente. Reduce los costos de adquisición y procesamiento de datos, mejora la calidad del producto final.

Los sistemas de datos actuales tienen un límite CAP para asimilar y analizar conjuntos de datos con variables definidas o hasta un cierto límite utilizando AI para autodefinir variables “sobre la marcha”. Los sistemas del mundo real generan datos que no están estructurados a un nivel en el que no solo se crean variables de datos sobre la marcha, sino que también se crean sobre la marcha variables compuestas, dependencias. Recientemente Apache FLINK ha presentado la tecnología para manejar los cambios de DELTA en conjuntos de datos muy grandes y para manejarlos en un nivel de latencia que es en tiempo real. Otro problema es con los tiempos de lectura / escritura que ofrece la tecnología de almacenamiento actual. En el futuro, Bio Data Storage permitiría la extracción, asimilación y análisis de datos oscuros en un tiempo mucho más rápido.

p. ej .: un Rover lunar autónomo; accediendo a datos de la NASA de NEO y también utilizando datos de un radar de proximidad 360. También está accediendo a datos del terreno desde el programa de mapeo Lunar. Los datos de NEO y radar de proximidad juntos tendrán 10 * 10 objetos definidos en tiempo real y su posición y vectores trazados en tiempo real. Lo anterior constituirá una gran cantidad de DARK DATA. Los datos del sensor de la máquina del rover que se está generando pero se vuelve relevante solo en una maniobra evasiva particular también son datos oscuros.

Un ejemplo muy popular son los “números irrelevantes” generados por “LA MÁQUINA” en la SERIE DE TELEVISIÓN 2015 “PERSONA DE INTERÉS”.