¿Por qué tantos datos se vuelven ‘oscuros’?

Esto es simplemente porque la mayoría de los datos son “grises” o “negros” (por lo tanto, “oscuros”) en los escenarios del mundo real.

Los datos “blancos” puros solo pueden obtenerse en experimentos totalmente controlados. Los datos blancos suelen ser puramente sintéticos (por lo tanto, rara vez tienen un valor real) u obtenerse por destilación de datos oscuros. El proceso de destilación es muy costoso y no es completamente automático, por lo que el ser humano está involucrado en la toma de decisiones.

Esto tiene dos resultados principales. Primero, los datos blancos obtenidos de los datos de palabras reales siempre estarán sesgados. Nunca cubrirá todos los casos de uso que puedan ocurrir. En otras palabras, tiene un poder limitado. En segundo lugar, los datos blancos del mundo real son un mito. Cuanto más blanco, más sintético.

Por lo tanto, muchas empresas están muy interesadas en el uso de datos oscuros directamente. Reduce los costos de adquisición y procesamiento de datos, mejora la calidad del producto final.

Análisis deAprendizaje automáticoCiencia de datosdatos

¿Debería / puede una persona con casi 6 años de experiencia en investigación financiera aprender ciencia de datos? ¿Le ayudaría a avanzar en su carrera en investigación?

¿Debo pasar a la ciencia de datos desde la ingeniería de big data?

¿Cuáles son las desventajas comunes de tener un conjunto de datos dispersos al crear un modelo ML?

Me gustaría escribir / usar un algoritmo de aprendizaje automático para predecir valores de contaminación del aire basados en datos meteorológicos. Tengo algunas habilidades de programación y sé qué datos me gustaría usar, pero no tengo experiencia con el aprendizaje automático. ¿Dónde empiezo?

¿Cuáles son las herramientas que puede usar para crear la máxima experiencia de usuario en un catálogo y un sitio web de productos?

Soy un estudiante de secundaria interesado en Data Science. ¿Cómo puedo comenzar a aprender y jugar con conjuntos de datos?

Los sistemas de datos actuales tienen un límite CAP para asimilar y analizar conjuntos de datos con variables definidas o hasta un cierto límite utilizando AI para autodefinir variables “sobre la marcha”. Los sistemas del mundo real generan datos que no están estructurados a un nivel en el que no solo se crean variables de datos sobre la marcha, sino que también se crean sobre la marcha variables compuestas, dependencias. Recientemente Apache FLINK ha presentado la tecnología para manejar los cambios de DELTA en conjuntos de datos muy grandes y para manejarlos en un nivel de latencia que es en tiempo real. Otro problema es con los tiempos de lectura / escritura que ofrece la tecnología de almacenamiento actual. En el futuro, Bio Data Storage permitiría la extracción, asimilación y análisis de datos oscuros en un tiempo mucho más rápido.

p. ej .: un Rover lunar autónomo; accediendo a datos de la NASA de NEO y también utilizando datos de un radar de proximidad 360. También está accediendo a datos del terreno desde el programa de mapeo Lunar. Los datos de NEO y radar de proximidad juntos tendrán 10 * 10 objetos definidos en tiempo real y su posición y vectores trazados en tiempo real. Lo anterior constituirá una gran cantidad de DARK DATA. Los datos del sensor de la máquina del rover que se está generando pero se vuelve relevante solo en una maniobra evasiva particular también son datos oscuros.

Un ejemplo muy popular son los “números irrelevantes” generados por “LA MÁQUINA” en la SERIE DE TELEVISIÓN 2015 “PERSONA DE INTERÉS”.

Viacheslav Khomenko

More Interesting

Cómo hacer una carrera en big data

Cómo realizar análisis de datos antes y después de desarrollar una aplicación

¿Dónde encuentras datos? Entonces, ¿cómo lo usas?

¿Hay algún dato que sea particularmente difícil de obtener con respecto a la valoración de la asistencia sanitaria?

¿Qué es el Big Data POC?

Estoy planeando obtener la admisión para MS Data Science. ¿Alguien puede sugerirme las mejores universidades en las que pueda ingresar y tener buenos aspectos futuros?

¿Los estadísticos y los expertos en big data serán reemplazados por computadoras?

¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?

¿Usas R estándar o Microsoft R Open? ¿Por qué?