Esto es simplemente porque la mayoría de los datos son “grises” o “negros” (por lo tanto, “oscuros”) en los escenarios del mundo real.
Los datos “blancos” puros solo pueden obtenerse en experimentos totalmente controlados. Los datos blancos suelen ser puramente sintéticos (por lo tanto, rara vez tienen un valor real) u obtenerse por destilación de datos oscuros. El proceso de destilación es muy costoso y no es completamente automático, por lo que el ser humano está involucrado en la toma de decisiones.
Esto tiene dos resultados principales. Primero, los datos blancos obtenidos de los datos de palabras reales siempre estarán sesgados. Nunca cubrirá todos los casos de uso que puedan ocurrir. En otras palabras, tiene un poder limitado. En segundo lugar, los datos blancos del mundo real son un mito. Cuanto más blanco, más sintético.
- ¿Cómo funciona técnicamente el big data?
- ¿Es bueno que un analista de datos aprenda Google Analytics?
- Ya no estoy dispuesto a ir a los Estados Unidos para obtener una maestría. ¿Dónde debería estudiar ciencia de datos y aprendizaje automático?
- Quería ser un científico de datos, pero desde que me uní a la industria justo después de los estudiantes universitarios, no obtengo ese tipo de roles. Ir a un MS es muy difícil ahora que ya he pasado algunos años en la industria del software. ¿Qué tengo que hacer?
- Tengo 7 años de experiencia en análisis y ciencia de datos. ¿Vale la pena hacer PGPBA de Greatlakes o IIMB o CBA de ISB?
Por lo tanto, muchas empresas están muy interesadas en el uso de datos oscuros directamente. Reduce los costos de adquisición y procesamiento de datos, mejora la calidad del producto final.