Hoy en día, la gran mayoría de su espacio en el disco duro está ocupado por archivos de imagen, audio y video comprimidos. Las aplicaciones también contienen principalmente ese tipo de datos, y si tienen grandes cantidades de texto, también se comprimirán. Muchos documentos de aplicaciones comunes también están comprimidos, como .docx, .xlsx y .pptx. El único gran sesgo que conozco en mi máquina son mis archivos de correo electrónico, donde la mayoría de los archivos adjuntos se almacenan codificados en ASCII (base64), que tendrá un ligero sesgo hacia los ceros incluso si se trata de datos comprimidos que están siendo codificados (que casi siempre lo es). Los datos comprimidos parecerán ser indistinguibles de los datos aleatorios, por lo que tendrá aproximadamente 50% unos y 50% ceros. Muchos discos duros hoy en día, especialmente en las computadoras portátiles, están encriptados, para lo cual nuevamente los datos parecerán aleatorios.
La distribución del “ruido” depende de la fuente de ruido, por lo que esa pregunta suya es demasiado abierta para responder.
Si considera que muchos discos duros de igual tamaño están llenos de datos aleatorios, la distribución de la fracción de bits que son ceros en todas esas unidades será un gaussiano alrededor de 1/2. La desviación estándar del gaussiano, un sigma, será aproximadamente [matemática] 1 \ sobre 2 \ sqrt {n} [/ matemática], donde n es el número de bits. Entonces, para unidades de 1 TB que contienen el equivalente de datos aleatorios, la fracción de ceros no variará mucho fuera de 0.4999995 a 0.5000005 (ese rango es más o menos tres sigma).
- Cómo analizar datos rápidamente
- ¿La ciencia de datos necesita estadísticas?
- ¿Cuál es la diferencia entre los términos 'aprendizaje automático', 'aprendizaje profundo' e 'IA'?
- ¿Cuál es su opinión sobre el Programa Insight Data Science Fellows?
- ¿Cuál es el mejor programa de aprendizaje automático / ciencia de datos cerca del área de Chicago?