¿Un disco duro completo normalmente contiene alrededor del 50% de unos y 50% de ceros?

Hoy en día, la gran mayoría de su espacio en el disco duro está ocupado por archivos de imagen, audio y video comprimidos. Las aplicaciones también contienen principalmente ese tipo de datos, y si tienen grandes cantidades de texto, también se comprimirán. Muchos documentos de aplicaciones comunes también están comprimidos, como .docx, .xlsx y .pptx. El único gran sesgo que conozco en mi máquina son mis archivos de correo electrónico, donde la mayoría de los archivos adjuntos se almacenan codificados en ASCII (base64), que tendrá un ligero sesgo hacia los ceros incluso si se trata de datos comprimidos que están siendo codificados (que casi siempre lo es). Los datos comprimidos parecerán ser indistinguibles de los datos aleatorios, por lo que tendrá aproximadamente 50% unos y 50% ceros. Muchos discos duros hoy en día, especialmente en las computadoras portátiles, están encriptados, para lo cual nuevamente los datos parecerán aleatorios.

La distribución del “ruido” depende de la fuente de ruido, por lo que esa pregunta suya es demasiado abierta para responder.

Si considera que muchos discos duros de igual tamaño están llenos de datos aleatorios, la distribución de la fracción de bits que son ceros en todas esas unidades será un gaussiano alrededor de 1/2. La desviación estándar del gaussiano, un sigma, será aproximadamente [matemática] 1 \ sobre 2 \ sqrt {n} [/ matemática], donde n es el número de bits. Entonces, para unidades de 1 TB que contienen el equivalente de datos aleatorios, la fracción de ceros no variará mucho fuera de 0.4999995 a 0.5000005 (ese rango es más o menos tres sigma).

Ciencia de datosdatosDiscos durosinformáticaTecnología de la información

¿Qué es mejor para un doctorado de aprendizaje automático, UMass Amherst o la Universidad de Edimburgo?

¿Cómo hacen las estadísticas clases e intervalos de clase cuando los datos están en decimales?

¿Puede un ANN probar un nuevo conjunto de datos contra el conjunto de entrenamiento, aprender de manera incremental las características del nuevo conjunto de datos y actualizar el modelo de forma incremental?

¿Cuál es la diferencia entre la exploración de datos y el análisis predictivo?

¿Qué es más preciso entre la media de datos agrupados y la media de datos no agrupados?

¿Debo unirme a QNET o no?

Dado que muchos de los datos son ASCII y / o instrucciones, debe considerar el formato. En ASCII, el bit de orden superior siempre es 0, y en la mayoría de las instrucciones de los procesadores, el número también es bajo.

Incluso si el resto es aleatorio, eso significa que 1/8 de los bits son típicos. Esto sesga la distribución hacia 0. Agregue el hecho de que el resto de los datos son números y que la mayoría de los números son bastante bajos, que contienen muchos 0 en comparación con los 1. El patrón ahora está claro; Hay muchos más 0 que 1 en un conjunto de datos aleatorio (también conocido como disco).

Marcas Neal

Una cosa a tener en cuenta: los archivos más grandes en un disco duro personal suelen ser video, audio y fotos. Normalmente están comprimidos. La compresión tiende a dar como resultado una mayor paridad en el número de unos y ceros.

Ver: entropía (teoría de la información

Las imágenes en bruto serían guardadas en el disco duro por algunos fotógrafos profesionales. Incluso si las fotos fueran nubes y nieve, los unos y los ceros serían casi iguales. Un blanco es realmente un gris en el sentido digital. Un 50% de gris puede verse blanco en ciertos contextos y un 50% de gris puede verse oscuro como un cielo nocturno en algunos contextos. Incluso con imágenes sin comprimir, es probable que tenga números similares de 1 y 0.

Marcas Neal

No soy un estadístico, pero diría que habrá más ceros que unos, simplemente porque mientras que en el extremo superior de los números, 1 y 0 estarán representados aproximadamente por igual, en el extremo inferior, 0 estará más representado. es decir, si está almacenando un número de 64 bits pero solo está utilizando 32 bits, ya tiene la mitad completa del número establecida en 0, y el resto del número será aproximadamente la mitad 0 y la mitad 1, lo que representa aproximadamente 75% del número de 64 bits establecido en 0.

Depende de lo que esté almacenando, por supuesto, pero supongo que en el 99% de los discos, será en su mayoría 0.

Marcas Neal

Consideremos un disco duro diseñado para tener solo 3 bits de espacio. Digamos que usamos este disco para almacenar un número. El número más bajo (en binario) que puede almacenar es 000 y el más alto es 111, que es 0 y 7 respectivamente.

Entonces, si almacenara 0, el disco tendría solo ceros y si almacenara 7 tendría solo unos.

Entonces, no, un disco duro completo no necesita contener 50% de ceros y 50% de unidades. Dependiendo de qué datos estén almacenados, puede tener cualquier relación de ceros y unos.

Por supuesto, estadísticamente, puede decir que habría más ceros debido a cómo se almacenan los datos. Almacenar un número de 32 bits en 64 bits significa que 32 bits son solo 0. Pero de cualquier manera, la relación de ceros y unos depende de los datos almacenados.

Marcas Neal

More Interesting

¿Cuál es el mejor idioma para aprender para convertirse en analista de datos?

Cómo descifrar entrevistas de big data sin tener experiencia en desarrollo

Cómo usar una PC virtual para el análisis de datos

¿Qué se necesita para que un estudiante de matemáticas e informática se convierta en un científico de datos?

¿Cómo reconocer a Rising Stars en el campo de los negocios? Que métodos

Cómo aprender a recuperar, insertar, buscar datos en Big Data

Tengo 24 años y tengo habilidades básicas de análisis de datos (R, Python, SQL, estadísticas, cálculo, etc.). Actualmente trabajo para una empresa de comercio de bonos, pero no soy lo suficientemente bueno (ni quiero) ser analista o ingeniero de datos profesionales. ¿Qué trabajos involucran estas habilidades en menor grado / qué otras habilidades los complementarían?

¿Qué te hizo realmente gustar la ciencia de datos?

¿Es correcto hacer un curso sobre big data? ¿Cómo puedo asegurar un trabajo como nuevo después de hacer un curso de Big Data?

¿Cuál es la mejor opción de alojamiento para una empresa de big data?