¿Es posible comprimir una gran cantidad de datos no redundantes, por ejemplo 1000 GB a 100 KB, sin perder ningún dato?

No.

La compresión se trata de encontrar la redundancia en los datos. Si no hay redundancia, entonces no puede comprimirla en absoluto.

Por ejemplo, la secuencia de números del 1 al 1 billón podría escribirse enumerándolos 1, 2, 3, 4, 5, 6,… 1000000000000. Puede escribirlo en ascii, en binario o en código

Soy un estudiante de biología / psicología, pero quiero entrar en ciencia de datos y aprendizaje automático. Soy un senior, así que no estoy en condiciones de volver a declarar mi especialidad. ¿Cuál sería una buena pista para mí aprender sobre ciencia de datos y programación, y eventualmente conseguir un trabajo en investigación / programación?
¿Cuáles son algunas aplicaciones modernas de clasificación en minería de datos?
¿Cómo utilizan los bancos la minería de datos?
¿Cuáles son los mejores programas de maestría en ciencias de datos en la India?
¿Qué cursos debemos seguir para convertirnos en científicos de datos?

Si escribe eso en ASCII, tomará aproximadamente 11 TB (longitud promedio de número 9 caracteres más dos para la coma y el espacio, multiplicado por un billón).
Si escribe eso en binario, tomará aproximadamente 4 TB (4 bytes por número por billón).
Si lo escribe en código, tomará aproximadamente 20 bytes (dependiendo del lenguaje de programación).

Esa es una relación de compresión de casi un billón a uno entre la representación ingenua y más eficiente. Esta eficiencia solo es posible debido a la redundancia en el problema. Si baraja aleatoriamente los datos antes de pedir que se almacenen, ya no podrá comprimirlos.

Análisis deBig DataCiencia de datosdatosMinería deSistemas de bases de datos

Cómo comenzar en ciencia de datos

¿Es importante un curso de diseño y análisis de algoritmos para una carrera en análisis de datos?

¿Cómo puede afectar el uso de videos a la industria de big data?

¿Cuánto tiempo lleva aprender correctamente big data y ser un analista exitoso?

¿Cuál es la mejor manera de comenzar una carrera en ciencias de datos después de completar un título en ciencias físicas?

¿Cuáles son algunas de las jergas comunes de ciencia de datos?

1000 GB a 1000 KB es 1 millón de veces de compresión (o 1024 ^ 2 dependiendo de las unidades GB y KB que use) …

Si estás hablando de compresión sin pérdida, y en general, no.

Incluso si omitimos el escenario en el que el archivo de 100 GB ya se ha ejecutado a través de un algoritmo de compresión, puede construir fácilmente escenarios del mundo real en los que simplemente no puede obtener una compresión sin pérdida de 1 millón de veces, ya que tendría que perder información para lograr esto. mucha compresión

Greg Kemnitz

More Interesting

¿Ganar una competencia de Kaggle es importante fuera de Kaggle?

Cómo descifrar entrevistas de big data sin tener experiencia en desarrollo

¿Qué es la minería de datos?

Matemáticamente hablando, ¿cuándo los números de lotería ganadores del pasado afectan los sorteos futuros?

Entre las siguientes compañías, ¿cuál tiene el mejor equipo de Data Science?

¿Debo convertirme en un científico de datos si no tengo una ciencia dura o un título universitario cuantitativo?

¿Cuánto peso tiene un certificado de posgrado de Harvard en ciencia de datos?

¿Será la ciencia de datos un campo de demanda después de 10 o 15 años?

¿Cuáles son las desventajas comunes de tener un conjunto de datos dispersos al crear un modelo ML?

¿Cuál es la forma más eficiente de analizar los datos de transacciones bancarias de Yodlee?