¿Alguien ha perdido datos utilizando la opción de redundancia reducida de Amazon S3?

Este es un tema particularmente popular cuando se trata de la confiabilidad de la nube pública. Como anécdota, nunca he recibido un error 405 de S3 en docenas de terabytes de datos almacenados, no estoy seguro de cuántos objetos se distribuyen, pero probablemente en las decenas de millones. Creo que esto probablemente ponga mi uso en la mediana de los usuarios de AWS S3, por lo que valga la especulación.

Con respecto al análisis riguroso, creo que debemos considerar seriamente que no tenemos suficiente información para probar o refutar la afirmación de Amazon de 11 9s de durabilidad. Soy terrible con las estadísticas, pero el problema que hay que resolver es determinar el intervalo de confianza en base a una estimación de 2 billones de objetos almacenados, desafortunadamente no se sabe cuál es la tasa de pérdida de objetos observada, y una complicación adicional es que la distribución de La pérdida de objetos casi seguramente no sigue una distribución simple de Poisson.

Ciertamente no es suficiente decir que debido a que el diseño de S3 permite 11 9s de durabilidad que necesariamente se pierden miles de objetos cada año. Con suerte, Amazon publicará 405 tasas de error en las regiones S3 en el futuro, sin duda sería un mejor marketing (menos FUD) que su página de estado actual o 11 9s.

Lo que sí sabemos es que los datos se almacenan en S3 con un factor de replicación de 3 en todas las zonas de disponibilidad. RRS simplemente reduce el factor de replicación a 2. Cada vez que se reemplaza el almacenamiento, volver a replicar los datos introduce más posibilidades de que los datos se corrompan y desencadenen una nueva replicación. Esta es la razón por la cual Amazon comprueba los datos en reposo, así como durante el tránsito por las redes. Es indeterminado si estas verificaciones adicionales también se eliminan cuando se utiliza RRS.

Es probable que la causa más común de la replicación sea el reemplazo del disco. El reemplazo del disco puede ocurrir debido a una falla, pero sospecho que los discos que muestran algún error se programan para el retiro y las pruebas antes de ser potencialmente reintroducidos en el grupo de almacenamiento. Algunas fallas de disco pueden ser de naturaleza catastrófica, pero muchas veces los sensores internos como las pruebas SMART pueden indicar una degradación de la durabilidad mucho antes de la falla total de la unidad.

Para un enfoque más exhaustivo de la falla del disco en la computación en clúster, consulte https://www.usenix.org/legacy/ev… En comparación con los clústeres en ese artículo, S3 tiene, suponiendo 40 PB de almacenamiento en RF = 3, al menos 60,000 Unidades de 2 TB en uso, quizás 40,000 unidades de 3 TB, pero probablemente algunas se mezclan dependiendo del precio del hardware.

Voy a salir un poco de tangente aquí, y entregaré la advertencia que probablemente no estabas esperando.

¡El almacenamiento de redundancia reducida S3 ahora cuesta más que el almacenamiento estándar!

En otras palabras, si estaba considerando usar RRS para sus datos … no lo haga. AWS está tratando de desalentarlo haciéndolo inútil y antieconómico.

Si necesita reducir sus costos de almacenamiento, y su patrón de almacenamiento es apropiado, considere el Almacenamiento de acceso poco frecuente. El costo es un poco más de la mitad que el almacenamiento estándar, una ganga, ¡pero cuidado! El tamaño mínimo de objeto facturable es de 128kB, por lo tanto, si tiene muchos archivos pequeños, será mucho más costoso que Standard. Como su nombre lo indica, también es más costoso almacenar y acceder a objetos: aproximadamente el doble de costos al momento de escribir.

Por lo tanto, no use Redundancia reducida. Literalmente, todas las alternativas son mejores.

Sí definitivamente. La redundancia estándar S3 tiene once duraciones de 9 por año o el 0.000000001% de los objetos se pierden por año. Teniendo en cuenta que hay más de 2 billones de objetos en S3, en promedio, se pierden miles de objetos por año. Entonces, incluso cuando tiene fallas raras, 1 en mil millones, en la escala de S3 esas fallas ya han ocurrido miles de veces.

Entonces, con una redundancia reducida, es aún más probable que suceda. Sin embargo, las posibilidades de que le suceda a USTED son extremadamente bajas.

Hola,

Sí, algunas personas se habían enfrentado a problemas debido a una falla bizantina en el hardware de Amazon.
Citando de wiki –
“En 2008, Amazon S3 se redujo durante varias horas cuando un error de hardware de un solo bit se propagó a través del sistema”

Y aquí está la publicación del foro de AWS sobre el problema:
S3 corrupción de datos? …

Tolerancia de falla bizantina

Uno puede referirse a mi respuesta a la respuesta del usuario de Quora a ¿Qué sucede con mis archivos cuando un proveedor de servicios de alojamiento de archivos (por ejemplo, Dropbox, Copy, Box) deja de funcionar? si no está buscando exactamente un Sí o un No a su respuesta.

Lo he respondido genéricamente y también se puede aplicar aquí. Mientras tanto, continúa entrando en la parte de redundancia y entrando en detalles sobre lo que Victor dijo en una respuesta.

La redundancia aumenta generalmente al aislar el hardware. Aislamiento de manera que el hardware esté totalmente aislado en forma de Red / Energía. Y esta redundancia no solo salva a uno de la falla de hardware sino también a las ventanas de mantenimiento. Por lo tanto, depende de quién pagará por esta redundancia. Podría ser su proveedor de servicios el que eventualmente seguirá replicando sus datos en el otro hardware y lo haría parecer uno (por lo general, cuando hace un RAID basado en software, o si el proveedor cree que su hardware o modelo de implementación es frágil) y las fallas son frecuentes). O el proveedor le dará esta opción en forma de zonas / zonas de disponibilidad. De modo que cuando almacene sus datos en la Zona A, repítalos también en la Zona B. Y por alguna razón, si el hardware se cae o está en mantenimiento en A, aún se quedarán con datos en B.

Por lo tanto, volviendo a su pregunta, uno debe examinar detenidamente el SLA con el que está de acuerdo al elegir un proveedor de servicios específico. Cuánta fiabilidad está proporcionando en lo que respecta a sus datos. E incluso después de todas las áreas y zonas de disponibilidad, el proveedor de servicios replica los datos por usted, si el proveedor pierde sus datos en qué medida lo recuperarán por usted. Si no está en el SLA, pregúntales en el foro.

Sí, recuperarán datos para usted si es crucial, incluso directamente desde un sistema de archivos dañado, por supuesto, le pedirán su permiso para hacerlo porque probablemente no podrá acceder al almacenamiento y sin su consentimiento, incluso tocar sus datos es Un gran NO para los proveedores de servicios en la nube.