¿Cómo se endurecen los circuitos informáticos contra la radiación, como las sondas enviadas a Júpiter? ¿Qué impacto tiene la radiación en los sistemas sin blindaje?

¿Cómo se endurecen los circuitos informáticos contra la radiación, como las sondas enviadas a Júpiter? ¿Qué impacto tiene la radiación en los sistemas sin blindaje?


Whoo-ee! Podrías tomar algunos cursos de posgrado sobre estos temas. Advertencia justa: solo sé lo básico.

Permítanme tocar brevemente la segunda parte primero. Veamos la radiación ionizante, que es lo que viene a la mente debido a su ejemplo de una nave espacial en Júpiter. La radiación ionizante atraviesa la materia y expulsa electrones de los átomos. Eso tiende a romper cristales y romper enlaces moleculares.

Para dispositivos electrónicos como los transistores, esto puede descomponer la estructura interna. Por ejemplo, las capas aislantes pueden comenzar a conducir demasiada corriente. Eventualmente, el dispositivo dejará de funcionar como se espera, y si se aleja demasiado de su especificación (“salga de la especificación”, para usar la jerga), todo el circuito podría fallar.

Los dispositivos que dependen de características químicas, como los condensadores, pueden envejecer más rápido de lo normal y no cumplir con las especificaciones demasiado pronto.

Los dispositivos de memoria pueden comportarse de manera extraña. Una partícula que pasa a través de una celda de memoria puede ocasionar a veces invertir un estado lógico almacenado, pero sin causar una falla permanente. Esto se llama un evento único molesto (SEU), y no son infrecuentes en naves espaciales.

Este es solo un boceto muy, muy abreviado, pero espero que te dé una idea de lo que puede salir mal.

Ahora, veamos qué puedes hacer al respecto.

La técnica más simple y efectiva es el blindaje: reduzca la cantidad de radiación que llega a la electrónica. Desafortunadamente, eso requiere masa, una mercancía valiosa en las naves espaciales. A veces, puedes usar piezas de naves espaciales más resistentes para escudos. Por ejemplo, puede colocar una delicada pieza electrónica en el centro de los puntos de fijación metálicos para paneles solares. Si conoce la dirección de la peor amenaza de radiación, podría ser capaz de encontrar un módulo delicado detrás de un tanque de combustible.

En un caso, vi una placa de circuito con un circuito integrado unido a la parte superior de otro. Normalmente, esa sería una práctica terrible. En este caso, ponen un componente más tolerante a la radiación en un lado de un componente más sensible. Es una solución increíble, pero parecía funcionar.

Como nunca tendrá suficiente protección, debe encontrar alguna forma de tolerar la radiación. Un método es utilizar módulos redundantes: traer un repuesto. Si el módulo primario comienza a funcionar, apague y encienda el repuesto. Eso a veces se hace con elementos de misión crítica. Obviamente, preferirías evitar esa solución.

Un método para manejar la degradación del dispositivo es hacer que las estructuras internas sean más grandes de lo normal. Los efectos de la radiación son aleatorios, por lo que si tiene más material, se necesitará más radiación para producir una cantidad inaceptable de daño. También hay geometrías que tienen menos probabilidades de producir fallas. Realmente no sé mucho sobre esto.

Para evitar las SEU, puede utilizar técnicas de detección y corrección de errores para detectar memoria dañada. Puede hacer esto en software (por ejemplo, puede hacer copias de datos y compararlos, un método tosco pero efectivo), o en hardware, utilizando bits adicionales para códigos de corrección de errores. Esto ralentizará el procesamiento o usará más memoria para gastos generales a expensas de los datos o el código del programa.

Esto es solo un boceto de pincel amplio. Como mencioné, es un área enorme, y solo conozco los rudimentos más básicos.

Depende de la época. Para las sondas de la era Voyager, todavía había muchos fabs de semiconductores militares personalizados que fabricaban piezas rad-hard. Hoy en día es mucho más difícil hacerlos ahora porque la mayoría de esas compañías dejaron de fabricar chips incluso para los militares y la mayoría de las empresas comerciales han cambiado a fundiciones que generalmente están optimizadas para uso comercial y terrestre en lugar de aplicaciones militares.

Hay empresas en los alrededores que han recolectado piezas de repuesto y capacidad de fabricación de esas fábricas cerradas que luego hacen pequeñas tiradas de piezas endurecidas por radios de 40 años porque de lo contrario las recetas simplemente se pierden.

La única gracia salvadora es que muchos de los problemas de la radiación imitan parte de la física involucrada en el escalado (hasta cierto punto), por lo que el escalado ha dificultado la tecnología mosfet. Entonces, a veces se logran partes “tolerantes” a la radiación con un proceso comercial convencional.

Las partes duras de radiación requieren que tanto el proceso como el diseño estén diseñados específicamente teniendo en cuenta el endurecimiento de la radiación. Ese nivel de control es bastante raro ahora como un producto o servicio económicamente disponible en los Estados Unidos.

IBM Federal Systems tenía esa capacidad, pero luego IBM abandonó todo su negocio de semiconductores. Lugares como Sandia National Labs fabrican piezas duras rad porque su carta incluye componentes de armas nucleares pero su volumen es bastante bajo.

La falta de dureza de la radiación básicamente significa que la radiación acelerará las partes hasta el final de la vida útil, fallando la función de cese antes de lo esperado. Estrictamente, TODAS las cosas hechas por el hombre están en colisión en cámara lenta con el fracaso en el momento en que se hacen, es solo una cuestión de la escala de tiempo involucrada. Si pudieras ver el tiempo logarítmicamente, este proceso sería tan obvio como ver un inminente accidente de tráfico. En realidad, nada es estático en el universo: es simplemente cuán lento o rápido es el d / dt de la actividad.

Las tensiones energéticas como la radiación aceleran el tiempo de falla. Esto incluye el estrés por calor, voltaje, corriente y radiación. Debido a que las tasas de aceleración tienden a ser exponenciales con el estrés, esto significa que la falla que podría ocurrir en 20 años puede ocurrir en 20 meses o 20 semanas o 20 horas. Las pruebas para validar los tiempos de vida del producto utilizan pruebas de vida acelerada que implican la aplicación controlada de tensiones y la extracción de energías de activación de aceleración para esas funciones exponenciales.

Los transistores en las primeras naves espaciales computarizadas eran grandes trozos de silicio, fácilmente visibles a simple vista. Se necesitó mucho poder para activar y desactivar el estado de un transistor y viceversa, por lo que eran bastante inmunes a la radiación. Aquí hay una puerta NOR de la computadora de orientación Apollo:

Hoy en día los transistores son microscópicos, y se necesita muy poca energía para voltearlos. Esto significa que un rayo cósmico puede voltearse un poco fácilmente en una computadora y no tiene sentido el software o los datos que representa.

La nave espacial Juno, que atravesó los cinturones de Van Allen y la intensa radiación de Júpiter, tiene una bóveda de titanio especial que contiene toda la electrónica. Tiene 1 cm de espesor. Se consideró y rechazó el plomo porque se pensó que la vibración en el lanzamiento podría distorsionar el metal blando.

Inspeccionar la bóveda de radiación de Juno

Aquí hay una extensa discusión sobre el endurecimiento por radiación: endurecimiento por radiación. Ciertas tecnologías electrónicas son menos susceptibles a la radiación que otras. Por ejemplo, pueden fabricarse en sustratos aislantes como el zafiro, en lugar de los sustratos semiconductores habituales.

Antes de los días de VLSI, la NASA podía contratar circuitos endurecidos por radiación. Ahora la sección transversal más pequeña ayuda, pero la densidad del dispositivo es considerablemente menor que la que está disponible comercialmente. Tienes que volar para calificar todas estas cosas, y el problema es que el mercado es pequeño. Puede volar en el espacio algunas cosas de aero-fly (por ejemplo, para Boeing). El otro gran mercado es, por supuesto, el ejército. Y el DOE. Y hay aspectos de esta relación de tres vías en los que no puedo entrar a nivel de dispositivo.

Por lo tanto, hay versiones anteriores calificadas para vuelo de CPU y memoria (CMOS) RISC e Intel. Se utilizan otras tecnologías de dispositivos. Estos se encuentran en procedimientos seleccionados de IEEE y AIAA. La cinta de computadora todavía se usa como almacenamiento en proyectos de vuelo más antiguos como Voyager. Los discos no llegaron hasta más tarde, y ahora se está volando flash.

Si algunas personas no se hubieran retirado, todavía estaríamos volando tubos como vidicons. El problema es que la infraestructura de la era Apolo desapareció y tuvo éxito con los CCD (estos fueron altamente desconfiados al principio a pesar de las versiones de vuelo militar de ellos (que se clasificaron en ese momento)) que saltaron sobre otras tecnologías obsoletas. Todo esto es más caro. Los diseñadores ponen blindaje limitado en varias partes esenciales. Recuerdo amigos que trabajaron en Galileo considerando dónde podrían ponerlo.

Las partes no endurecidas sufren daños por radiación. Período. Por ejemplo, las lentes de Voyager en sus cámaras telescópicas acumularon daños, y cierta cantidad de procesamiento de imágenes puede interpolar valores entre píxeles adyacentes (hecho fácilmente). Ocurre con otros satélites (p. Ej., Landsat) que los sensores se estropearon con el tiempo.

Generalmente no es mi problema. Soy un chico de software.

Bueno, no hay un sistema perfecto, especialmente porque los requisitos para tal sistema se hicieron más exigentes tanto en hardware como en software, pero:

  • Blindaje mecánico y eléctrico contra diferentes tipos de radiación (EM, neutrones …)
  • desacoplar diferentes componentes, utilizar ampliamente la protección ESD (descarga electrostática), utilizar rieles de alimentación de enrutamiento diferente y redundantes …
  • aísle sus componentes electrónicos (SOI – Silicon On Insulator) para evitar la propagación de perturbaciones inducidas
  • construir lógica redundante, por ejemplo, cuando falla un transistor (un error grave) no afectará la funcionalidad general
  • haga la lógica digital resistente a fallas tanto como sea posible
  • extienda esta lógica redundante sobre un dado, de modo que un área afectada no moleste a otra (por ejemplo, esta técnica se usa en DRAM donde partes de una palabra están físicamente distantes)
  • use ECC (Código de corrección de errores) para transmitir datos y quizás también para cálculos
  • generalmente uno debería usar algún tipo de suma de verificación para verificar la integridad de todos los datos, especialmente cuando los datos se transfieren entre diferentes módulos
  • construya componentes redundantes (o sistemas completos incluso fabricados por diferentes fabricantes) y compare sus resultados mediante una lógica simple y más resistente
  • use niveles de energía más altos (generalmente voltaje de suministro para lógica) necesarios para cambiar componentes (flip-flops), incluso transistores bipolares o discretos si el componente debe ser altamente confiable
  • reinicie los componentes periódicamente, arranque desde el principio, por lo que todos los errores debidos deberían desaparecer
  • usar diferentes circuitos de vigilancia para cada módulo
  • Supervisar fuentes de alimentación, temperatura, sensores de radiación, etc.
  • utilizar monitores de circuito en matriz
  • hacer pruebas automáticas y recalibrar componentes ocasionalmente, invalidar componentes y partes del sistema con errores irrecuperables y difíciles para su uso posterior
  • dividir operaciones largas y computacionalmente largas en tareas cortas paralelas donde cada una puede rastrearse y volver a ejecutarse si algo sale mal
  • permitir la carga de nuevos firmwares y la reconfiguración de todo el sistema (esto ahorró varias sondas espaciales hasta ahora)

y muchos más.

Solo un ejemplo simple de efecto de radiación: cuando una partícula golpea un dado de silicio, divide cargas de silicio previamente neutro (como una roca arrojada al agua) y estos electrones que flotan libremente crean un desastre en la lógica cercana, alrededor de decenas de micrómetros alrededor , dependiendo de la tecnología. Este error generalmente suave puede voltear un bit (s) de registro, inducir cálculos defectuosos y muchos más. A veces, estos errores son irreversibles (errores duros), como el óxido de la puerta se acorta, se cambian los umbrales de voltaje de los transistores, etc.

Básicamente, un transistor o un diodo pueden fallar, ya sea al hacer un pulso (“1” malo) cuando no debería o al no hacer un pulso (“0” malo cuando debería, cuando es golpeado por una partícula ionizante ( generalmente un protón) que libera carga donde se supone que es aislante.

En realidad, esa es solo una posibilidad, pero es típica.

La gente ha estado zappingando circuitos con el haz de protones en TRIUMF durante años, estudiando cómo (y con qué frecuencia) sucede esto.

Hay muchos enfoques para protegerse contra tales problemas. Una es hacer que todos los circuitos sean triplicadamente redundantes y rechazar cualquier resultado de “hombre extraño”; Mi recomendación es también hacer que los troqueles sean más grandes: retroceder en los tamaños cada vez más reducidos de los transistores individuales, etc. en circuitos integrados que han estado impulsando la Ley de Moore durante décadas. Esto hace que las fichas sean más grandes, pero no son muy pesadas.