¿Cómo se utilizó el método de análisis de datos doble ciego en el LHC? La tecnología cambia la vida futura

TL; DR: el cegamiento es crucial en los análisis de LHC, pero no en la forma en que probablemente esté pensando.

Vayamos por pasos: los estudios doble ciego son tales que ni los sujetos ni los experimentadores saben quién está en el grupo de control o prueba.
Llevar esto a los análisis de LHC no es fácil por varias razones:

Los experimentos del LHC no tratan sobre los grupos de control / prueba que los experimentadores les dan diferentes medicamentos.
Los experimentos del LHC no están construidos en el sentido de que no puedo decirle a los protones que hagan esto o aquello cuando los colisionamos.

Entonces, toda la noción de análisis ciego es diferente, ¡pero no ausente!

En el LHC colisionamos protones y observamos los productos de colisión. Como no podemos registrarlos a todos, tenemos que decidir qué colisiones son interesantes y deben mantenerse. Para tomar esa decisión, estamos sesgados por:

Las cosas que sabemos existen y queremos medirlas con mayor precisión.
Cosas que se prevé que existan como resultado de mediciones realizadas previamente (como el bosón de Higgs en el modelo estándar) y que queremos descubrir.
Cosas que se predice que existen como resultado de una teoría que tendría algún poder predictivo (como los gluinos de la supersimetría) y que queremos descubrir.
Cosas que realmente no conocemos muy bien, pero tratamos de mantener una mente abierta (techicolor, composición, búsquedas genéricas de materia oscura, etc.).

Es un equilibrio realmente difícil de mantener, y ciertamente hay cosas que nunca mediremos porque no podemos seleccionarlas, la mayoría de las veces porque son demasiado similares a las cosas no interesantes. Pero ese suele ser el precio a pagar por dicho sesgo: perderse algún descubrimiento.

Ahora tenemos datos almacenados utilizando alguna selección sesgada. Necesitamos analizarlo. La interpretación de las señales registradas por el detector también es un lugar en el que tenemos un sesgo adicional, ya que interpretamos los patrones electrónicos de las señales en el detector como muones, como tau leptones, como fotones, otros como piones neutros o cargados, etc. Tal interpretación de los datos dan lugar a errores tipo I y tipo II. Es decir, algunas veces decimos que algún patrón es un muón cuando no se debió a un muón, y algunas veces fallamos en encontrar un muón cuando los puntos están allí para conectarse. Tales sesgos se controlan mediante el uso de simulaciones precisas de Monte Carlo de la respuesta del detector a los diferentes tipos de partículas. Por supuesto, para algunos objetos que reconstruimos, tenemos la suerte de poder utilizar métodos basados en datos; por ejemplo, los muones se pueden seleccionar con una pureza muy alta porque un puñado de partículas se descomponen en ellos de una manera fácilmente reconocible.

Entonces, ahora hemos interpretado el evento de una manera dada, y tenemos una colección de muones, piones, fotones, etc. El siguiente paso es entender si los datos están más cerca de lo que ya sabemos (hipótesis nula) de algo emocionante y nuevo que estamos buscando (hipótesis alternativa). La forma de realizar este tipo de evaluación se basará en encontrar características que distingan el resultado esperado para las hipótesis nula y alternativa. Encontrar tales características puede depender de eventos de selección con ciertas propiedades y rechazar otras, y este tipo de elección debe ser ciega, para que no comience a seleccionar propiedades de los eventos que hacen que los datos se parezcan más a lo que está buscando que a lo que realmente está allí. . Para asegurarnos de que esto se haga de manera ciega, utilizamos dos cosas: i) establecer una métrica para evaluar el rendimiento de los observables y las selecciones antes que nada y ii) optimizar el rendimiento sin utilizar eventos que potencialmente contengan la señal de que usted es buscando. Esto se logra muchas veces nuevamente utilizando la simulación de Monte Carlo de los procesos de física ya conocidos (antecedentes) y nuevos (señal). Al optimizar su selección utilizando las muestras de eventos simulados, permanece ciego a los datos reales y, por lo tanto, no puede ser sesgado por ellos. Comúnmente, algunos datos reales también se pueden usar, tomando, por ejemplo, datos que están “cerca” (regiones de banda lateral) pero no exactamente como lo que está buscando (datos de región de señal). Imagine que su señal se manifestaría como un pico estrecho en un observable dado; en ese caso, puede usar de forma segura los datos reales fuera de la zona de pico (fondo) para caracterizar el fondo esperado en la región de señal (pico) sin sesgarse.

Entonces, en general, los problemas de cegamiento son muy relevantes en los análisis de LHC, y otros análisis de física de alta energía; Es un componente crucial para no engañarnos en falsos descubrimientos. Y aunque las señales son objetivas y las colisiones de protones no son sensibles, de modo que, como experimentador, no puedo influir en el resultado de una colisión, todavía hay mucho margen para que los sesgos del experimentador se cuelen durante el proceso de análisis. Como somos conscientes de eso, hacemos todo lo posible para eliminar esos sesgos mediante una combinación de:

Uso extenso de la simulación de Monte Carlo.
Uso de regiones de control en los datos (que no se espera que tengan la señal que se busca).
Realice optimizaciones sin utilizar datos si es posible.
Definición a priori de los criterios a través de los cuales se considera que un análisis es más o menos eficaz.
Realice el mismo análisis utilizando: equipos independientes de personas, códigos independientes de computadora / análisis e incluso detectores independientes.

Y aquí es donde encuentro que falta la respuesta de Alec: si bien el detector y las colisiones son objetivas, la interpretación de los datos podría sesgar la conclusión. Personalmente, solo sabía que habíamos encontrado el bosón de Higgs en el CMS cuando vi una imagen muy similar emergiendo de ATLAS, un detector completamente diferente, manejado por personas completamente diferentes, ejecutando códigos de análisis completamente diferentes.
Ver también análisis de cegamiento y desenmascaramiento.

Análisis de datosCiencia de datosFísica de partículas