Datos de UCluster
Contenido
5.3. Datos de UCluster¶
El preprocesamiento de los datos de cada participante de las LHCO 2020 es distinto. Algunos métodos requieren la creación de imágenes, otros el cálculo de variables, y las variables a utilizar también dependen de cada algoritmo. En esta sección vamos a analizar el preprocesamiento de los datos hecho para UCluster utilizando el conjunto R&D.
5.3.1. Distribuciones¶
Las variables de los datos preprocesados por UCluster se describen en la Tabla 5.2[107]:
Variable |
Descripción |
---|---|
\(\Delta\eta\) |
Diferencia entre la pseudo-rapidez del constituyente y del jet |
\(\Delta\phi\) |
Diferencia entre el ángulo azimutal del constituyente y del jet |
\(\log{pT}\) |
Logaritmo del \(pT\) del constituyente |
\(\log{E}\) |
Logaritmo de la \(E\) del constituyente |
\(\log\frac{pT}{pT_{jet}}\) |
Logaritmo de la relación entre el \(pT\) del constituyente y el \(pT\) del jet |
\(\log\frac{E}{E_{jet}}\) |
Logaritmo de la relación entre la \(E\) del constituyente y la \(E\) del jet |
\(\Delta R\) |
Distancia entre el constituyente y el jet en el espacio \(\eta-\phi\) |
PID |
Identificador del tipo de partícula |
La distribución de estas variables se encuentra en la Figura 5.19. La distribución de \(\eta\) es igual para señal y fondo. \(\phi\) y \(\Delta R\) poseen una distribución de señal más angosta y con una mayor densidad de eventos que el fondo, por lo explicado en la Sección 5.2.1. Las distribuciones relacionadas a \(pT\) y \(E\) son similares, y se observan diferencias entre señal y fondo. En ambas variables, los picos de los eventos de señal se encuentran en valores mayores de \(pT\) que los de fondo, debido a la mayor energía de la interacción, como se observó en los datos preprocesados por benchtools
.
Para UCluster también se calculan variables globales del evento. Estas son: el logaritmo de la masa de los dos jets principales y \(\tau_{21}\) de los dos jets principales (Figura 5.20). La distribución de \(\tau_{21}\) es similar a la obtenida con benchtools
, analizada en la Sección 5.2.1.

Figura 5.20 Distribución de las variables para parametrizar la red de UCluster.¶
Como se explicó en la Sección 4.3.2, el algoritmo realiza una clasificación de masa por partícula para crear la representación reducida. Por lo tanto, el conjunto de datos preprocesados posee un conjunto label, que hace referencia a las etiquetas de masa asignadas a los constituyentes de los jet. De la reconstrucción de esta variable, considerando el rango de masa utilizado por el método[75], se pueden obtener las masas de las partículas \(X\) y \(Y\) del conjunto de datos, como se muestra en la Figura 5.21, donde se observan dos picos en la distribución de señal, alrededor de la masa de las partículas.

Figura 5.21 Distribución de la media de las etiquetas de masa asignadas a los constituyentes de los jets. Los picos de la señal coinciden con la masa de las partículas \(X\) y \(Y\) para el conjunto analizado.¶
5.3.2. Correlaciones¶
En la Figura 5.22 se presenta el mapa de correlaciones de las variables utilizadas por UCluster.

Figura 5.22 Correlaciones de las variables obtenidas del preprocesamiento realizado para UCluster.¶
Se observa que en los eventos de señal y fondo existen correlaciones fuertes entre \(\log{\frac{E}{E_{jet}}}\) y \(\log{\frac{p_T}{pT_{jet}}}\) y entre \(\log{(E)}\) y \(log{(pT)}\). Esta relación es natural debido a que \(E\) se calcula con las componentes del momento. En el fondo, se observan correlaciones entre la masa del jet principal y secundario con \(pT\). Sin embargo, no son evidentes en la Figura 5.23.

Figura 5.23 Correlaciones de las masa de los jets principales con \(\log{\frac{p_T}{p_{T_{jet}}}}\).¶