5.3. Datos de UCluster

El preprocesamiento de los datos de cada participante de las LHCO 2020 es distinto. Algunos métodos requieren la creación de imágenes, otros el cálculo de variables, y las variables a utilizar también dependen de cada algoritmo. En esta sección vamos a analizar el preprocesamiento de los datos hecho para UCluster utilizando el conjunto R&D.

5.3.1. Distribuciones

Las variables de los datos preprocesados por UCluster se describen en la Tabla 5.2[107]:

Tabla 5.2 Definición de las variables utilizadas por UCluster para entrenamiento y clasificación.

Variable

Descripción

Δη

Diferencia entre la pseudo-rapidez del constituyente y del jet

Δϕ

Diferencia entre el ángulo azimutal del constituyente y del jet

logpT

Logaritmo del pT del constituyente

logE

Logaritmo de la E del constituyente

logpTpTjet

Logaritmo de la relación entre el pT del constituyente y el pT del jet

logEEjet

Logaritmo de la relación entre la E del constituyente y la E del jet

ΔR

Distancia entre el constituyente y el jet en el espacio ηϕ

PID

Identificador del tipo de partícula

La distribución de estas variables se encuentra en la Figura 5.19. La distribución de η es igual para señal y fondo. ϕ y ΔR poseen una distribución de señal más angosta y con una mayor densidad de eventos que el fondo, por lo explicado en la Sección 5.2.1. Las distribuciones relacionadas a pT y E son similares, y se observan diferencias entre señal y fondo. En ambas variables, los picos de los eventos de señal se encuentran en valores mayores de pT que los de fondo, debido a la mayor energía de la interacción, como se observó en los datos preprocesados por benchtools.

../../_images/dUCluster-dist-data.png

Figura 5.19 Distribución de las variables en la Tabla 5.2.

Para UCluster también se calculan variables globales del evento. Estas son: el logaritmo de la masa de los dos jets principales y τ21 de los dos jets principales (Figura 5.20). La distribución de τ21 es similar a la obtenida con benchtools, analizada en la Sección 5.2.1.

../../_images/dUCluster-dist-global.png

Figura 5.20 Distribución de las variables para parametrizar la red de UCluster.

Como se explicó en la Sección 4.3.2, el algoritmo realiza una clasificación de masa por partícula para crear la representación reducida. Por lo tanto, el conjunto de datos preprocesados posee un conjunto label, que hace referencia a las etiquetas de masa asignadas a los constituyentes de los jet. De la reconstrucción de esta variable, considerando el rango de masa utilizado por el método[75], se pueden obtener las masas de las partículas X y Y del conjunto de datos, como se muestra en la Figura 5.21, donde se observan dos picos en la distribución de señal, alrededor de la masa de las partículas.

../../_images/dUCluster-label.png

Figura 5.21 Distribución de la media de las etiquetas de masa asignadas a los constituyentes de los jets. Los picos de la señal coinciden con la masa de las partículas X y Y para el conjunto analizado.

5.3.2. Correlaciones

En la Figura 5.22 se presenta el mapa de correlaciones de las variables utilizadas por UCluster.

../../_images/dUCluster-correlaciones.png

Figura 5.22 Correlaciones de las variables obtenidas del preprocesamiento realizado para UCluster.

Se observa que en los eventos de señal y fondo existen correlaciones fuertes entre logEEjet y logpTpTjet y entre log(E) y log(pT). Esta relación es natural debido a que E se calcula con las componentes del momento. En el fondo, se observan correlaciones entre la masa del jet principal y secundario con pT. Sin embargo, no son evidentes en la Figura 5.23.

../../_images/dUCluster-bkgcorr.png

Figura 5.23 Correlaciones de las masa de los jets principales con logpTpTjet.