Datos sin preprocesar

5.1. Datos sin preprocesar

Los dos conjuntos de datos utilizados en este trabajo, como se explica en la Sección 4.1, poseen señales similares de nueva física, que se diferencian por las masas de las partículas BSM y las fracción de eventos de señal. En esta sección se realizará una breve exploración de los datos R&D y BB1 publicados para las LHCO 2020.

../../_images/lhco-RnD.png

Figura 5.1 Diagrama de Feynmann para la señal.

Para esta sección, utilizamos los primeros 100,000 eventos de cada conjunto de datos por dos razones: utilizar todos los eventos no es posible porque requiere una gran cantidad de memoria y 100,000 eventos son suficientes para observar las distribuciones de los datos. Los datos utilizados representan el 9% y el 10% de los eventos del conjunto R&D y BB1, respectivamente, y poseen la misma proporción de señal y fondo que cada uno de los conjuntos en su totalidad.

5.1.1. Estructura

El conjunto de datos R&D y BB1 publicados para las olimpiadas posee un evento por fila, con la información de \(pT\), \(\eta\) y \(\phi\) para cada hadrón del evento, como se muestra en Tabla 5.1. La diferencia estructural entre ambos archivos es que el conjunto R&D tiene la etiqueta del evento en la última columna (señal o fondo), mientras que para el conjunto BB1 la etiqueta se encuentra en un archivo aparte.

Tabla 5.1 Estructura del conjunto de datos R&D. Cada fila es un evento y la última columna hace referencia a si el evento es fondo (0) o señal (1).

Evento

\(pT\)

\(\eta\)

\(\phi\)

\(pT\)

\(\eta\)

\(\phi\)

\(\cdots\)

señal

1

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

1.0

2

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

0.0

\(\vdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

\(\cdots\)

0.0

El conjunto R&D posee 1,000,000 de eventos de fondo y 100,000 de señal (aproximadamente 9.09% de los eventos son señal). En este conjunto las partículas \(Z'\), \(X\) y \(Y\) tienen masas de 3.5 TeV, 500 GeV y 100 GeV, respectivamente. En el conjunto BB1, las partículas \(Z'\), \(X\) y \(Y\) tienen masas de 3,823 TeV, 732 GeV y 378 GeV, respectivamente, con un porcentaje menor de señal: de 1,000,000 de eventos, 834 son señal, es decir, el 0.08% es señal, como se discutió en la Sección 4.1.

La información de los primeros 5 eventos del conjunto R&D se puede observar en la Figura 5.2.

0 1 2 3 4 5 6 7 8 9 ... 2091 2092 2093 2094 2095 2096 2097 2098 2099 2100
0 0.324101 -0.361158 2.737669 0.409859 -2.429939 0.729830 0.867922 -2.267777 -1.161310 0.383031 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 0.646304 -0.539460 -1.386258 0.471293 -1.636572 0.751657 0.453769 -1.099593 -0.393405 0.485929 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
2 0.325172 -0.833948 2.404844 1.295058 -2.089618 -1.873342 0.451272 -0.101877 2.217348 0.461293 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
3 0.290918 -2.200063 1.630132 0.565028 -1.714345 -2.617103 0.951042 -0.532720 2.941473 0.896248 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
4 0.526330 -2.349110 -1.745532 0.542491 -2.080352 -3.044045 0.390727 -1.278563 -2.131058 2.530358 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0

5 rows × 2101 columns

Figura 5.2 Primeros 5 eventos de los datos R&D. Cada fila representa un evento y cada columna representa una medida de la cinemática de un hadrón, como se muestra en la Tabla 5.1. La columna 2100 representa la etiqueta del evento (señal o fondo).

Cada evento tiene un número distinto de hadrones. Por ejemplo, los primeros eventos del conjunto R&D tienen:

Evento 0: 109 hadrones
Evento 1: 208 hadrones
Evento 2: 196 hadrones
Evento 3: 183 hadrones
Evento 4: 169 hadrones

5.1.2. Distribuciones

Para ambos conjuntos, las distribuciones de los datos son similares. La diferencia más evidente es la proporción de eventos de señal, que requiere de histogramas con menos contenedores para el conjunto con menor proporción de señal, es decir, para el conjunto BB1.

../../_images/rawdata-nhadrones.png

Figura 5.3 Distribución del número de hadrones para eventos de señal y fondo. A la izquierda el conjunto R&D y a la derecha el conjunto BB1.

Como se puede ver en la Figura 5.3, el conjunto R&D posee una media de 140 hadrones por evento para la señal, y de 171 hadrones por evento para el fondo. El conjunto BB1 es similar, con una media de 147 y 174 hadrones por evento para señal y fondo, respectivamente. En general, los eventos de señal producen menos hadrones. Esto está relacionado con la naturaleza de los eventos; los eventos de fondo poseen más hadrones por evento que los de señal, porque en general provienen de jets de gluones, que generan más radiación de partículas[117].

Las distribuciones de la media de las variables \(pT\), \(\eta\) y \(\phi\) por evento se pueden ver en las Figura 5.4 y Figura 5.5, para el conjunto R&D y el conjunto BB1, respectivamente.

../../_images/rawdata-means-RnD.png

Figura 5.4 Distribución de la media de \(pT\), \(\eta\) y \(\phi\) para las partículas de los eventos del conjunto R&D.

../../_images/rawdata-means-BB1.png

Figura 5.5 Distribución de la media de \(pT\), \(\eta\) y \(\phi\) para las partículas de los eventos del conjunto BB1.

Las distribuciones de la señal son más claras en la Figura 5.4 que en la Figura 5.5, debido a que hay mayor cantidad de eventos de señal. \(\phi\) y \(\eta\) no parecen diferir notablemente entre eventos de señal y fondo. Sin embargo, se observa que los valores de \(pT\) difieren, siendo el \(pT\) de los eventos de señal mayor que el \(pT\) de los eventos de fondo, debido a que se requiere una mayor transferencia de momento para crear la partícula de nueva física.

En el caso del conjunto R&D, se tiene una media de \(pT\) de 25 y 19 GeV para señal y fondo, respectivamente. Para el conjunto BB1 las medias son de 25 y 20 GeV. En general, la media de \(pT\) de los eventos de señal es mayor.

Para poder entender los procesos físicos de los eventos, es necesario agrupar los datos en jets. Esto se hará en la siguiente sección.