5.2. Datos preprocesados

En la sección anterior, analizamos los datos publicados para las LHCO 2020 sin alteración. En esta sección, analizaremos los datos preprocesados de estos conjuntos.

Los datos preprocesados se obtienen utilizando build_features del módulo clustering, que utiliza la librería pyjet para agrupar los jets y obtener variables cinemáticas de los dos jets con mayor \(pT\) de cada evento, puesto que se espera que estos correspondan a los jets provenientes de las partículas \(X\) y \(Y\) de la señal descrita en la Sección 4.1. Los detalles del preprocesamiento se encuentran en la Sección 4.5.2. Los primeros cinco eventos del conjunto R&D preprocesados por benchtools se pueden ver en la Figura 5.6.

# preprocesamiento R&D
# Esta celda se corre una vez para preprocesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_RnD, nbatch=11, outname='RnD-1100000', outdir='../../../datos/', chunksize=100000)
A file with that name already exists
# preprocesamiento BB1
# Esta celda se corre una vez para preprocesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_BB1, nbatch=10, outname='BB1-1000000', path_label=path_key_BB1, outdir='../../../datos/', chunksize=100000)
A file with that name already exists
pT_j1 m_j1 eta_j1 phi_j1 E_j1 tau_21_j1 nhadrons_j1 pT_j2 m_j2 eta_j2 phi_j2 E_j2 tau_21_j2 nhadrons_j2 m_jj deltaR_j12 n_hadrons label
0 1286.727685 106.912129 0.185508 -2.763676 1313.290435 0.624659 36 1283.220733 63.164215 0.064989 0.393688 1287.481934 0.713248 33 2580.489568 3.159663 109.0 0.0
1 1354.394070 614.269108 0.826505 1.365524 1943.559886 0.311688 84 1325.613761 439.064150 -0.874319 -1.786248 1916.370744 0.276881 97 3859.315047 3.581406 208.0 0.0
2 1214.955723 645.865619 -0.196786 2.040545 1396.840654 0.238205 119 1072.462085 113.768840 0.143831 -1.090330 1089.530630 0.726963 59 2480.769725 3.149348 196.0 0.0
3 1285.227873 516.835248 0.328693 2.975321 1450.485926 0.013429 65 1220.251279 174.796077 0.294854 -0.322661 1285.618789 0.706361 89 2609.893413 3.298155 183.0 0.0
4 1210.415787 129.499352 -0.744836 -2.883347 1567.345300 0.423550 54 1091.785816 155.362262 1.060534 0.264977 1772.340209 0.787662 57 3313.488835 3.629229 169.0 1.0

Figura 5.6 Primeros 5 eventos de los datos R&D preprocesados usando benchtools. Las variables corresponden a la información de los eventos presentes en la Figura 5.2.

5.2.1. Distribuciones

Son de interés las variables que poseen mayor separación entre distribuciones de eventos de señal y de fondo. En principio, estas son las variables que los modelos van a utilizar para distinguir entre clases.

../../_images/datospp-vardiff-RnD.png

Figura 5.7 Distribución de \(pT\), \(E\), \(m\) y \(\tau_{21}\) del jet principal en el conjunto R&D.

En la Figura 5.7 vemos que la distribución del \(pT\) del fondo decae suavemente, lo que indica que los jets más energéticos de eventos de QCD tienden a tener un momento transverso menor a 1500 GeV. Los jets más energéticos de los eventos de señal poseen un \(pT\) mayor, entre 1500 y 2000 GeV. El mayor valor de \(pT\) en los jets de señal se debe a que se requiere una interacción con mayor transferencia de momento para generar la masa de la partícula \(Z'\), interacción que, a su vez, resulta en un mayor \(pT\). Esta distribución de señal y fondo también se observa en las distribuciones de energía, donde los jets principales de eventos de señal son más energéticos que los de eventos de fondo, debido a lo explicado anteriormente.

La distribución de masa del jet principal también es diferente. Para el fondo, los jets tienden a ser menos masivos y la distribución de masa también decaen suavemente, debido a que los jets provienen principalmente de quarks y gluones. Sin embargo, en los eventos de señal se observan dos picos alrededor de 100 y 500 GeV. Estas son las masas correspondientes a las partículas \(X\) y \(Y\) del evento \(Z'\rightarrow XY\) para el conjunto R&D.

Finalmente, se observa diferencia en la distribución de la variable \(\tau_{21}\). De acuerdo a su definición en la ec.(2.6), el valor de esta variable es menor cuando los jets son más consistentes con la subestructura de dos subjets. Por lo tanto, como la señal se agrupa hacia valores más pequeños, los jets de señal son más consistentes con la subestructura de dos subjets. Los jets de fondo no son consistentes con la subestructura de dos subjets porque provienen principalmente de quarks y gluones, y su subestructura es consistente con un solo jet porque poseen una sola dirección predominante de la deposición de energía en el detector.

El conjunto BB1 presenta distribuciones similares en las variables mostradas, como notamos en la Figura 5.8. La diferencia principal se encuentra en la distribución de la masa de los jets. Para el conjunto BB1 los picos de señal están alrededor de 380 y 750 GeV, cercanos a los valores de las masas de las partículas \(X\) y \(Y\) de este conjunto. Las distribuciones de \(pT\) y de \(E\) varían en consecuencia: el \(pT\) y \(E\) del jet principal en este conjunto son mayores a las del conjunto R&D, porque la masa de la partícula \(Z'\) es mayor.

../../_images/datospp-vardiff-BB1.png

Figura 5.8 Distribución de \(pT\), \(E\), \(m\) y \(\tau_{21}\) del jet principal en el conjunto BB1.

En las Figura 5.9 y la Figura 5.10, notamos que las distribuciones de \(\eta\) son más angostas para la señal porque los jets de señal se producen de forma más centrales en el detector, debido a que provienen de colisiones más energéticas. También observamos que el número de hadrones para los jets de fondo es mayor que para los de señal, debido a que los jets iniciados por gluones tienden a tener más divisiones en su evolución y mayor radiación[117]. El ángulo \(\phi\) de los jets no presenta diferencias evidentes.

../../_images/datospp-vareq-RnD.png

Figura 5.9 Distribución de \(\eta\), nro. de hadrones y \(\phi\) del jet principal para el conjunto R&D.

../../_images/datospp-vareq-BB1.png

Figura 5.10 Distribución de \(\eta\), nro. de hadrones y \(\phi\) del jet principal para el conjunto BB1.

Las distribuciones de las variables analizadas previamente poseen las mismas características para el jet secundario, como se evidencia en la Figura 5.11 y la Figura 5.12. El jet secundario posee menor \(pT\) y \(E\) que el jet principal, por definición. Las demás variables muestran las mismas distribuciones que las correspondientes al jet principal, explicadas anteriormente.

../../_images/datospp-jet2-RnD.png

Figura 5.11 Distribución de las variables del jet secundario para el conjunto R&D.

../../_images/datospp-jet2-BB1.png

Figura 5.12 Distribución de las variables del jet secundario para el conjunto BB1.

Por último, tenemos las variables que relacionan los dos jets principales, \(\Delta R\) y \(m_{jj}\), que se observan en la Figura 5.13 y la Figura 5.14.

../../_images/datospp-jetrelations-RnD.png

Figura 5.13 Distribución de las variables \(\Delta R\) y \(m_{jj}\) para el conjunto R&D.

La distribución de \(\Delta R\) es más angosta para los eventos de señal. Los jets de señal, al ser producto de colisiones más energéticas, se generan en direcciones opuestas, y son más centrales en los detectores. La masa invariante del fondo se encuentra entre 2000 y 3000 GeV, y decae suavemente, mientras que para la señal del conjunto R&D se observa un pico en 3477 GeV, consistente con la masa del bosón \(Z'\) de nueva física para el evento de este conjunto de datos. Para el conjunto BB1 se observa un pico en 3670 GeV, cerca de la masa de el bosón \(Z'\) para este conjunto.

../../_images/datospp-jetrelations-BB1.png

Figura 5.14 Distribución de las variables \(\Delta R\) y \(m_{jj}\) para el conjunto BB1.

Aunque las variables de masa poseen diferentes distribuciones para señal y fondo, y podrían ser de utilidad para que los modelos aprendan a distinguir entre clases, no serán utilizadas para el entrenamiento ni la clasificación. La idea es que la búsqueda sea lo más libre de modelo posible, por lo que no se desea que los algoritmos aprendan las distribuciones de masa.

5.2.2. Correlaciones

Las correlaciones de las variables que se utilizarán para entrenamiento se encuentran en la Figura 5.15 y la Figura 5.16.

../../_images/datospp-correlaciones-fondo.png

Figura 5.15 Mapa de correlaciones para los eventos de fondo.

../../_images/datospp-correlaciones-señal.png

Figura 5.16 Mapa de correlaciones para los eventos de señal.

La mayoría de las variables no presentan una correlación importante, sobre 0.5 o menores a -0.5, a excepción del \(pT\) del jet principal con el \(pT\) jet secundario y \(\phi\) del jet principal con \(\phi\) del jet secundario, para la señal y el fondo (Figura 5.15 y Figura 5.16), y el \(pT\) de los jets principales con \(\Delta R\), para la señal (Figura 5.16). Estas correlaciones se observan en la Figura 5.17 y la Figura 5.18.

../../_images/datospp-correlaciones-RnD.png

Figura 5.17 Variables correlacionadas del conjunto R&D.

../../_images/datospp-correlaciones-BB1.png

Figura 5.18 Variables correlacionadas del conjunto BB1.

La correlación del \(pT\) del jet principal con el \(pT\) jet secundario es lineal por la naturaleza del evento y del agrupamiento. Se escogieron como jets principales los de mayor \(pT\), por lo que el \(pT\) de los jets secundarios puede ser a lo sumo igual que el de los jets principales. Además, el momento de la colisión se distribuye de acuerdo a los dos productos principales que se formen, manteniendo una relación entre sí.

Los valores de \(\phi\) del jet principal con \(\phi\) del jet secundario también presentan una correlación positiva por la naturaleza del evento. En los eventos dijet, los jets se generan en direcciones opuestas, por lo que la dirección angular del jet principal se relaciona con la del jet secundario. Las demás correlaciones no son evidentes en los gráficos.