Datos preprocesados
Contenido
5.2. Datos preprocesados¶
En la sección anterior, analizamos los datos publicados para las LHCO 2020 sin alteración. En esta sección, analizaremos los datos preprocesados de estos conjuntos.
Los datos preprocesados se obtienen utilizando build_features
del módulo clustering
, que utiliza la librería pyjet
para agrupar los jets y obtener variables cinemáticas de los dos jets con mayor \(pT\) de cada evento, puesto que se espera que estos correspondan a los jets provenientes de las partículas \(X\) y \(Y\) de la señal descrita en la Sección 4.1. Los detalles del preprocesamiento se encuentran en la Sección 4.5.2. Los primeros cinco eventos del conjunto R&D preprocesados por benchtools
se pueden ver en la Figura 5.6.
# preprocesamiento R&D
# Esta celda se corre una vez para preprocesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_RnD, nbatch=11, outname='RnD-1100000', outdir='../../../datos/', chunksize=100000)
A file with that name already exists
# preprocesamiento BB1
# Esta celda se corre una vez para preprocesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_BB1, nbatch=10, outname='BB1-1000000', path_label=path_key_BB1, outdir='../../../datos/', chunksize=100000)
A file with that name already exists
pT_j1 | m_j1 | eta_j1 | phi_j1 | E_j1 | tau_21_j1 | nhadrons_j1 | pT_j2 | m_j2 | eta_j2 | phi_j2 | E_j2 | tau_21_j2 | nhadrons_j2 | m_jj | deltaR_j12 | n_hadrons | label | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1286.727685 | 106.912129 | 0.185508 | -2.763676 | 1313.290435 | 0.624659 | 36 | 1283.220733 | 63.164215 | 0.064989 | 0.393688 | 1287.481934 | 0.713248 | 33 | 2580.489568 | 3.159663 | 109.0 | 0.0 |
1 | 1354.394070 | 614.269108 | 0.826505 | 1.365524 | 1943.559886 | 0.311688 | 84 | 1325.613761 | 439.064150 | -0.874319 | -1.786248 | 1916.370744 | 0.276881 | 97 | 3859.315047 | 3.581406 | 208.0 | 0.0 |
2 | 1214.955723 | 645.865619 | -0.196786 | 2.040545 | 1396.840654 | 0.238205 | 119 | 1072.462085 | 113.768840 | 0.143831 | -1.090330 | 1089.530630 | 0.726963 | 59 | 2480.769725 | 3.149348 | 196.0 | 0.0 |
3 | 1285.227873 | 516.835248 | 0.328693 | 2.975321 | 1450.485926 | 0.013429 | 65 | 1220.251279 | 174.796077 | 0.294854 | -0.322661 | 1285.618789 | 0.706361 | 89 | 2609.893413 | 3.298155 | 183.0 | 0.0 |
4 | 1210.415787 | 129.499352 | -0.744836 | -2.883347 | 1567.345300 | 0.423550 | 54 | 1091.785816 | 155.362262 | 1.060534 | 0.264977 | 1772.340209 | 0.787662 | 57 | 3313.488835 | 3.629229 | 169.0 | 1.0 |
Figura 5.6 Primeros 5 eventos de los datos R&D preprocesados usando benchtools
. Las variables corresponden a la información de los eventos presentes en la Figura 5.2.¶
5.2.1. Distribuciones¶
Son de interés las variables que poseen mayor separación entre distribuciones de eventos de señal y de fondo. En principio, estas son las variables que los modelos van a utilizar para distinguir entre clases.

Figura 5.7 Distribución de \(pT\), \(E\), \(m\) y \(\tau_{21}\) del jet principal en el conjunto R&D.¶
En la Figura 5.7 vemos que la distribución del \(pT\) del fondo decae suavemente, lo que indica que los jets más energéticos de eventos de QCD tienden a tener un momento transverso menor a 1500 GeV. Los jets más energéticos de los eventos de señal poseen un \(pT\) mayor, entre 1500 y 2000 GeV. El mayor valor de \(pT\) en los jets de señal se debe a que se requiere una interacción con mayor transferencia de momento para generar la masa de la partícula \(Z'\), interacción que, a su vez, resulta en un mayor \(pT\). Esta distribución de señal y fondo también se observa en las distribuciones de energía, donde los jets principales de eventos de señal son más energéticos que los de eventos de fondo, debido a lo explicado anteriormente.
La distribución de masa del jet principal también es diferente. Para el fondo, los jets tienden a ser menos masivos y la distribución de masa también decaen suavemente, debido a que los jets provienen principalmente de quarks y gluones. Sin embargo, en los eventos de señal se observan dos picos alrededor de 100 y 500 GeV. Estas son las masas correspondientes a las partículas \(X\) y \(Y\) del evento \(Z'\rightarrow XY\) para el conjunto R&D.
Finalmente, se observa diferencia en la distribución de la variable \(\tau_{21}\). De acuerdo a su definición en la ec.(2.6), el valor de esta variable es menor cuando los jets son más consistentes con la subestructura de dos subjets. Por lo tanto, como la señal se agrupa hacia valores más pequeños, los jets de señal son más consistentes con la subestructura de dos subjets. Los jets de fondo no son consistentes con la subestructura de dos subjets porque provienen principalmente de quarks y gluones, y su subestructura es consistente con un solo jet porque poseen una sola dirección predominante de la deposición de energía en el detector.
El conjunto BB1 presenta distribuciones similares en las variables mostradas, como notamos en la Figura 5.8. La diferencia principal se encuentra en la distribución de la masa de los jets. Para el conjunto BB1 los picos de señal están alrededor de 380 y 750 GeV, cercanos a los valores de las masas de las partículas \(X\) y \(Y\) de este conjunto. Las distribuciones de \(pT\) y de \(E\) varían en consecuencia: el \(pT\) y \(E\) del jet principal en este conjunto son mayores a las del conjunto R&D, porque la masa de la partícula \(Z'\) es mayor.

Figura 5.8 Distribución de \(pT\), \(E\), \(m\) y \(\tau_{21}\) del jet principal en el conjunto BB1.¶
En las Figura 5.9 y la Figura 5.10, notamos que las distribuciones de \(\eta\) son más angostas para la señal porque los jets de señal se producen de forma más centrales en el detector, debido a que provienen de colisiones más energéticas. También observamos que el número de hadrones para los jets de fondo es mayor que para los de señal, debido a que los jets iniciados por gluones tienden a tener más divisiones en su evolución y mayor radiación[117]. El ángulo \(\phi\) de los jets no presenta diferencias evidentes.

Figura 5.9 Distribución de \(\eta\), nro. de hadrones y \(\phi\) del jet principal para el conjunto R&D.¶

Figura 5.10 Distribución de \(\eta\), nro. de hadrones y \(\phi\) del jet principal para el conjunto BB1.¶
Las distribuciones de las variables analizadas previamente poseen las mismas características para el jet secundario, como se evidencia en la Figura 5.11 y la Figura 5.12. El jet secundario posee menor \(pT\) y \(E\) que el jet principal, por definición. Las demás variables muestran las mismas distribuciones que las correspondientes al jet principal, explicadas anteriormente.

Figura 5.11 Distribución de las variables del jet secundario para el conjunto R&D.¶

Figura 5.12 Distribución de las variables del jet secundario para el conjunto BB1.¶
Por último, tenemos las variables que relacionan los dos jets principales, \(\Delta R\) y \(m_{jj}\), que se observan en la Figura 5.13 y la Figura 5.14.

Figura 5.13 Distribución de las variables \(\Delta R\) y \(m_{jj}\) para el conjunto R&D.¶
La distribución de \(\Delta R\) es más angosta para los eventos de señal. Los jets de señal, al ser producto de colisiones más energéticas, se generan en direcciones opuestas, y son más centrales en los detectores. La masa invariante del fondo se encuentra entre 2000 y 3000 GeV, y decae suavemente, mientras que para la señal del conjunto R&D se observa un pico en 3477 GeV, consistente con la masa del bosón \(Z'\) de nueva física para el evento de este conjunto de datos. Para el conjunto BB1 se observa un pico en 3670 GeV, cerca de la masa de el bosón \(Z'\) para este conjunto.

Figura 5.14 Distribución de las variables \(\Delta R\) y \(m_{jj}\) para el conjunto BB1.¶
Aunque las variables de masa poseen diferentes distribuciones para señal y fondo, y podrían ser de utilidad para que los modelos aprendan a distinguir entre clases, no serán utilizadas para el entrenamiento ni la clasificación. La idea es que la búsqueda sea lo más libre de modelo posible, por lo que no se desea que los algoritmos aprendan las distribuciones de masa.
5.2.2. Correlaciones¶
Las correlaciones de las variables que se utilizarán para entrenamiento se encuentran en la Figura 5.15 y la Figura 5.16.

Figura 5.15 Mapa de correlaciones para los eventos de fondo.¶

Figura 5.16 Mapa de correlaciones para los eventos de señal.¶
La mayoría de las variables no presentan una correlación importante, sobre 0.5 o menores a -0.5, a excepción del \(pT\) del jet principal con el \(pT\) jet secundario y \(\phi\) del jet principal con \(\phi\) del jet secundario, para la señal y el fondo (Figura 5.15 y Figura 5.16), y el \(pT\) de los jets principales con \(\Delta R\), para la señal (Figura 5.16). Estas correlaciones se observan en la Figura 5.17 y la Figura 5.18.

Figura 5.17 Variables correlacionadas del conjunto R&D.¶

Figura 5.18 Variables correlacionadas del conjunto BB1.¶
La correlación del \(pT\) del jet principal con el \(pT\) jet secundario es lineal por la naturaleza del evento y del agrupamiento. Se escogieron como jets principales los de mayor \(pT\), por lo que el \(pT\) de los jets secundarios puede ser a lo sumo igual que el de los jets principales. Además, el momento de la colisión se distribuye de acuerdo a los dos productos principales que se formen, manteniendo una relación entre sí.
Los valores de \(\phi\) del jet principal con \(\phi\) del jet secundario también presentan una correlación positiva por la naturaleza del evento. En los eventos dijet, los jets se generan en direcciones opuestas, por lo que la dirección angular del jet principal se relaciona con la del jet secundario. Las demás correlaciones no son evidentes en los gráficos.