(datospp)=
# Datos preprocesados
En la sección anterior, analizamos los datos publicados para las LHCO 2020 sin alteración. En esta sección, analizaremos los datos preprocesados de estos conjuntos. 

Los datos preprocesados se obtienen utilizando `build_features` del módulo `clustering`, que utiliza la librería `pyjet` para agrupar los jets y obtener variables cinemáticas de los dos jets con mayor $pT$ de cada evento, puesto que se espera que estos correspondan a los jets provenientes de las partículas $X$ y $Y$ de la señal descrita en la {numref}`datos`. Los detalles del preprocesamiento se encuentran en la {numref}`bench-pre`. Los primeros cinco eventos del conjunto R&D preprocesados por `benchtools` se pueden ver en la {numref}`df-RnD`.

In [1]:
# Importamos las librerías principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from myst_nb import glue
from PIL import Image
import os

# Funciones de benchtools
from benchtools.src.plotools import create_png, image_grid
from benchtools.src.clustering import build_features

# Definimos variables globales
PATH_IMAGES = '../../figuras/'

In [2]:
# Definimos donde están los datos
path_data_RnD = "../../../datos/events_anomalydetection.h5"
path_data_BB1 = "../../../datos/events_LHCO2020_BlackBox1.h5"
path_key_BB1 = "../../../datos/events_LHCO2020_BlackBox1.masterkey"

In [3]:
# preprocesamiento R&D
# Esta celda se corre una vez para preprocesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_RnD, nbatch=11, outname='RnD-1100000', outdir='../../../datos/', chunksize=100000)

A file with that name already exists


In [4]:
# preprocesamiento BB1
# Esta celda se corre una vez para preprocesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_BB1, nbatch=10, outname='BB1-1000000', path_label=path_key_BB1, outdir='../../../datos/', chunksize=100000)

A file with that name already exists


In [5]:
# Cargamos los datos
df_RnD = pd.read_csv("../../../datos/RnD-1100000.csv")
df_BB1 = pd.read_csv("../../../datos/BB1-1000000.csv")

glue("df-RnD", df_RnD.head(), display=False)

```{glue:figure} df-RnD
:figwidth: 700px
:name: "df-RnD"

Primeros 5 eventos de los datos R&D preprocesados usando `benchtools`. Las variables corresponden a la información de los eventos presentes en la {numref}`df-raw`.
```
(datospp-dist)=
## Distribuciones
Son de interés las variables que poseen mayor separación entre distribuciones de eventos de señal y de fondo. En principio, estas son las variables que los modelos van a utilizar para distinguir entre clases. 

In [6]:
variables = ['pT_j1','E_j1', 'm_j1','tau_21_j1']
xlabels = [r'$pT$', r'$E$', 'm', r'$\tau_{21}$']
ylabels = ['Densidad de eventos']*4
lista_RnD = create_png(namedf='R&D', df=df_RnD, variables=variables, keyname='vardiff', path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, jet='jet principal', nbins=50, type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, keyname='vardiff', path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, jet='jet principal', nbins=50, type='distribution', title=True)
# Grid de imagenes para RnD y BB1
image_grid(rows=2, columns=2, images=lista_RnD, name='datospp-vardiff-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=2, columns=2, images=lista_BB1, name='datospp-vardiff-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-vardiff-RnD.png
---
name: datospp-vardiff-RnD
width: 70%
---
Distribución de $pT$, $E$, $m$ y $\tau_{21}$ del jet principal en el conjunto R&D.
```
En la {numref}`datospp-vardiff-RnD` vemos que la distribución del $pT$ del fondo decae suavemente, lo que indica que los jets más energéticos de eventos de QCD tienden a tener un momento transverso menor a 1500 GeV. Los jets más energéticos de los eventos de señal poseen un $pT$ mayor, entre 1500 y 2000 GeV. El mayor valor de $pT$ en los jets de señal se debe a que se requiere una interacción con mayor transferencia de momento para generar la masa de la partícula $Z'$, interacción que, a su vez, resulta en un mayor $pT$. Esta distribución de señal y fondo también se observa en las distribuciones de energía, donde los jets principales de eventos de señal son más energéticos que los de eventos de fondo, debido a lo explicado anteriormente.

La distribución de masa del jet principal también es diferente. Para el fondo, los jets tienden a ser menos masivos y la distribución de masa también decaen suavemente, debido a que los jets provienen principalmente de quarks y gluones. Sin embargo, en los eventos de señal se observan dos picos alrededor de 100 y 500 GeV. Estas son las masas correspondientes a las partículas $X$ y $Y$ del evento $Z'\rightarrow XY$ para el conjunto R&D.

Finalmente, se observa diferencia en la distribución de la variable $\tau_{21}$. De acuerdo a su definición en la ec.{eq}`jets-ratio_subjettiness`, el valor de esta variable es menor cuando los jets son más consistentes con la subestructura de dos subjets. Por lo tanto, como la señal se agrupa hacia valores más pequeños, los jets de señal son más consistentes con la subestructura de dos subjets. Los jets de fondo no son consistentes con la subestructura de dos subjets porque provienen principalmente de quarks y gluones, y su subestructura es consistente con un solo jet porque poseen una sola dirección predominante de la deposición de energía en el detector.

El conjunto BB1 presenta distribuciones similares en las variables mostradas, como notamos en la {numref}`datospp-vardiff-BB1`. La diferencia principal se encuentra en la distribución de la masa de los jets. Para el conjunto BB1 los picos de señal están alrededor de 380 y 750 GeV, cercanos a los valores de las masas de las partículas $X$ y $Y$ de este conjunto. Las distribuciones de $pT$ y de $E$ varían en consecuencia: el $pT$ y $E$ del jet principal en este conjunto son mayores a las del conjunto R&D, porque la masa de la partícula $Z'$ es mayor.

```{figure} ./../../figuras/datospp-vardiff-BB1.png
---
name: datospp-vardiff-BB1
width: 70%
---
Distribución de $pT$, $E$, $m$ y $\tau_{21}$ del jet principal en el conjunto BB1.
```
En las {numref}`datospp-vareq-RnD` y la {numref}`datospp-vareq-BB1`, notamos que las distribuciones de $\eta$ son más angostas para la señal porque los jets de señal se producen de forma más centrales en el detector, debido a que provienen de colisiones más energéticas. También observamos que el número de hadrones para los jets de fondo es mayor que para los de señal, debido a que los jets iniciados por gluones tienden a tener más divisiones en su evolución y mayor radiación{cite}`Aad_2014`. El ángulo $\phi$ de los jets no presenta diferencias evidentes.

In [7]:
variables = ['eta_j1', 'nhadrons_j1', 'phi_j1']
xlabels = [r'$\eta$', 'nro. de hadrones', r'$\phi$']
ylabels = ['Densidad de eventos']*3
lista_RnD = create_png(namedf='R&D', df=df_RnD, variables=variables, keyname='vareq', path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, jet='jet principal', nbins=50, type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, keyname='vareq', path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, jet='jet principal', nbins=20, type='distribution', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=1, columns=3, images=lista_RnD, name='datospp-vareq-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=1, columns=3, images=lista_BB1, name='datospp-vareq-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-vareq-RnD.png
---
name: datospp-vareq-RnD
width: 100%
---
Distribución de $\eta$, *nro. de hadrones* y $\phi$ del jet principal para el conjunto R&D.
```

```{figure} ./../../figuras/datospp-vareq-BB1.png
---
name: datospp-vareq-BB1
width: 100%
---
Distribución de $\eta$, *nro. de hadrones* y $\phi$ del jet principal para el conjunto BB1.
```
Las distribuciones de las variables analizadas previamente poseen las mismas características para el jet secundario, como se evidencia en la {numref}`datospp-jet2-RnD` y la {numref}`datospp-jet2-BB1`. El jet secundario posee menor $pT$ y $E$ que el jet principal, por definición. Las demás variables muestran las mismas distribuciones que las correspondientes al jet principal, explicadas anteriormente.

In [8]:
variables = ['pT_j2','E_j2', 'm_j2','tau_21_j2', 'eta_j2', 'nhadrons_j2', 'phi_j2']
xlabels = [r'$pT$', r'$E$', 'm', r'$\tau_{21}$', r'$\eta$', 'nro. de hadrones', r'$\phi$']
ylabels = ['Densidad de eventos']*7
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=variables, keyname='jet2', path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, jet='jet secundario', nbins=50, type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, keyname='jet2', path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, jet='jet secundario', nbins=20, type='distribution', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=2, columns=4, images=lista_RnD, name='datospp-jet2-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=2, columns=4, images=lista_BB1, name='datospp-jet2-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-jet2-RnD.png
---
name: datospp-jet2-RnD
width: 100%
---
Distribución de las variables del jet secundario para el conjunto R&D.
```

```{figure} ./../../figuras/datospp-jet2-BB1.png
---
name: datospp-jet2-BB1
width: 100%
---
Distribución de las variables del jet secundario para el conjunto BB1.
```
Por último, tenemos las variables que relacionan los dos jets principales, $\Delta R$ y $m_{jj}$, que se observan en la {numref}`datospp-jetrelations-RnD` y la {numref}`datospp-jetrelations-BB1`. 

In [9]:
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=['deltaR_j12','m_jj'], path=PATH_IMAGES,
                       xlabels=[r'$\Delta R$', r'$m_{jj}$'], ylabels= ['Densidad de eventos']*2, keyname='jetrelations', type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=['deltaR_j12','m_jj'], path=PATH_IMAGES, 
                       xlabels=[r'$\Delta R$', r'$m_{jj}$'], ylabels = ['Densidad de eventos']*2, keyname='jetrelations', type='distribution', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=1, columns=2, images=lista_RnD, name='datospp-jetrelations-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=1, columns=2, images=lista_BB1, name='datospp-jetrelations-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-jetrelations-RnD.png
---
name: datospp-jetrelations-RnD
width: 80%
---
Distribución de las variables $\Delta R$ y $m_{jj}$ para el conjunto R&D.
```

In [10]:
mjj_RnD = df_RnD.loc[df_RnD['label']==1]['m_jj'].mean()
glue('mjj-RnD', mjj_RnD, display=True)
mjj_BB1  = df_BB1.loc[df_BB1['label']==1]['m_jj'].mean()
glue('mjj-BB1', mjj_BB1, display=True)

3476.93849410142

3670.46231528546

La distribución de $\Delta R$ es más angosta para los eventos de señal. Los jets de señal, al ser producto de colisiones más energéticas, se generan en direcciones opuestas, y son más centrales en los detectores. La masa invariante del fondo se encuentra entre 2000 y 3000 GeV, y decae suavemente, mientras que para la señal del conjunto R&D se observa un pico en {glue:text}`mjj-RnD:.0f` GeV, consistente con la masa del bosón $Z'$ de nueva física para el evento de este conjunto de datos. Para el conjunto BB1 se observa un pico en {glue:text}`mjj-BB1:.0f` GeV, cerca de la masa de el bosón $Z'$ para este conjunto.

```{figure} ./../../figuras/datospp-jetrelations-BB1.png
---
name: datospp-jetrelations-BB1
width: 80%
---
Distribución de las variables $\Delta R$ y $m_{jj}$ para el conjunto BB1.
```
Aunque las variables de masa poseen diferentes distribuciones para señal y fondo, y podrían ser de utilidad para que los modelos aprendan a distinguir entre clases, no serán utilizadas para el entrenamiento ni la clasificación. La idea es que la búsqueda sea lo más libre de modelo posible, por lo que no se desea que los algoritmos aprendan las distribuciones de masa.
(datospp-correlaciones)=
## Correlaciones
Las correlaciones de las variables que se utilizarán para entrenamiento se encuentran en la {numref}`datospp-correlaciones-fondo` y la {numref}`datospp-correlaciones-senal`.

In [11]:
nombres = [r'$p_{T_{j1}}$', r'$E_{j1}$', r'$\tau_{21,j1}$', r'$\eta_{j1}$', r'nro. hadrones $j1$', r'$\phi_{j1}$',
         r'$pT_{j2}$', r'$E_{j2}$', r'$\tau_{21,j2}$', r'$\eta_{j2}$', r'nro. hadrones $j2$', r'$\phi_{j1}$',
         r'$\Delta R$', 'nro. hadrones']

for label, intlabel in [('señal', 1), ('fondo', 0)]:
    # Queremos tener las correlaciones para la señal y el fondo en dataframes separados
    df_BB1_nm = df_BB1[df_BB1['label']==intlabel].drop(['label','m_jj','m_j1','m_j2'], axis=1)
    df_RnD_nm = df_RnD[df_RnD['label']==intlabel].drop(['label','m_jj','m_j1','m_j2'], axis=1)

    # Calculamos las correlaciones
    df_BB1_corr = df_BB1_nm.corr()
    df_RnD_corr = df_RnD_nm.corr()
    
    # Definimos figura y tamaño
    fig, axes = plt.subplots(figsize=[14,11], facecolor='white', nrows=1, ncols=2, sharey=True)
    fig.tight_layout() 
    # Para graficar el mapa de correlaciones:
    for ax, (name, corr) in zip(axes.flat, [('R&D', df_RnD_corr), ('BB1', df_BB1_corr)]):
        
        cax = ax.matshow(corr,cmap='coolwarm', vmin=-1, vmax=1)

        #Ejes
        ticks = np.arange(0,len(corr.columns),1)
        ax.set_xticks(ticks)
        ax.set_yticks(ticks)
        corr.columns=nombres
        ax.set_xticklabels(corr.columns, rotation=90)
        ax.set_yticklabels(corr.columns)
        ax.xaxis.tick_top()
        ax.set_title('{}'.format(name), fontsize=16)
        
     
    # Mapa de color
    fig.colorbar(cax, ax=axes.ravel().tolist(), fraction=0.025, pad=0.04)
    # Título
    #fig.suptitle('Mapa de correlación de {}'.format(label), fontsize=25)
    
    #plt.show()
    plt.savefig('./../../figuras/datospp-correlaciones-{}'.format(label), bbox_inches='tight', facecolor=fig.get_facecolor(),edgecolor='none')
    plt.close()

```{figure} ./../../figuras/datospp-correlaciones-fondo.png
---
name: datospp-correlaciones-fondo
width: 80%
---
Mapa de correlaciones para los eventos de **fondo**.
```
```{figure} ./../../figuras/datospp-correlaciones-señal.png
---
name: datospp-correlaciones-senal
width: 80%
---
Mapa de correlaciones para los eventos de **señal**.
```
La mayoría de las variables no presentan una correlación importante, sobre 0.5 o menores a -0.5, a excepción del $pT$ del jet principal con el $pT$ jet secundario y $\phi$ del jet principal con $\phi$ del jet secundario, para la señal y el fondo ({numref}`datospp-correlaciones-fondo` y {numref}`datospp-correlaciones-senal`), y el $pT$ de los jets principales con $\Delta R$, para la señal ({numref}`datospp-correlaciones-senal`). Estas correlaciones se observan en la {numref}`datospp-correlaciones-RnD` y la {numref}`datospp-correlaciones-BB1`.

In [12]:
variables = [('pT_j1', 'pT_j2'), ('phi_j1', 'phi_j2'), ('pT_j1', 'deltaR_j12'), ('pT_j2', 'deltaR_j12')]
xlabels = [r'$pT$ del jet principal', r'$\phi$ del jet principal', r'$pT$ del jet principal', r'$pT$ del jet secundario']
ylabels = [r'$pT$ del jet secundario', r'$\phi$ del jet secundario', r'$\Delta R$', r'$\Delta R$']
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=variables, path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, keyname='corr', type='scatter',title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, path=PATH_IMAGES, 
                       xlabels=xlabels, ylabels=ylabels, keyname='corr', type='scatter', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=2, columns=2, images=lista_RnD, name='datospp-correlaciones-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=2, columns=2, images=lista_BB1, name='datospp-correlaciones-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-correlaciones-RnD.png
---
name: datospp-correlaciones-RnD
width: 100%
---
Variables correlacionadas del conjunto R&D.
```

```{figure} ./../../figuras/datospp-correlaciones-BB1.png
---
name: datospp-correlaciones-BB1
width: 100%
---
Variables correlacionadas del conjunto BB1.
```
La correlación del $pT$ del jet principal con el $pT$ jet secundario es lineal por la naturaleza del evento y del agrupamiento. Se escogieron como jets principales los de mayor $pT$, por lo que el $pT$ de los jets secundarios puede ser a lo sumo igual que el de los jets principales. Además, el momento de la colisión se distribuye de acuerdo a los dos productos principales que se formen, manteniendo una relación entre sí. 

Los valores de $\phi$ del jet principal con $\phi$ del jet secundario también presentan una correlación positiva por la naturaleza del evento. En los eventos dijet, los jets se generan en direcciones opuestas, por lo que la dirección angular del jet principal se relaciona con la del jet secundario. Las demás correlaciones no son evidentes en los gráficos.