{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "(rawdata)=\n", "# Datos sin preprocesar\n", "Los dos conjuntos de datos utilizados en este trabajo, como se explica en la {numref}`datos`, poseen señales similares de nueva física, que se diferencian por las masas de las partículas BSM y las fracción de eventos de señal. En esta sección se realizará una breve exploración de los datos R&D y BB1 publicados para las LHCO 2020. \n", "\n", "```{figure} ./../../figuras/lhco-RnD.png\n", "---\n", "name: rawdata-senal\n", "figclass: margin\n", "---\n", "Diagrama de Feynmann para la señal.\n", "```\n", "Para esta sección, utilizamos los primeros 100,000 eventos de cada conjunto de datos por dos razones: utilizar todos los eventos no es posible porque requiere una gran cantidad de memoria y 100,000 eventos son suficientes para observar las distribuciones de los datos. Los datos utilizados representan el 9% y el 10% de los eventos del conjunto R&D y BB1, respectivamente, y poseen la misma proporción de señal y fondo que cada uno de los conjuntos en su totalidad." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "tags": [ "remove-cell" ] }, "outputs": [], "source": [ "# Importamos las librerías principales\n", "import pandas as pd\n", "import numpy as np\n", "import matplotlib.pyplot as plt\n", "from myst_nb import glue\n", "from PIL import Image\n", "import os\n", "\n", "# Funciones de benchtools\n", "from benchtools.src.datatools import ascii_column\n", "from benchtools.src.plotools import bkg_sig_hist, create_png, image_grid\n", "\n", "# Definimos variables globales\n", "PATH_IMAGES = '../../figuras/'" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "(rawdata-estruc)=\n", "## Estructura\n", "El conjunto de datos R&D y BB1 publicados para las olimpiadas posee un evento por fila, con la información de $pT$, $\\eta$ y $\\phi$ para cada hadrón del evento, como se muestra en {numref}`rawdata-rawdataframe`. La diferencia estructural entre ambos archivos es que el conjunto R&D tiene la etiqueta del evento en la última columna (señal o fondo), mientras que para el conjunto BB1 la etiqueta se encuentra en un archivo aparte.\n", "\n", "```{table} Estructura del conjunto de datos R&D. Cada fila es un evento y la última columna hace referencia a si el evento es fondo (0) o señal (1).\n", ":name: rawdata-rawdataframe\n", "|Evento |$pT$ | $\\eta$ | $\\phi$ | $pT$ | $\\eta$ | $\\phi$ | $\\cdots$| señal |\n", "|---------|---------|---------|---------|---------|---------|---------|---------|-------|\n", "| 1 | $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| 1.0 |\n", "| 2 | $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| 0.0 |\n", "| $\\vdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| $\\cdots$| 0.0 |\n", "```\n", "El conjunto R&D posee 1,000,000 de eventos de fondo y 100,000 de señal (aproximadamente 9.09% de los eventos son señal). En este conjunto las partículas $Z'$, $X$ y $Y$ tienen masas de 3.5 TeV, 500 GeV y 100 GeV, respectivamente. En el conjunto BB1, las partículas $Z'$, $X$ y $Y$ tienen masas de 3,823 TeV, 732 GeV y 378 GeV, respectivamente, con un porcentaje menor de señal: de 1,000,000 de eventos, 834 son señal, es decir, el 0.08% es señal, como se discutió en la {numref}`datos`.\n", "\n", "La información de los primeros 5 eventos del conjunto R&D se puede observar en la {numref}`df-raw`." ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "tags": [ "remove-cell" ] }, "outputs": [ { "data": { "application/papermill.record/text/html": "
\n | 0 | \n1 | \n2 | \n3 | \n4 | \n5 | \n6 | \n7 | \n8 | \n9 | \n... | \n2091 | \n2092 | \n2093 | \n2094 | \n2095 | \n2096 | \n2097 | \n2098 | \n2099 | \n2100 | \n
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n0.324101 | \n-0.361158 | \n2.737669 | \n0.409859 | \n-2.429939 | \n0.729830 | \n0.867922 | \n-2.267777 | \n-1.161310 | \n0.383031 | \n... | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n
1 | \n0.646304 | \n-0.539460 | \n-1.386258 | \n0.471293 | \n-1.636572 | \n0.751657 | \n0.453769 | \n-1.099593 | \n-0.393405 | \n0.485929 | \n... | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n
2 | \n0.325172 | \n-0.833948 | \n2.404844 | \n1.295058 | \n-2.089618 | \n-1.873342 | \n0.451272 | \n-0.101877 | \n2.217348 | \n0.461293 | \n... | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n
3 | \n0.290918 | \n-2.200063 | \n1.630132 | \n0.565028 | \n-1.714345 | \n-2.617103 | \n0.951042 | \n-0.532720 | \n2.941473 | \n0.896248 | \n... | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n
4 | \n0.526330 | \n-2.349110 | \n-1.745532 | \n0.542491 | \n-2.080352 | \n-3.044045 | \n0.390727 | \n-1.278563 | \n-2.131058 | \n2.530358 | \n... | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n0.0 | \n1.0 | \n
5 rows × 2101 columns
\n