Búsqueda de nueva física utilizando técnicas de aprendizaje automático en eventos de múltiples jets: análisis comparativo de algoritmos de clasificación en términos de reproducibilidad y rendimiento

Búsqueda de nueva física utilizando técnicas de aprendizaje automático en eventos de múltiples jets: análisis comparativo de algoritmos de clasificación en términos de reproducibilidad y rendimiento

Trabajo especial de grado realizado por Mariana Vivas para la Universidad Central de Venezuela como requisito parcial para optar por el título de licenciada en física.

Resumen

El modelo estándar de la física de partículas es la teoría que clasifica los componentes de la materia y explica sus interacciones, pero se sabe que no es una teoría completa. La búsqueda de física más allá del modelo estándar ha sido uno de los ejes principales de investigación, pero hasta ahora no ha sido exitosa. En los últimos años, se ha estudiado el uso de aprendizaje automático para la búsqueda de nueva física. Estas herramientas fueron estudiadas en las olimpiadas LHC 2020 y en este trabajo se compararon dos algoritmos participantes: UCluster y GAN-AE. Estos algoritmos se compararon con algoritmos de implementación sencilla, supervisados y no supervisados: bosque aleatorio, análisis de discriminante cuadrático, potenciación del gradiente, redes neuronales y K-means. El enfoque de la búsqueda se fijó en la topología dijet. Se desarrolló benchtools, un paquete de software basado en Python que contiene un pipeline que compara modelos de clasificación binaria. De las métricas utilizadas para comparar los modelos, se concluyó que el puntaje f1 y la curva de precisión-recuperación (PR) son las métricas más adecuadas para evaluar el rendimiento de los algoritmos en esta tarea de clasificación. Del análisis, se halló que la clasificación del conjunto de datos utilizado para entrenar los modelos es mejor para los modelos supervisados. El modelo con mejor rendimiento para este conjunto de datos es el clasificador de potenciación del gradiente. Al clasificar otro conjunto de datos con la misma señal, pero masas distintas, el modelo con mejor rendimiento de acuerdo a la curva PR, fue GAN-AE, y de acuerdo al puntaje f1, el bosque aleatorio. En ambos conjuntos, UCluster y KMeans tuvieron el menor rendimiento. Se concluyó que un modelo no supervisado, optimizado para detección de anomalías, puede tener mejor rendimiento al buscar señales de nueva física que los modelos supervisados. A nivel general, se evidenció la necesidad de estudiar nuevas métricas para comparar modelos de aprendizaje que buscan nueva física y la importancia de tomar consideraciones acerca de la reproducibilidad a la hora de estudiar estas herramientas. Este trabajo tuvo enfoque en la reproducibilidad científica, y se siguieron los lineamientos planteados en The Turing Way.

Palabras clave: modelo estándar, nueva física, jets, dijets, LHC, aprendizaje automático, redes neuronales, algoritmo de clasificación, detección de anomalías, métricas, análisis comparativo, reproducibilidad.

Tutores

Nombre

Role

email

Github

Reina Camacho Toro

Investigadora en LPNHE/CNRS

reina.camacho@cern.ch

@camachoreina

Camila Rangel Smith

Investigadora científica de datos en El Instituto Alan Turing

crangelsmith@turing.ac.uk

@crangelsmith

José Antonio Lopez

Universidad Central de Venezuela

jal.ccs@gmail.com

-