Exploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars

dc.contributor.advisorYovine, Sergio Fabián
dc.contributor.advisorMayr Ojeda, Franz
dc.contributor.tribunalBraberman, Victor
dc.contributor.tribunalVisca Zanoni, Ramiro Eugenio
dc.creatorMolinolo De Ferrari, Matías
dc.date.accessioned2025-02-24T15:44:01Z
dc.date.available2025-02-24T15:44:01Z
dc.date.issued2024
dc.descriptionIncluye bibliografía y anexos.
dc.description.abstractEl siguiente proyecto investiga los patrones de atención y activaciones neuronales en modelos con arquitecturas Transformer, específicamente en tareas de clasificación de secuencias de lenguajes Dyck-k, que son ejemplos de gramáticas libres de contexto. Se analiza si los Transformers pueden modelar y clasificar estos lenguajes, centrándose en su capacidad de aprender estructuras recursivas. Los resultados empíricos muestran que los patrones de atención coinciden con las dependencias estructurales de las secuencias. Se observó que las máscaras bidireccionales mejoran significativamente el rendimiento, mientras que las máscaras causales limitan la entrenabilidad. Además, el proyecto destaca la importancia de los mecanismos de atención para reconocer lenguajes jerárquicos. Se desarrolló la librería "transformer-checker", que facilita el entrenamiento, evaluación y visualización de Transformers en tareas de lenguajes formales, con un módulo de explicabilidad para analizar las matrices de atención. El código está disponible públicamente.
dc.format.extent54 p., tbls., grafs.
dc.format.mimetypePDF
dc.identifier.citationMolinolo De Ferrari, M. (2024) Exploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7131
dc.identifier.urihttps://hdl.handle.net/20.500.11968/7131
dc.languageeng
dc.publisherUniversidad ORT Uruguay
dc.relation.otherhttps://sisbibliotecas.ort.edu.uy/bib/96655
dc.rights.levelAcceso abierto
dc.subjectPROYECTOS-ID
dc.subjectDESARROLLO DE SOFTWARE
dc.subjectINTELIGENCIA ARTIFICIAL
dc.subjectREDES NEURONALES
dc.subjectMODELOS DE LENGUAJE GRANDE
dc.subjectLENGUAJES FORMALES
dc.titleExploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars
dc.typeTrabajo final de carrera
dc.type.versionVersión publicada
ort.thesis.careerFI - Ingeniería en Sistemas – ID
ort.thesis.degreegrantorFacultad de Ingeniería
ort.thesis.degreelevelCarrera universitaria
ort.thesis.degreenameIngeniero en Sistemas
ort.thesis.degreetypeProyecto
ort.thesis.noteProyecto (Carrera Universitaria). Universidad ORT Uruguay, Facultad de Ingeniería

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Material completo.pdf
Size:
3.32 MB
Format:
Adobe Portable Document Format
Teléfono central:
(598) 2902 1505
Campus Centro
Cuareim 1451, Montevideo, Uruguay
Campus Pocitos
Bvar. España 2633, Montevideo, Uruguay