Exploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars
| dc.contributor.advisor | Yovine, Sergio Fabián | |
| dc.contributor.advisor | Mayr Ojeda, Franz | |
| dc.contributor.tribunal | Braberman, Victor | |
| dc.contributor.tribunal | Visca Zanoni, Ramiro Eugenio | |
| dc.creator | Molinolo De Ferrari, Matías | |
| dc.date.accessioned | 2025-02-24T15:44:01Z | |
| dc.date.available | 2025-02-24T15:44:01Z | |
| dc.date.issued | 2024 | |
| dc.description | Incluye bibliografía y anexos. | |
| dc.description.abstract | El siguiente proyecto investiga los patrones de atención y activaciones neuronales en modelos con arquitecturas Transformer, específicamente en tareas de clasificación de secuencias de lenguajes Dyck-k, que son ejemplos de gramáticas libres de contexto. Se analiza si los Transformers pueden modelar y clasificar estos lenguajes, centrándose en su capacidad de aprender estructuras recursivas. Los resultados empíricos muestran que los patrones de atención coinciden con las dependencias estructurales de las secuencias. Se observó que las máscaras bidireccionales mejoran significativamente el rendimiento, mientras que las máscaras causales limitan la entrenabilidad. Además, el proyecto destaca la importancia de los mecanismos de atención para reconocer lenguajes jerárquicos. Se desarrolló la librería "transformer-checker", que facilita el entrenamiento, evaluación y visualización de Transformers en tareas de lenguajes formales, con un módulo de explicabilidad para analizar las matrices de atención. El código está disponible públicamente. | |
| dc.format.extent | 54 p., tbls., grafs. | |
| dc.format.mimetype | ||
| dc.identifier.citation | Molinolo De Ferrari, M. (2024) Exploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7131 | |
| dc.identifier.uri | https://hdl.handle.net/20.500.11968/7131 | |
| dc.language | eng | |
| dc.publisher | Universidad ORT Uruguay | |
| dc.relation.other | https://sisbibliotecas.ort.edu.uy/bib/96655 | |
| dc.rights.level | Acceso abierto | |
| dc.subject | PROYECTOS-ID | |
| dc.subject | DESARROLLO DE SOFTWARE | |
| dc.subject | INTELIGENCIA ARTIFICIAL | |
| dc.subject | REDES NEURONALES | |
| dc.subject | MODELOS DE LENGUAJE GRANDE | |
| dc.subject | LENGUAJES FORMALES | |
| dc.title | Exploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars | |
| dc.type | Trabajo final de carrera | |
| dc.type.version | Versión publicada | |
| ort.thesis.career | FI - Ingeniería en Sistemas – ID | |
| ort.thesis.degreegrantor | Facultad de Ingeniería | |
| ort.thesis.degreelevel | Carrera universitaria | |
| ort.thesis.degreename | Ingeniero en Sistemas | |
| ort.thesis.degreetype | Proyecto | |
| ort.thesis.note | Proyecto (Carrera Universitaria). Universidad ORT Uruguay, Facultad de Ingeniería |
Files
Original bundle
1 - 1 of 1