Exploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars
Loading...
Date
Authors
Publisher
Universidad ORT Uruguay
DOI
ISSN
ISBN
Abstract
El siguiente proyecto investiga los patrones de atención y activaciones neuronales en modelos con arquitecturas Transformer, específicamente en tareas de clasificación de secuencias de lenguajes Dyck-k, que son ejemplos de gramáticas libres de contexto. Se analiza si los Transformers pueden modelar y clasificar estos lenguajes, centrándose en su capacidad de aprender estructuras recursivas. Los resultados empíricos muestran que los patrones de atención coinciden con las dependencias estructurales de las secuencias. Se observó que las máscaras bidireccionales mejoran significativamente el rendimiento, mientras que las máscaras causales limitan la entrenabilidad. Además, el proyecto destaca la importancia de los mecanismos de atención para reconocer lenguajes jerárquicos. Se desarrolló la librería "transformer-checker", que facilita el entrenamiento, evaluación y visualización de Transformers en tareas de lenguajes formales, con un módulo de explicabilidad para analizar las matrices de atención. El código está disponible públicamente.
En
Thesis note
Proyecto (Carrera Universitaria). Universidad ORT Uruguay, Facultad de Ingeniería
Thesis degree name
Ingeniero en Sistemas
54 p., tbls., grafs.
Notes
Incluye bibliografía y anexos.
Subject
PROYECTOS-ID, DESARROLLO DE SOFTWARE, INTELIGENCIA ARTIFICIAL, REDES NEURONALES, MODELOS DE LENGUAJE GRANDE, LENGUAJES FORMALES
Type
Trabajo final de carrera
Access the full text
Citation
Molinolo De Ferrari, M. (2024) Exploring attention patterns and neural activations in transformer architectures for sequence classification in context free grammars (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7131