Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento
Loading...
Date
Authors
Publisher
Universidad ORT Uruguay
DOI
ISSN
ISBN
Abstract
Las proteínas están formadas por cadenas de aminoácidos cuyas secuencias determinan sus propiedades físicas y funcionales, entre ellas la localización subcelular. Aunque existen técnicas experimentales precisas para identificar la ubicación de una proteína dentro de una célula procariota, estas resultan costosas y demandan mucho tiempo. Por ello, desde fines de la década de 1980 se han desarrollado métodos computacionales capaces de predecir dicha localización a partir de la secuencia aminoacídica. La aplicación de la tecnología Transformers al análisis de proteínas ha permitido crear modelos capaces de detectar patrones complejos en las secuencias y generar representaciones vectoriales (embeddings) útiles para predecir propiedades emergentes. En este estudio se evaluó la capacidad de dichos modelos para inferir la localización subcelular de proteínas bacterianas. Para ello, se entrenaron dos clasificadores —(Random Forest y Support Vector Machine (SVM)— utilizando embeddings obtenidos de los modelos ESM C 300m, ESM C 600m y Prost T5. Los resultados demostraron que los modelos de lenguaje de proteínas pueden extraer información relevante sobre la localización subcelular directamente a partir de la secuencia aminoacídica. Los clasificadores alcanzaron altos niveles de desempeño, evidenciando la eficacia de este enfoque. Finalmente, se desarrolló una interfaz gráfica de usuario en Python que permite predecir la localización subcelular de proteínas bacterianas a partir de secuencias en formato FASTA.
En
Thesis note
Proyecto (Carrera Universitaria). Universidad ORT Uruguay, Facultad de Ingeniería
Thesis degree name
Licenciado en Biotecnología
35 p., tbls., grafs.
Notes
Incluye bibliografía y anexos.
Subject
PROYECTOS-BI, APRENDIZAJE AUTOMÁTICO, BIOINFORMÁTICA, MODELOS DE LENGUAJE, PROTEÍNAS
Type
Trabajo final de carrera
Access the full text
Citation
Puglia Laca, J. D. (2025). Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7754