Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento

Loading...
Thumbnail Image

Date

Publisher

Universidad ORT Uruguay

DOI

ISSN

ISBN

Abstract

Las proteínas están formadas por cadenas de aminoácidos cuyas secuencias determinan sus propiedades físicas y funcionales, entre ellas la localización subcelular. Aunque existen técnicas experimentales precisas para identificar la ubicación de una proteína dentro de una célula procariota, estas resultan costosas y demandan mucho tiempo. Por ello, desde fines de la década de 1980 se han desarrollado métodos computacionales capaces de predecir dicha localización a partir de la secuencia aminoacídica. La aplicación de la tecnología Transformers al análisis de proteínas ha permitido crear modelos capaces de detectar patrones complejos en las secuencias y generar representaciones vectoriales (embeddings) útiles para predecir propiedades emergentes. En este estudio se evaluó la capacidad de dichos modelos para inferir la localización subcelular de proteínas bacterianas. Para ello, se entrenaron dos clasificadores —(Random Forest y Support Vector Machine (SVM)— utilizando embeddings obtenidos de los modelos ESM C 300m, ESM C 600m y Prost T5. Los resultados demostraron que los modelos de lenguaje de proteínas pueden extraer información relevante sobre la localización subcelular directamente a partir de la secuencia aminoacídica. Los clasificadores alcanzaron altos niveles de desempeño, evidenciando la eficacia de este enfoque. Finalmente, se desarrolló una interfaz gráfica de usuario en Python que permite predecir la localización subcelular de proteínas bacterianas a partir de secuencias en formato FASTA.

En

Thesis note

Proyecto (Carrera Universitaria). Universidad ORT Uruguay, Facultad de Ingeniería

Thesis degree name

Licenciado en Biotecnología
35 p., tbls., grafs.

Notes

Incluye bibliografía y anexos.

Subject

PROYECTOS-BI, APRENDIZAJE AUTOMÁTICO, BIOINFORMÁTICA, MODELOS DE LENGUAJE, PROTEÍNAS

Type

Trabajo final de carrera

Access the full text

Citation

Puglia Laca, J. D. (2025). Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7754

Rights license

Campus Centro
Cuareim 1451, Montevideo, Uruguay

Teléfono central: (598) 2902 1505
Campus Pocitos
Bvar. España 2633, Montevideo, Uruguay