Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento

dc.contributor.advisorFerres Caceres, Ignacio
dc.contributor.tribunalYovine, Sergio Fabián
dc.contributor.tribunalGraña Alfonso, Martín
dc.creatorPuglia Laca, Juan Diego
dc.date.accessioned2025-11-13T19:49:39Z
dc.date.available2025-11-13T19:49:39Z
dc.date.issued2025
dc.descriptionIncluye bibliografía y anexos.
dc.description.abstractLas proteínas están formadas por cadenas de aminoácidos cuyas secuencias determinan sus propiedades físicas y funcionales, entre ellas la localización subcelular. Aunque existen técnicas experimentales precisas para identificar la ubicación de una proteína dentro de una célula procariota, estas resultan costosas y demandan mucho tiempo. Por ello, desde fines de la década de 1980 se han desarrollado métodos computacionales capaces de predecir dicha localización a partir de la secuencia aminoacídica. La aplicación de la tecnología Transformers al análisis de proteínas ha permitido crear modelos capaces de detectar patrones complejos en las secuencias y generar representaciones vectoriales (embeddings) útiles para predecir propiedades emergentes. En este estudio se evaluó la capacidad de dichos modelos para inferir la localización subcelular de proteínas bacterianas. Para ello, se entrenaron dos clasificadores —(Random Forest y Support Vector Machine (SVM)— utilizando embeddings obtenidos de los modelos ESM C 300m, ESM C 600m y Prost T5. Los resultados demostraron que los modelos de lenguaje de proteínas pueden extraer información relevante sobre la localización subcelular directamente a partir de la secuencia aminoacídica. Los clasificadores alcanzaron altos niveles de desempeño, evidenciando la eficacia de este enfoque. Finalmente, se desarrolló una interfaz gráfica de usuario en Python que permite predecir la localización subcelular de proteínas bacterianas a partir de secuencias en formato FASTA.
dc.format.extent35 p., tbls., grafs.
dc.format.mimetypePDF
dc.identifier.citationPuglia Laca, J. D. (2025). Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7754
dc.identifier.urihttps://hdl.handle.net/20.500.11968/7754
dc.languagespa
dc.publisherUniversidad ORT Uruguay
dc.relation.otherhttps://sisbibliotecas.ort.edu.uy/bib/97532
dc.rights.levelAcceso abierto
dc.subjectPROYECTOS-BI
dc.subjectAPRENDIZAJE AUTOMÁTICO
dc.subjectBIOINFORMÁTICA
dc.subjectMODELOS DE LENGUAJE
dc.subjectPROTEÍNAS
dc.titleDesarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento
dc.typeTrabajo final de carrera
dc.type.versionVersión publicada
ort.thesis.careerFI - Licenciatura en Biotecnología - BI
ort.thesis.degreegrantorFacultad de Ingeniería
ort.thesis.degreelevelCarrera universitaria
ort.thesis.degreenameLicenciado en Biotecnología
ort.thesis.degreetypeCarpeta
ort.thesis.noteProyecto (Carrera Universitaria). Universidad ORT Uruguay, Facultad de Ingeniería

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Material completo.pdf
Size:
1.41 MB
Format:
Adobe Portable Document Format
Campus Centro
Cuareim 1451, Montevideo, Uruguay

Teléfono central: (598) 2902 1505
Campus Pocitos
Bvar. España 2633, Montevideo, Uruguay