Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento
| dc.contributor.advisor | Ferres Caceres, Ignacio | |
| dc.contributor.tribunal | Yovine, Sergio Fabián | |
| dc.contributor.tribunal | Graña Alfonso, Martín | |
| dc.creator | Puglia Laca, Juan Diego | |
| dc.date.accessioned | 2025-11-13T19:49:39Z | |
| dc.date.available | 2025-11-13T19:49:39Z | |
| dc.date.issued | 2025 | |
| dc.description | Incluye bibliografía y anexos. | |
| dc.description.abstract | Las proteínas están formadas por cadenas de aminoácidos cuyas secuencias determinan sus propiedades físicas y funcionales, entre ellas la localización subcelular. Aunque existen técnicas experimentales precisas para identificar la ubicación de una proteína dentro de una célula procariota, estas resultan costosas y demandan mucho tiempo. Por ello, desde fines de la década de 1980 se han desarrollado métodos computacionales capaces de predecir dicha localización a partir de la secuencia aminoacídica. La aplicación de la tecnología Transformers al análisis de proteínas ha permitido crear modelos capaces de detectar patrones complejos en las secuencias y generar representaciones vectoriales (embeddings) útiles para predecir propiedades emergentes. En este estudio se evaluó la capacidad de dichos modelos para inferir la localización subcelular de proteínas bacterianas. Para ello, se entrenaron dos clasificadores —(Random Forest y Support Vector Machine (SVM)— utilizando embeddings obtenidos de los modelos ESM C 300m, ESM C 600m y Prost T5. Los resultados demostraron que los modelos de lenguaje de proteínas pueden extraer información relevante sobre la localización subcelular directamente a partir de la secuencia aminoacídica. Los clasificadores alcanzaron altos niveles de desempeño, evidenciando la eficacia de este enfoque. Finalmente, se desarrolló una interfaz gráfica de usuario en Python que permite predecir la localización subcelular de proteínas bacterianas a partir de secuencias en formato FASTA. | |
| dc.format.extent | 35 p., tbls., grafs. | |
| dc.format.mimetype | ||
| dc.identifier.citation | Puglia Laca, J. D. (2025). Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7754 | |
| dc.identifier.uri | https://hdl.handle.net/20.500.11968/7754 | |
| dc.language | spa | |
| dc.publisher | Universidad ORT Uruguay | |
| dc.relation.other | https://sisbibliotecas.ort.edu.uy/bib/97532 | |
| dc.rights.level | Acceso abierto | |
| dc.subject | PROYECTOS-BI | |
| dc.subject | APRENDIZAJE AUTOMÁTICO | |
| dc.subject | BIOINFORMÁTICA | |
| dc.subject | MODELOS DE LENGUAJE | |
| dc.subject | PROTEÍNAS | |
| dc.title | Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento | |
| dc.type | Trabajo final de carrera | |
| dc.type.version | Versión publicada | |
| ort.thesis.career | FI - Licenciatura en Biotecnología - BI | |
| ort.thesis.degreegrantor | Facultad de Ingeniería | |
| ort.thesis.degreelevel | Carrera universitaria | |
| ort.thesis.degreename | Licenciado en Biotecnología | |
| ort.thesis.degreetype | Carpeta | |
| ort.thesis.note | Proyecto (Carrera Universitaria). Universidad ORT Uruguay, Facultad de Ingeniería |
Files
Original bundle
1 - 1 of 1