Ferres Caceres, Ignacio2025-11-132025-11-132025Puglia Laca, J. D. (2025). Desarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamiento (Proyecto). Universidad ORT Uruguay, Facultad de Ingeniería. Recuperado de https://rad.ort.edu.uy/handle/20.500.11968/7754https://hdl.handle.net/20.500.11968/7754Incluye bibliografía y anexos.Las proteínas están formadas por cadenas de aminoácidos cuyas secuencias determinan sus propiedades físicas y funcionales, entre ellas la localización subcelular. Aunque existen técnicas experimentales precisas para identificar la ubicación de una proteína dentro de una célula procariota, estas resultan costosas y demandan mucho tiempo. Por ello, desde fines de la década de 1980 se han desarrollado métodos computacionales capaces de predecir dicha localización a partir de la secuencia aminoacídica. La aplicación de la tecnología Transformers al análisis de proteínas ha permitido crear modelos capaces de detectar patrones complejos en las secuencias y generar representaciones vectoriales (embeddings) útiles para predecir propiedades emergentes. En este estudio se evaluó la capacidad de dichos modelos para inferir la localización subcelular de proteínas bacterianas. Para ello, se entrenaron dos clasificadores —(Random Forest y Support Vector Machine (SVM)— utilizando embeddings obtenidos de los modelos ESM C 300m, ESM C 600m y Prost T5. Los resultados demostraron que los modelos de lenguaje de proteínas pueden extraer información relevante sobre la localización subcelular directamente a partir de la secuencia aminoacídica. Los clasificadores alcanzaron altos niveles de desempeño, evidenciando la eficacia de este enfoque. Finalmente, se desarrolló una interfaz gráfica de usuario en Python que permite predecir la localización subcelular de proteínas bacterianas a partir de secuencias en formato FASTA.35 p., tbls., grafs.PDFAcceso abiertoPROYECTOS-BIAPRENDIZAJE AUTOMÁTICOBIOINFORMÁTICAMODELOS DE LENGUAJEPROTEÍNASDesarrollo de un clasificador de localización subcelular de proteínas utilizando representaciones vectoriales de secuencias proteicas derivadas de Modelos de Lenguaje como datos de entrenamientoTrabajo final de carrera