tut. (Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions)
| Títol variant: |
AI-based functional annotation of viral genomes |
| Data: |
2025 |
| Resum: |
Aquest projecte posa a prova un mètode d'IA per a l'assignació funcional de genomes de bacteriòfags, intentant superar els problemes habituals derivats de l'extrema diversitat del DNA viral. Prenent idees d'estudis sobre l'ordre genètic conservat per sintènia i del Processament del Llenguatge Natural, es tracten els gens individuals com a "paraules" i el genoma sencer com una llarga "frase". Els gens s'etiqueten amb identificadors de grups ortòlegs PHROG perquè un model Skip-gram Word2Vec pugui llegir els genomes, capturant els veïnats locals mitjançant una finestra lliscant de tres gens i emmagatzemant les impressions en incrustacions de trenta-dues dimensions. Després, dues estratègies senzilles intenten predir la funció dels gens: una utilitza una xarxa neuronal amb transferència d'aprenentatge per predir etiquetes PHROG, i l'altra agrupa incrustacions similars mitjançant agrupació per llindar de distància cosinus de 0, 6. La precisió del classificador fins ara és modesta, gairebé proporcional a la mida del conjunt d'entrenament i limitant-se a la sintènia, però l'agrupació ha aconseguit reunir clarament famílies conegudes com les endonucleases HNH i les proteïnes de la càpside viral. |
| Resum: |
Este proyecto pone a prueba un método de inteligencia artificial para la asignación funcional de genomas de bacteriófagos, intentando superar los problemas habituales que surgen debido a la extrema diversidad del ADN viral. Tomando ideas de estudios sobre el orden génico conservado por sintenia y del Procesamiento del Lenguaje Natural, tratamos los genes individuales como "palabras" y el genoma completo como una larga "frase". Los genes se etiquetan con identificadores de grupos ortólogos PHROG para que un modelo Skip-gram Word2Vec pueda leer los genomas, capturando vecindades locales mediante una ventana deslizante de tres genes y almacenando las impresiones en incrustaciones de treinta y dos dimensiones. Luego, dos estrategias sencillas intentan predecir la función de los genes: una utiliza una red neuronal con aprendizaje por transferencia para predecir etiquetas PHROG, y la otra agrupa incrustaciones similares mediante clustering con un umbral de distancia coseno de 0, 6. La precisión del clasificador hasta ahora es modesta, casi proporcional al tamaño del conjunto de entrenamiento y basada únicamente en la sintenia, aunque el agrupamiento logró reunir claramente familias conocidas como las endonucleasas HNH y las proteínas de la cápside viral. |
| Resum: |
This project tests an AI method for functional assigment of bacteriophage genomes, trying to overcome the usual problems that arise from the extreme diversity of viral DNA. Borrowing ideas from studies of synteny-conserved gene order and from Natural Language Processing, we treat individual genes as "words" and the entire genome as one long "sentence". Genes are tagged with PHROG ortholog group IDs so that a Skip-gram Word2Vec model can read the genomes, capturing local neighborhoods in a sliding window of three genes and storing impressions in thirty-two-dimensional embeddings. Two simple follow-up strategies then guess gene function: one uses transfer-learning neural network to predict PHROG labels, the other groups similar embeddings by clustering at a threshold of 0. 6 cosine distance. Classifier accuracy so far is modest, nearly matching the size of the training set and pausing on synteny alone, yet the clustering cleanly pulled together known families like HNH endonucleases and virion shell proteins. |
| Drets: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.  |
| Llengua: |
Anglès |
| Titulació: |
Grau en Intel·ligència Artificial [2504392] |
| Pla d'estudis: |
Intel·ligència Artificial [1497] |
| Document: |
Treball final de grau ; Text |
| Matèria: |
Anotació del genoma viral ;
Bacteriòfag ;
Sintènia ;
Word2Vec ;
Incrustacions gèniques ;
Predicció funcional ;
PHROG ;
Agrupament ;
Xarxa neuronal ;
Bioinformàtica ;
Anotación del genoma viral ;
Bacteriófago ;
Sintenia ;
Incrustaciones génicas ;
Predicción funcional ;
Agrupamiento ;
Red neuronal ;
Bioinformática ;
Viral genome annotation ;
Bacteriophage ;
Synteny ;
Gene embeddings ;
Functional prediction ;
Clustering ;
Neural network ;
Bioinformatics |