Development and application of integrative tools for the functional and structural analyses of genomes
Paytuví Gallart, Andreu
Ruiz-Herrera Moreno, Aurora, dir.
Aiese Cigliano, Riccardo, dir.
Universitat Autònoma de Barcelona. Departament de Biologia Cel·lular, de Fisiologia i d'Immunologia

Imprint: [Barcelona] : Universitat Autònoma de Barcelona, 2019
Description: 1 recurs en línia (191 pàgines)
Abstract: Des del desenvolupament de la seqüenciació de Sanger l'any 1977, els avenços tecnològics han revolucionat el camp dels òmiques. Els projectes de seqüenciació a gran escala han generat una enorme quantitat de dades que han motivat el desenvolupament d'eines bioinformàtiques per a la integració, organització i interpretació d'aquestes dades. Com que la quantitat de dades de seqüenciació produïdes a tot el món es duplica cada 7 mesos, cal millorar la seva accessibilitat, processament i interpretació. En aquest sentit, l'objectiu principal d'aquest treball és desenvolupar eines bioinformàtiques per a l'anàlisi de les característiques funcionals i estructurals dels genomes. D'una banda, la capacitat d'emmagatzematge i l'accessibilitat de les dades de seqüenciació s'ha convertit en un repte, no només per a les dades brutes, sinó també per als resultats després del processament. Aquest és el cas de la transcriptòmica, una de les òmiques més finançades actualment. Per superar les limitacions actuals sobre les bases de dades existents per als lncRNA de plantes s'ha desenvolupat Green Non-Coding (GreeNC), una de les bases de dades en línia més àmplies del camp que ha inclòs 39 plantes superiors i 6 algues, emmagatzemant d'aquesta manera més de 200,000 lncRNAs. D'altra banda, la disponibilitat d'eines de fàcils d'usar per a permetre l'anàlisi i la gestió de dades de manera eficient a gran escala ajudaria a democratitzar la bioinformàtica. Diversos programes han aparegut recentment per permetre l'anàlisi de dades RNA-seq d'una manera accessible. No obstant això, cap d'ells proporciona una solució d'extrem a extrem. En aquest context, hem aprofitat la computació al núvol per a desenvolupar una plataforma fàcil d'usar anomenada Artificial Intelligence RNA-seq (AIR). AIR és la primera solució d'extrem a extrem per a l'anàlisi de dades RNA-seq que no es limita a espècies model i que no requereix habilitats bioinformàtiques prèvies. Un cop desenvolupat, AIR s'ha validat aprofitant mostres de RNA-seq derivades de cèl·lules germinals espermatogèniques de ratolí produïdes en el nostre grup de recerca. S'ha observat un augment de la prevalença de gens no codificants durant l'espermatogènesi i el silenciament del cromosoma X. També s'han identificat gens diferencialment expressats consistents amb el desenvolupament seqüencial de l'espermatogènesi. Precisament, se sap que el genoma experimenta grans canvis en la seva organització tri-dimensional (3D) del genoma durant l'espermatogènesi. Per caracteritzar aquesta reorganització en 3D s'ha fet servir AIR i altres eines addicionals per a l'anàlisi de dades Hi-C per generar un mapa d'interaccions de la cromatina i de les característiques genòmiques funcionals de la línia germinal masculina del ratolí. Els nostres resultats han revelat patrons no descrits prèviament: (i) l'organització d'escala subcromosòmica es perd durant la profase I; (ii) l'organització d'escala supranucleosòmica es fa difusa durant l'espermatogènesi, especialment en els espermatozous; (iii) esdeveniments específics com l'agrupació de telòmers (bouquet) i la inactivació del cromosoma X han estat observats; (iv) conformacions obertes específiques de cada tipus cel·lular s'han correlacionat amb l'expressió de gens amb funcions rellevants. En general, s'han desenvolupat noves solucions bioinformàtiques per a millorar l'accessibilitat, el processament i la interpretació de les dades òmiques que han permès l'anàlisi de les característiques funcionals i estructurals dels genomes.
Abstract: Since the development of the Sanger sequencing in 1977, technological advances have revolutionized the -omics field. Large-scale sequencing projects have resulted in the generation of an enormous amount of data that have motivated the development of bioinformatics tools for its integration, organization and interpretation. Due to the fact that the amount of sequencing data produced worldwide doubles every 7 months, there is the need to improve data accessibility, processing and interpretation. In this sense, the main aim of this work is to develop bioinformatics tools for the analysis of the functional and structural characteristics of genomes. On the one hand, storage capacity and accessibility of -omics data has become a challenge, not only for raw data but also for post-processing results. And this is the case for transcriptomics, one of the most funded -omics. In order to overcome current limitations on the existing databases for plant lncRNAs, we developed Green Non-Coding (GreeNC), one of the most comprehensive online databases in the field that included 39 plant species and 6 algae, representing more than 200,000 lncRNAs. On the other hand, the availability of user-friendly tools to ensure feasible large-scale data analysis and management would help to democratize bioinformatics. Several software have recently emerged to allow the analysis of RNA-seq data in an accessible way. However, none of them provides an end-to-end solution. In this context, we took advantage of cloud computing to develop a cloud-based easy-to-use platform called Artificial Intelligence RNA-seq (AIR). AIR is the first end-to-end solution for the analysis of RNA-seq data that is not limited to model species and does not require previous bioinformatics skills. Once developed, we validated AIR taking advantage of RNA-seq samples derived from mouse spermatogenic germ cells produced in our research group. We observed an increase in the prevalence of non-coding genes during spermatogenesis and detected silencing of the X chromosome. We also identified differentially expressed genes that were consistent with the sequential development of spermatogenesis. Precisely, it is known that the genome undergoes large three-dimensional (3D) conformational changes during spermatogenesis. To characterize such 3D re-organization, we made use of AIR and additional tools for Hi-C data analysis to generate an integrative atlas of the chromatin interactions and functional genomic characteristics of the mouse male germ line. Our results revealed previously undescribed patterns: (i) the sub-chromosomal organization scale is lost during prophase I, (ii) the sub-megabase organization scale becomes diffuse along spermatogenesis especially in sperm, (iii) specific events such as the telomere bouquet and the X chromosome inactivation were observed, and (iv) cell-specific open conformations correlated with the expression of genes with relevant functional roles. Overall, we have developed new bioinformatics solutions to enhance accessibility, processing and interpretation of -omics data that permitted the analysis of functional and structural features of genomes.
Note: Tesi. Doctorat. Universitat Autònoma de Barcelona. Departament de Biologia Cel·lular, de Fisiologia i d'Immunologia. 2019.
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Language: Anglès
Document: Tesi doctoral ; Versió publicada
Subject: Bioinformàtica ; Transcriptòmica ; Tesis i dissertacions acadèmiques ; Espermatogènesi
ISBN: 9788449086731

Adreça alternativa: https://hdl.handle.net/10803/667160


192 p, 7.0 MB

The record appears in these collections:
Research literature > UAB research groups literature > Research Centres and Groups (research output) > Health sciences and biosciences > Institut de Biotecnologia i de Biomedicina (IBB)
Research literature > Doctoral theses

 Record created 2019-10-14, last modified 2022-05-07



   Favorit i Compartir