Benchmarking of a pipeline that characterizes structural variants in complex regions using long-read data
De Miguel Rubio, Alejandra
Puig Font, Marta dir. (Universitat Autònoma de Barcelona. Departament de Genètica i de Microbiologia)

Fecha: 2025
Resumen: Complex regions are parts of the genome that are enriched in repeated DNA and that accumulate different structural variants (SVs). Characterizing and genotyping complex regions has historically represented a challenge because of methodological limitations. Long-read sequencing technologies, together with other methods like optical maps, Hi-C or Strand-seq have represented improvements in this field, but the analysis of such variable regions still requires the use of several techniques and assembling DNA sequences which is a complex process. In this work we test a pipeline designed to characterize structural haplotypes using data from a single technology, Oxford Nanopore (ONT) long reads, without an assembly step. From long read data from a single individual, the pipeline generates groups of reads based on the order, relative distance and orientation of unique k-mers, which allows us to define different structural haplotypes. To benchmark this pipeline we analyzed the structural variation in a complex region (HsInv0401) located in chromosome X that contains a polymorphic inversion flanked by two copy-number variants (CNVs) in a sample of 213 individuals. We were able to determine 299 haplotypes out of 344 total haplotypes, showing high efficiency (86. 91%), especially in males where the efficiency was 95%. The results were checked by manually analyzing representative reads in a subset of samples or by comparing them with previous results of specific SVs, and they showed high accuracy. In total, we found 18 different haplotypes with frequencies ranging from 34% to 0. 3% and formed by the combination of the two inversion alleles and the 2 CNVs, which show a number of copies between 1 and 5 each, and a total number of copies per chromosome between 2 and 6. Although there is still room for improvement and it is necessary to test the pipeline analyzing more complex regions, this version of the pipeline is a promising step towards an easier genotyping of complex regions and a future version of the pipeline could be key in studying this type of regions.
Resumen: Les regions complexes són parts del genoma amb una gran quantitat d'ADN repetit i que acumulen diferents variants estructurals (SVs). Caracteritzar i genotipar regions complexes ha representat històricament un gran repte a causa de les limitacions metodològiques. Les tecnologies de seqüenciació de lectura llarga, juntament amb altres mètodes com mapes òptics, Hi-C o Strand-seq, han suposat millores en aquest camp, però l'anàlisi d'aquestes regions variables encara requereix l'ús de diverses tècniques i l'assemblatge de seqüències d'ADN, que és un procés complex. En aquest treball provem una eina bioinformàtica d'anàlisi dissenyada per a caracteritzar haplotips estructurals utilitzant dades d'una única tècnica, les lectures llargues d'Oxford Nanopore (ONT), sense un pas d'assemblatge. A partir de dades de lectures llargues d'un sol individu, l'eina d'anàlisi genera grups de lectures en base a l'ordre, la distància relativa i l'orientació de k-mers únics, fet que ens permet definir diferents haplotips estructurals. Per avaluar aquesta eina d'anàlisi, vam analitzar la variació estructural en una regió complexa (HsInv0401) situada al cromosoma X que conté una inversió polimòrfica flanquejada per dues variants en nombre de còpies (CNVs) en una mostra de 213 individus. Vam poder determinar 299 haplotips d'un total de 344, mostrant una alta eficiència (86,91%), especialment en homes on l'eficiència era del 95%. Els resultats es van comprovar analitzant manualment lectures de DNA representatives en un subconjunt de mostres o comparant-les amb resultats previs de SVs específiques, i van mostrar una alta precisió. En total, vam trobar 18 haplotips diferents amb freqüències que oscil·laven entre el 34% i el 0,3%, i formats per la combinació dels dos al·lels de la inversió i els 2 CNVs, que mostren un nombre de còpies entre 1 i 5 cadascun, amb un nombre total de còpies per cromosoma de 2 a 6. Tot i que encara hi ha marge de millora i és necessari provar aquesta eina analitzant més regions complexes, aquesta versió representa un pas prometedor cap a un genotipat més fàcil de regions complexes i una futura versió podria ser clau per a estudiar aquest tipus de regions.
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, sempre i quan aquestes es distribueixin sota la mateixa llicència que regula l'obra original i es reconegui l'autoria. Creative Commons
Lengua: Anglès
Titulación: Bioinformàtica [20381]
Plan de estudios: Màster Universitari en Bioinformàtica / Bioinformatics [1112]
Documento: Treball de recerca
Materia: Structural variants ; Long reads ; Bioinformatic analysis tool ; Complex regions ; Variants estructurals ; Lectures llargues de DNA ; Eines bioinformàtiques d'anàlisi bioinformàtica ; Regions complexes



44 p, 1.7 MB

El registro aparece en las colecciones:
Documentos de investigación > Trabajos de investigación y proyectos de final de carrera

 Registro creado el 2026-02-25, última modificación el 2026-02-26



   Favorit i Compartir