Investigating the orthogonality of model compression by pruning and knowledge distillation
Garcia Caño, Roger
Barsky, Andrey, tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Additional title: Investigant l'ortogonalitat de la compressió de models mitjançant poda i destil·lació de coneixement
Additional title: Investigando la ortogonalidad de la compresión de modelos mediante poda y destilación de conocimiento
Date: 2025
Abstract: Aquest treball investiga la interacció entre dues tècniques de compressió de models àmpliament adoptades -la poda i la destil·lació de coneixement (KD, per les seves sigles en anglès)- per determinar si els seus efectes són ortogonals, se superposen o interfereixen entre si. Tot i que ambdues metodologies redueixen de manera independent la mida de xarxes neuronals sobreparametritzades mentre preserven el rendiment, la seva aplicació combinada no ha estat analitzada sistemàticament. La nostra hipòtesi és que la poda i la destil·lació de coneixement poden dirigir-se a subespais representacionals similars, cosa que podria limitar els seus beneficis additius. Per explorar-ho, duem a terme una sèrie d'experiments controlats aplicant diversos percentatges de poda i configuracions de destil·lació, avaluant el seu impacte individual i conjunt en la precisió del model, la robustesa i l'estructura representacional. Mitjançant l'anàlisi de similitud de representacions utilitzant tècniques com l'Alineació de Nucli Centrat (CKA), avaluem si els models podats i destil·lats convergeixen cap a espais de característiques anàlegs. Les nostres troballes pretenen aclarir si aquestes estratègies de compressió són complementàries o redundants, proporcionant orientació sobre com combinar-les de manera efectiva a la pràctica.
Abstract: Este trabajo investiga la interacción entre dos técnicas de compresión de modelos ampliamente adoptadas -la poda y la destilación de conocimiento (KD, por sus siglas en inglés)- para determinar si sus efectos son ortogonales, se superponen o interfieren entre sí. Aunque ambos métodos reducen de forma independiente el tamaño de redes neuronales sobreparametrizadas mientras preservan el rendimiento, su aplicación combinada no ha sido analizada sistemáticamente. Nuestra hipótesis es que la poda y la destilación de conocimiento pueden dirigirse a subespacios representacionales similares, lo que podría limitar sus beneficios aditivos. Para explorar esto, realizamos una serie de experimentos controlados aplicando varios ratios de poda y configuraciones de destilación, evaluando su impacto individual y conjunto en la precisión del modelo, la robustez y la estructura representacional. A través de un análisis de similitud de representaciones utilizando técnicas como la Alineación de Núcleo Centrado (CKA), evaluamos si los modelos podados y destilados convergen hacia espacios de características análogos. Nuestros hallazgos buscan aclarar si estas estrategias de compresión son complementarias o redundantes, proporcionando orientación sobre cómo combinarlas eficazmente en la práctica.
Abstract: This work investigates the interaction between two widely adopted model compression techniques-pruning and knowledge distillation (KD)-to determine whether their effects are orthogonal, overlapping, or interfering. While both methods independently reduce the size of overparameterized neural networks while preserving performance, their combined application has not been systematically analyzed.
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Language: Anglès
Studies: Grau en Intel·ligència Artificial [2504392]
Study plan: Intel·ligència Artificial [1497]
Document: Treball final de grau ; Text
Subject: Compressió de xarxes neuronals ; Poda ; Destil·lació de coneixement ; Ortogonalitat ; Similitud representacional ; Centered Kernel Alignment (CKA) ; Eficiència de models ; Aprenentatge profund ; Descobriment de subxarxes ; Coll d'ampolla d'informació ; Compresión de redes neuronales ; Destilación de conocimiento ; Ortogonalidad ; Eficiencia de modelos ; Aprendizaje profundo ; Descubrimiento de subredes ; Cuello de botella de información ; Neural network compression ; Pruning ; Knowledge distillation ; Orthogonality ; Representational similarity ; Model efficiency ; Deep learning ; Subnetwork discovery ; Information bottleneck



13 p, 1.5 MB

The record appears in these collections:
Research literature > Bachelor's degree final project > School of Engineering. TFG

 Record created 2025-07-21, last modified 2025-07-23



   Favorit i Compartir