Training strategies for efficient deep image retrieval
Gajić, Bojana
Baldrich i Caselles, Ramon, dir.
Gatta, Carlo, dir.

Fecha: 2021
Resumen: En aquesta tesi ens centrem en la recuperació i re-identificació d'imatges. L'entrenament de xarxes neuronals profundes usant funcions de pèrdua basades en rànquing ha esdevingut un estàndard de facto per a les tasques de recuperació i re-identificació. Hi analitzem i aportem propostes de respostes a tres qüestions principals: 1) Quines són les estratègies més rellevants dels mètodes de l'estat de l'art i com es poden combinar per obtenir un millor rendiment? 2) Es pot realitzar un mostreig de mostres negatives restrictiu de manera eficient (O(1)) mentre es proporciona un rendiment millorat respecte al mostreig aleatori simple? 3) Es poden aconseguir objectius de reconeixement i recuperació mitjançant una funció de pèrdua basada en el reconeixement? En primer lloc, en el capítol 4 analitzem la importància d'algunes estratègies de l'estat de l'art relacionades amb la formació d'un model d'aprenentatge profund que abasta l'augment d'imatges, l'arquitectura vertebral i la mineria de tripletes restrictives. A continuació, combinem les millors estratègies per dissenyar una arquitectura profunda senzilla, a més d'una metodologia d'entrenament per a una identificació de persones efectiva i d'alta qualitat. Avaluem àmpliament cada opció de disseny, donant lloc a una llista de bones pràctiques per a la re-identificació de persones. Seguint aquestes pràctiques, el nostre enfocament supera l'estat de l'art, inclosos mètodes més complexos amb components auxiliars, de forma amplia en quatre conjunts de dades de referència. També proporcionem una anàlisi qualitativa de la nostra representació entrenada que indica que, tot i ser compacta, és capaç de captar informació de regions focalitzades i discriminatives, d'una manera semblant a un mecanisme d'atenció implícita. En segon lloc, al capítol 5 abordem el problema del mostreig de mostres negatives restrictiu quan s'entrena un model amb funcions del tipus pèrdua per tripletes. En aquest capítol presentem"Bag of Negatives (BoN)", un mètode de mineria de mostres negatives ràpid i restrictiu, que proporciona un conjunt, tripleta o parella de mostres d'entrenament potencialment rellevants. BoN és un mètode eficient que selecciona una bossa demostres negatives restringides basat en una nova estratègia d'indexació dispersa (hashing) en línia. Mostrem la superioritat de BoN en front dels mètodes de mineria demostres negatives de l'estat de l'art en termes de precisió i temps d'entrenament en tres grans conjunts de dades. Finalment, al capítol 6 fem la hipòtesi que entrenar un model d'aprenentatge de mètriques maximitzant l'àrea sota la corba ROC (que és una mesura de rendiment típica dels sistemes de reconeixement automàtic) pot induir una classificació implícita adequada per a problemes de recuperació. Aquesta hipòtesi es recolza en el fet que "una corba és rellevant en l'espai ROC si i només si és rellevant a l'espai Precisió/Exhaustivitat (PrecisionRecall)" [17]. Per a provar aquesta hipòtesi, dissenyem una relaxació derivable i aproximada de l'àrea sota la corba ROC. Malgrat la seva simplicitat, la funció de pèrdua basada en àrea sota la corba (AUC), combinada amb ResNet50 com a arquitectura vertebral, aconsegueix els resultats de l'estat de l'art en dos conjunts de dades per a recuperació de mostres a gran escala disponibles públicament. A més, la funció de pèrdua basada en AUC aconsegueix un rendiment comparable a mètodes més complexos, específics de domini, que marquen l'estat de l'art en el problema de la re-identificació de vehicles.
Resumen: En esta tesis nos centramos en la recuperación y re-identificación de imágenes. El entrenamiento de redes neuronales profundas usando funciones de pérdida basadas en ranking se ha convertido en un estándar de facto para las tareas de recuperación y re-identificación. Analizamos y aportamos propuestas de respuestas a tres cuestiones principales: 1) ¿Cuáles son las estrategias más relevantes de los métodos del estado del arte y cómo se pueden combinar para obtener un mejor rendimiento? 2) ¿Se puede realizar unmuestreo de muestras negativas restrictivo de manera eficiente (O(1)) mientras se proporciona un rendimiento mejorado respecto almuestreo aleatorio simple? 3) ¿Se pueden conseguir objetivos de reconocimiento y recuperación mediante una función de pérdida basada en el reconocimiento? En primer lugar, en el capítulo 4 analizamos la importancia de algunas estrategias del estado del arte relacionadas con la formación de un modelo de aprendizaje profundo que abarca el aumento de imágenes, la arquitectura vertebral y la minería de tripletas restrictivas. A continuación, combinamos las mejores estrategias para diseñar una arquitectura profunda sencilla, además de una metodología de entrenamiento para una identificación de personas efectiva y de alta calidad. Evaluamos ampliamente cada opción de diseño, dando lugar a una lista de buenas prácticas para la re-identificación de personas. Siguiendo estas prácticas, nuestro enfoque supera el estado del arte, incluidos métodos más complejos con componentes auxiliares, de forma amplia en cuatro conjuntos de datos de referencia. También proporcionamos un análisis cualitativo de nuestra representación entrenada que indica que, a pesar de ser compacta, es capaz de captar información de regiones focalizadas y discriminativas, de una manera similar a un mecanismo de atención implícita. En segundo lugar, el capítulo 5 abordamos el problema del muestreo demuestras negativas restrictivo cuando se entrena un modelo con funciones del tipo pérdida por tripletas. En este capítulo presentamos "Bag of Negative (BoN)", un método de minería de muestras negativas rápido y restrictivo, que proporciona un conjunto, tripleta o pareja de muestras de entrenamiento potencialmente relevantes. BoN es un método eficiente que selecciona una bolsa de muestras negativas restringidas basado en una nueva estrategia de indexación dispersa (hashing) en línea. Mostramos la superioridad de BoN frente a losmétodos de minería demuestras negativas del estado del arte en términos de precisión y tiempo de entrenamiento en tres grandes conjuntos de datos. Finalmente, en el capítulo 6 hacemos la hipótesis de que entrenar un modelo de aprendizaje demétricas maximizando el área bajo la curva ROC (que es una medida de rendimiento típica de los sistemas de reconocimiento automático) puede inducir una clasificación implícita adecuada para tareas de recuperación. Esta hipótesis se apoya en el hecho de que üna curva es relevante en el espacio ROC si y sólo si es relevante en el espacio Precisión / Exhaustividad (PrecisionRecall)-[17]. Para probar esta hipótesis, diseñamos una relajación derivable y aproximada del área bajo la curva ROC. A pesar de su simplicidad, la función de pérdida basada en área bajo la curva (AUC), combinada con ResNet50 como arquitectura vertebral, consigue los resultados del estado del arte en dos conjuntos de datos para recuperación de muestras a gran escala disponibles públicamente. Además, la función de pérdida basada en AUC consigue un rendimiento comparable a métodosmás complejos, específicos de dominio, que marcan el estado del arte en el problema de la reidentificación de vehículos.
Resumen: In this thesis we focus on image retrieval and re-identification. Training a deep architecture using a ranking loss has become standard for the retrieval and re-identification tasks. We analyze and propose answers on three main issues: 1) What are the most relevant strategies of state-of-the-art methods and how can they be combined in order to obtain a better performance? 2) Can hard negative sampling be performed efficiently (O(1)) while providing improved performance over naïve random sampling? 3) Can recognition and retrieval objectives be achieved by using a recognition-based loss? First, in chapter 4 we analyze the importance of some state of the art strategies related to the training of a deep model such as image augmentation, backbone architecture and hard triplet mining. We then combine the best strategies to design a simple deep architecture plus a training methodology for effective and high quality person re-identification. We extensively evaluate each design choice, leading to a list of good practices for person re-identification. By following these practices, our approach outperforms the state of the art, including more complex methods with auxiliary components, by large margins on four benchmark datasets. We also provide a qualitative analysis of our trained representation which indicates that, while compact, it is able to capture information from localized and discriminative regions, in a manner akin to an implicit attention mechanism. Second, in chapter 5 we address the problem of hard negative sampling when training a model with triplet-like loss. In this chapter we present Bag of Negatives (BoN), a fast hard negative mining method, that provides a set, triplet or pair of potentially relevant training samples. BoN is an efficient method that selects a bag of hard negatives based on a novel online hashing strategy. We show the superiority of BoN against state-of-the-art hard negative mining methods in terms of accuracy and training time over three large datasets. Finally, in chapter 6 we hypothesize that training a metric learning model by maximizing the area under the ROC curve (which is a typical performance measure of recognition systems) can induce an implicit ranking suitable for retrieval problems. This hypothesis is supported by the fact that "a curve dominates in ROC space if and only if it dominates in PR space" [17]. To test this hypothesis, we design an approximated, derivable relaxation of the area under the ROC curve. Despite its simplicity, AUC loss, combined with ResNet50 as a backbone architecture, achieves state-of-the-art results on two large scale publicly available retrieval datasets. Additionally, the AUC loss achieves comparable performance to the more complex, domain specific, state-of-the-art methods for vehicle re-identification.
Nota: Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan aquestes es distribueixin sota la mateixa llicència que regula l'obra original i es reconegui l'autoria de l'obra original. Creative Commons
Lengua: Anglès
Colección: Programa de Doctorat en Informàtica
Documento: Tesi doctoral ; Text ; Versió publicada
Materia: Visió per computador ; Visión por computador ; Computer vision ; Aprenentatge computacional ; Aprendizaje computacional ; Machine learning ; Matemàtiques aplicades ; Matemáticas aplicadas ; Applied mathematics ; Aprenentatge de mètriques ; Aprendizaje de métricas ; Metric learning ; Recuperació d'instàncies ; Recuperación de instancias ; Instance retrieval ; Re-identificac ; Re-identificación ; Re-identification ; Tecnologies

Adreça alternativa: https://hdl.handle.net/10803/673961


132 p, 16.6 MB

El registro aparece en las colecciones:
Documentos de investigación > Tesis doctorales

 Registro creado el 2022-04-04, última modificación el 2022-12-19



   Favorit i Compartir