Domain adaptation of virtual and real worlds for pedestrian detection

Vázquez Bermúdez, David

Bibliographic citation -- Permanent link: https://ddd.uab.cat/record/115341

Domain adaptation of virtual and real worlds for pedestrian detection
Vázquez Bermúdez, David

López Peña, Antonio M.,

dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Ponsa Mussarra, Daniel,

dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Imprint:	[Barcelona] : Universitat Autònoma de Barcelona, 2013
Description:	1 recurs electrònic (111 p.)
Abstract:	La detección de peatones es clave para muchas aplicaciones como asistencia al conductor, video vigilancia o multimedia. Los mejores detectores se basan en clasificadores basados en modelos de apariencia entrenados con ejemplos anotados. Sin embargo, el proceso de anotación es una tarea intensiva y subjetiva cuando es llevada a cabo por personas. Por ello, vale la pena minimizar la intervención humana en dicha tarea mediante el uso de herramientas computacionales como los mundos virtuales porque con ellos podemos obtener anotaciones variadas y precisas de forma rápida. Sin embargo, el uso de este tipo de datos genera la siguiente pregunta: ¿Es posible que un modelo de apariencia entrenado en un mundo virtual pueda funcionar de manera satisfactoria en el mundo real? Para responder esta pregunta, hemos realizado diferentes experimentos que sugieren que los clasificadores entrenados en el mundo virtual pueden ofrecer buenos resultados al aplicarse en ambientes del mundo real. Sin embargo, también se encontró que en algunos casos estos clasificadores se pueden ver afectados por el problema conocido como el cambio en la naturaleza de los datos, igual que ocurre con los clasificadores entrenados en el mundo real. En consecuencia, hemos diseñado un sistema de adaptación de dominio, V-AYLA, en el que hemos probado diferentes técnicas para recoger unos pocos ejemplos del mundo real y combinarlos con una gran cantidad de ejemplos del mundo virtual para entrenar un detector de peatones adaptado. V-AYLA ofrece la misma precisión de detección que un detector entrenado con anotaciones manuales y probado con imágenes reales del mismo dominio. Idealmente, nos gustaría que nuestro sistema se adaptase automáticamente sin necesidad de intervenci ón humana. Por ello, a modo de demostración, proponemos utilizar técnicas de adaptación no supervisadas que permitan eliminar completamente la intervención humana del proceso de adaptación. Hasta donde sabemos, este es el primer trabajo que muestra que es posible desarrollar un detector de objetos en el mundo virtual y adaptarlo al mundo real. Finalmente, proponemos una estrategia diferente para evitar el problema del cambio en la naturaleza de los datos que consiste en recoger ejemplos en el mundo real y reentrenar solamente con ellos pero haciéndolo de tal modo que no se tengan que anotar peatones en el mundo real. El resultado de este clasificador es equivalente a otro entrenado con anotaciones obtenidas de forma manual. Los resultados presentados en esta tesis no se limitan a adaptar un detector de peatones virtuales al mundo real, sino que va más allá, mostrando una nueva metodología que permitiría a un sistema adaptarse a cualquier nueva situación y que sienta las bases para la investigación futura en este campo todavía sin explorar.
Abstract:	Pedestrian detection is of paramount interest for many applications, e. g. Advanced Driver Assistance Systems, Surveillance and Media. Most promising pedestrian detectors rely on appearance-based classifiers trained with annotated samples. However, the required annotation step represents an intensive and subjective task when it has to be done by persons. Therefore, it is worth to minimize the human intervention in such a task by using computational tools like realistic virtual worlds, where precise and rich annotations of visual information can be automatically generated. Nevertheless, the use of this kind of data generates the following question: can a pedestrian appearance model learnt with virtual-world data work successfully for pedestrian detection in real- world scenarios?. To answer this question, we conducted different experiments that suggest that classifiers based on virtual-world data can perform well in real-world environments. However, it was also found that in some cases these classifiers can suffer the so called dataset shift problem as real-world based classifiers does. Accordingly, we have designed a domain adaptation framework, V-AYLA, in which we have explored different techniques to collect a few pedestrian samples from the target domain (real world) and combine them with many samples of the source domain (virtual world) in order to train a domain adapted pedestrian classifier. V-AYLA reports the same detection performance as the one obtained by training with human-provided pedestrian annotations and testing with real-world images from the same domain. Ideally, we would like to adapt our system without any human intervention. Therefore, as a first proof of concept we proposed the use of an unsupervised domain adaptation technique that avoids human intervention during the adaptation process. To the best of our knowledge, this is the first work that demonstrates adaptation of virtual and real worlds for developing an object detector. We also assess a different strategy to avoid the dataset shift that consists in collecting real-world samples and retrain with them, but in such a way that no bounding boxes of real-world pedestrians have to be provided. We show that the generated classifier is competitive with respect to the counterpart trained with samples collected by manually annotating pedestrian bounding boxes. The results presented on this Thesis not only end with a proposal for adapting a virtual-world pedestrian detector to the real world, but also it goes further by pointing out a new methodology that would allow the system to adapt to different situations, which we hope will provide the foundations for future research in this unexplored area.
Note:	Tesi doctoral - Universitat Autònoma de Barcelona. Departament de Ciències de la Computació, 2013
Rights:	Aquest material està protegit per drets d'autor i/o drets afins. Podeu utilitzar aquest material en funció del que permet la legislació de drets d'autor i drets afins d'aplicació al vostre cas. Per a d'altres usos heu d'obtenir permís del(s) titular(s) de drets.
Language:	Anglès
Document:	Tesi doctoral
Subject:	Vianants ; Reconeixement de formes (Informàtica)
ISBN:	9788449039805

Adreça alternativa: https://hdl.handle.net/10803/125977

111 p, 1.0 MB

The record appears in these collections:
Research literature > Doctoral theses

Record created 2014-02-03, last modified 2025-02-01

Similar records

Add to personal basket
Export as Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4