Compact, adaptive and discriminative spatial pyramid for improved scene and object classification
Elfiky, Noha
Gonzàlez, Jordi, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Roca i Marvà, Francesc Xavier, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Imprint: [Barcelona] : Universitat Autònoma de Barcelona, 2012
Description: 1 recurs electrònic (152 p.)
Abstract: Laparici de bases de dades amb un gran nombre dimatges requereix del desen- volupament de representacions dimatge eficients i algorismes que siguin capaos de manipular dades a gran escala de manera eficient. Avui dia, la representaci dimatges basada en la tcnica de Bagsof- Words (Bow), s lenfocament ms ha reeixit en el context de les tasques de classificaci dobjectes i descenes. No obstant aix, el seu principal desavantatge s labsncia dinformaci espacial. En aquest context, ls de pirmides espacials (SP) sha aplicat amb xit per incorporar la informaci espacial: bsicament es tracta de subdividir la imatge recursivament subregions al duplicar el nombre de divisions en cada direcci de la imatge, per- metent lextracci dhistogrames i altres caracterstiques en aquestes subregions. A partir del notable rendiment que sobt amb les pirmides espacials, el seu s sha generalitzat en un creixent nombre daplicacions i problemes de visi, pel que en aquesta Tesi hem analitzat com millorar-ne el seu s. Dins el marc de les SP, hem estudiat la forma ptima per obtenir una representaci de la imatge que sigui capa de fer front als defectes ms destacats de les SP, en concret, la seva alta dimensionalitat i la seva rigidesa de la representaci de la imatge resultant . En resum, la preocupaci principal daquesta Tesi s la recerca dels lmits de les pirmides espacials al tractar de trobar solucions per als seus inconvenients. En general, aquesta Tesi explora el problema dobtenir representacions molt com- pactes i adaptades a la naturalesa de la imatge que siguin molt ms informatives en el context de la classificaci dobjectes i escenes. A la primera part daquesta Tesi, primer sanalitzen les implicacions de laplicaci directa de lestat de lart en les tcniques de compressi per obtenir BoWs compactes basada en una representaci de la imatge basada en pirmides espacials. Desprs introdum una nova tcnica de compressi de SP que funciona a dos nivells: (i) comprensi de les caracterstiques de la pirmide espacial, seguit per ii) compressi de les regions menys informa- tives de la SP amb el propsit dobtenir pirmides compactes i adaptatives . A continuaci, introdum un nou descriptor de textura que representa laparena local de la imatge. La textura es representa com un vector compacte adequat per al seu s en algorismes daprenentatge. Els resultats experimentals mostren que la informaci de la imatge permet superar els mtodes que utilitzen noms la forma o laparena dels pxels. La representaci resultant s una pirmide espacial que obt un gran rendiment al aplicar-lo en tasques de classificaci descenes. A la segona part daquesta tesi, es presenta una nova tcnica per a la construcci adaptativa de pirmides. En particular, sinvestiguen diversos enfocaments per a laprenentatge duna organitzaci espacial de la imatge que estigui especialment adaptada per a la tasca de classificaci. Amb aquesta finalitat, sanalitza ls de (i) geometries genriques descenes 3D, on la geometria duna escena sobt sobre la base estadstica duna base de dades dimatges, i de ls de (ii) particions espacials discriminatives generades utilitzant mesures utilitzades en Teoria de la Informaci. El mtode proposat sha provat en diversos conjunts de dades de classificaci dobjectes i els resultats demostrant clarament leficcia de la utilitzaci de les representacions espacials adaptadasa la geometria 3D present a la imatge. En la tercera part daquesta tesi, sinvestiga el problema dobtenir una representaci compacta de.
Abstract: La aparicin de bases de datos con un gran nmero de imgenes requiere del de- sarrollo de representaciones de imagen eficientes y algoritmos que sean capaces de manipular datos a gran escala de manera eficiente. Hoy en da, la repre- sentacin de imgenes basada en la tcnica de Bags-of-Words (BoW), es el enfoque ms exitoso en el contexto de las tareas de clasificacin de objetos y de escena. Sin embargo, su principal desventaja es la ausencia de informacin espacial. En este contexto, el uso de pirmides espaciales (SP) se ha aplicado con xito para incorporar la informacin espacial: bsicamente se trata de subdividir la imagen recursivamente subregiones al duplicar el nmero de divisiones en cada direccin del eje, permitiendo la extraccin de histogramas y otras caractersticas en estas subregiones. A partir del notable rendimiento que se obtiene con las pirmides espaciales, su uso se ha generalizado en un creciente nmero de aplicaciones y problemas de visin, por lo que en esta Tesis hemos analizado cmo mejorar su uso. Dentro del marco de las SP, hemos estudiado la forma ptima para obtener una representacin de la imagen que sea capaz de hacer frente a los defectos ms destacados de las SP, en concreto, su alta dimensionalidad y su rigidez de la rep- resentacin de la imagen resultante. En resumen, la preocupacin principal de esta Tesis es la bsqueda de los lmites de las pirmides y tratar de encontrar soluciones para sus inconvenientes. En general, esta Tesis explora el problema de obtener representaciones muy compactas, representaciones espaciales de adaptacin que sean ms informativas de la imagen en el contexto de la clasificacin de objetos y escenas. En la primera parte de esta Tesis, primero se analizan las implicaciones de la aplicacin directa del estado del arte en las tcnicas de compresin para la ob- tencin de BoWs compactos basada en representacin de la imagen en el contexto de pirmides espaciales. Luego introducimos una nueva tcnica de compresin de SP que funciona a dos niveles: (i) la compresin de las caractersticas de la pir- mide espacial, seguido por ii) la compresin de las regiones menos informativos SP con el propsito de obtener SPs ms compactas y adaptables. A continuacin, introducimos un descriptor nuevo de textura que representa la apariencia local de la imagen. La textura se representa como un vector compacto adecuado para su uso en algoritmos de aprendizaje. Los resultados experimentales muestran que la informacin de la imagen permite superar a los mtodos que utilizan slo la forma o la apariencia de los pxeles. La representacin resultante es una pirmide espacial que obtiene un gran rendimiento al aplicarlo en tareas de clasificacin de escenas. En la segunda parte de esta tesis, se presenta una nueva tcnica para la construccin adaptativa de pirmides. En particular, se investigan diver- sos enfoques para el aprendizaje de una organizacin espacial de la imgen que est especialmente adaptada para la tarea de clasificacin. Para este fin, se analiza el uso de (i) geometras genricas de escenas 3D, donde la geometra de una escena se obtiene sobre la base estadstica de una base de datos de imgenes; y del uso de (ii) particiones espaciales discriminativas generadas utilizando medidas uti- lizadas en Teora de la Informacin. El mtodo propuesto se ha probado en varios conjuntos de datos de clasificacin de objetos y los resultados demostran clara- mente la eficacia de la utilizacin de las representaciones espaciales adaptadasa 1 la geometra 3D presente en la imagen. En la tercera parte de esta tesis, se investiga el problema de obtener una representacin compacta de pirmides para las tareas de clasificacin de objetos y escenas. Se presenta un nuevo marco para la obtencin de una representacin espacial eficiente de la imagen para construir una pirmide de tamao reducido de hasta un orden de magnitud, pero sin sufrir ninguna reduccin significativa en la precisin. Por otra parte, se investiga tam- bin como combinar ptimamente caractersticas mltiples de la imagen tales como el color y la forma, dentro del contexto de nuestra representacin de pirmides compactas. Finalmente, se investiga la importancia de utilizar el conocimiento espacial del contexto incorporando tcnicas de constancia de color. Para este fin, se presenta un nuevo enfoque para estimar la fuente lumnica de cualquier imagen basada en la geometra espacial en 3D para as aprender el color ms apropiado que se utilizar para describir todas las regiones de la imagen. La fuente lumnica de la imagen se obtiene sobre la base de una combinacin ponderada del iluminante estimado en cada regin de la pirmide. Hemos demostrado que el rendimiento obtenido con nuestra tcnica es superior al estado del arte. Como resultado, hemos conseguido obtener un incremento significativo en el rendimiento de los clasificadores de escenas que mejoran la precisin de los algoritmos actuales.
Abstract: Abstract The release of challenging datasets with a vast number of images, re- quires the development of efficient image representations and algorithms which are able to manipulate these largescale datasets efficiently. Nowadays the Bag- of-Words (BoW) based image representation is the most successful approach in the context of object and scene classification tasks. However, its main drawback is the absence of the important spatial information. Spatial pyramids (SP) have been successfully applied to incorporate spatial information into BoW-based im- age representation. The main SP approach, works by repeatedly sub-dividing the image into increasingly finer sub-regions by doubling the number of di- visions on each axis direction, and further computing histograms of features over the resulting sub-regions. Observing the remarkable performance of spa- tial pyramids, their growing number of applications to a broad range of vision problems, and finally its geometry inclusion, a question can be asked what are the limits of spatial pyramids. Within the SP framework, the optimal way for obtaining an image spatial representation which is able to cope with its most foremost shortcomings, concretely, its high dimensionality and the rigidity of the resulting image representation still remains an active research domain. In summary, the main concern of this thesis is to search for the limits of spatial pyramids and try to figure out solutions for them. This thesis explores the problem of obtaining compact, adaptive, yet informative spatial image repre- sentations in the context of object and scene classification tasks. In the first part of this thesis, we first analyze the implications of directly applying the state-of-the-art compression techniques for obtaining compact BoW-based im- age representation within the context of spatial pyramids. We then introduce a novel SP compression technique that works on two levels; (i) compressing the least informative spatial pyramid features, followed by, (ii) compressing the least informative SP regions for the purpose of obtaining compact, and adaptable SP. We then introduce a new texture descriptor that represents local image texture and its spatial layout. Texture is represented as a compact vector descriptor suitable for use in standard learning algorithms with kernels. Experimental re- sults show that texture information has similar classification performances and sometimes outperforms those methods using only shape or appearance informa- tion. The resulting spatial pyramid representation demonstrates significantly improved performance on challenging scene classification tasks. In the second part of this thesis, we present a novel technique for building adaptive spatial pyramids. In particular, we investigate various approaches for learning adap- tive spatial pyramids, which are specially tailored for the task at hand. To this end, we analyze the use of (i) standard generic 3D scene geometries; the geometry of a scene is measured based on image statistics taken from a sin- gle image. (ii) discriminative spatial partitionings, which are generated based on an information-theoretic approach. The proposed method is tested on sev- eral challenging benchmark object classification datasets. The results clearly demonstrated the effectiveness of using adaptive spatial representations, which are steered by the 3D scene geometry present in images. In the third part of 1 this thesis, we investigate the problem of obtaining compact spatial pyramid im- age representations for object and scene classification tasks. We present a novel framework for obtaining compact spatial pyramid image representation up to an order of magnitude without any significant reduction in accuracy. Moreover, we also investigate the optimal combination of multiple features such as color and shape within the context of our novel compact pyramid representation. Finally, we investigate the importance of using the spatial knowledge within the context of color constancy as an application. To this end, we present a novel framework for estimating the image illuminant based on spatial 3D geometry for learning the most appropriate color constancy algorithm to use for every image region. The final image illuminant is obtained based on a weighted combination of each individual illuminant-estimate obtained per region. We test and compare our performance to that of previous state-of-art methods. We will show that the set of innovations introduced here lead to a significant increase on performance on challenging color constancy datasets.
Note: Tesi doctoral - Universitat Autònoma de Barcelona, Departament de Ciències de la Computació, 2012
Rights: ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
Language: Anglès
Document: Tesi doctoral
Subject: Imatges ; Processament ; Reconeixement de formes (Informàtica) ; Visió per ordinador

Adreça alternativa: https://hdl.handle.net/10803/96235


152 p, 1.5 MB

The record appears in these collections:
Research literature > Doctoral theses

 Record created 2013-04-11, last modified 2023-01-17



   Favorit i Compartir