Reconeixement Visual

Cita bibliogràfica -- Enllaç permanent: https://ddd.uab.cat/record/265317

Reconeixement Visual [43088]
Vanrell i Martorell, Maria Isabel
Serrat, Joan
Valveny Llobet, Ernest
Karatzas, Dimosthenis
Pérez Tito, Rubèn
Mafla Delgado, Andres Patricio
Gomez Bigorda, Lluis
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant:	Visual Recognition
Títol variant:	Reconocimiento Visual
Data:	2022-23
Resum:	Coordinador del mòdul: Dr. Joan Serrat Gual En visió per computador, el reconeixement visual correspon a la tasca d'explicar el contingut d'una imatge en termes de "Què és?" "On és això?". La resposta a aquestes preguntes és habitualment una etiqueta de classe corresponent als tipus d'objectes o objectes de la imatge, una caixa de delimitació estreta que conté l'objecte en qüestió o, a un nivell més fi, la regió (píxels) que és el seu esquema. Aquestes tasques s'anomenen, respectivament, classificació d'imatges, detecció d'objectes i segmentació semàntica. La pregunta és "doneu-me objectes com aquest", que requereix aprendre una mètrica similar entre imatges, fins i tot en el cas que provenen de diferents modalitats, com esbossos i fotografies, a través de les anomenades arquitectures de codificador-descodificador. El mòdul VR cobreix arquitectures de xarxes neuronals que aborden aquests quatre tipus de tasques. I, com a complement pràctic, mètodes per implementar-los. 1 quatre tipus de tasques. I, com a complement pràctic, mètodes per implementar-los. En concret, en aquest mòdul oferim a l'alumne una visió general dels mètodes més recents basats en tècniques d'aprenentatge profund per resoldre problemes de reconeixement visual. L'objectiu final és comprendre escenes complexes per construir sistemes factibles per a la comprensió automàtica d'imatges capaços de respondre a la pregunta complexa de quins objectes i on es troben aquests objectes en una escena complexa. Després d'haver abordat la tasca de classificació al mòdul M2, els estudiants aprendran una gran família d'arquitectures d'èxit de xarxes profundes convolucionals que s'han demostrat per resoldre les tasques visuals dedetecció i segmentació i reconeixement. A més d'aquestes dues tasques visuals, aquest mòdul també aborda temes avançats d'aprenentatge profund com ara arquitectures per a la generació d'imatges (GANs i VAEs) i arquitectures de codificadors i decodificadors per a aplicacions multimodals.
Resum:	Module Coordinator: Dr. Joan Serrat Gual In Computer Vision, visual recognition corresponds to the task of explaining the content of an image in terms of "What is it?" "where is this?". The answer to these questions is usally a class label corresponding to the object or object types in the image, a tight bounding box containing the object in question, or, at a finer level, the region (pixels) that is its outline. These tasks are called, respectively, image classification, object detection and semantic segmentation. A question is "give me objects like this one", that requires learning a similary metric between images, even in the case come from different modalities, like sketches and photographs, through the so called encoder-decoder architectures. VR module covers neural network architectures addressing these four types of tasks. And, as a practical complement, methods to implement them. 1 Specifically, in this module we give to the student an overview of the latest methods based on deep learning techniques to solve visual recognition problems. The final aim is the understanding of complex scenes to build feasible systems for automatic image understanding able to answer the complex question of what objects and where are these objects in a complex scene. Having addressed the task of classification in module M2, the students will learn a large family of successful architectures of deep convolutional networks that have been proved to solve the visual tasks of detection and segmentation and recognition. In addition to these two visual tasks, this module addresses also advanced topics in deep learning such as architectures for image generation (GANs and VAEs) plus encoder-decoder architectures for multimodal applications.
Resum:	Coordinador del Módulo: Dr. Joan Serrat Gual En visión por computador, el reconocimiento visual corresponde a la tarea de explicar el contenido de una imagen en términos de "¿Qué es?" "¿Dónde está esto?". La respuesta a estas preguntas suele ser una etiqueta de clase correspondiente al objeto o tipos de objeto en la imagen, un cuadro delimitador que contiene el objeto en cuestión o, en un nivel más fino, la región (píxeles) que es su contorno. Estas tareas se denominan, respectivamente, clasificación de imágenes, detección de objetos y segmentación semántica. Una pregunta es "dame objetos como este", que requiere aprender una métrica similar entre imágenes, incluso en el caso de que provengan de diferentes modalidades, como bocetos y fotografías, a través de las llamadas arquitecturas codificador-decodificador. El módulo VR cubre arquitecturas de redes neuronales que abordan estos cuatro tipos de tareas. Y, como complemento práctico, métodos para implementarlos. 1 estos cuatro tipos de tareas. Y, como complemento práctico, métodos para implementarlos. Específicamente, en este módulo brindamos al estudiante una visión general de los últimos métodos basados en técnicas de aprendizaje profundo para resolver problemas de reconocimiento visual. El objetivo final es la comprensión de escenas complejas para construir sistemas viables para la comprensión automática de imágenes capaces de responder a la compleja pregunta de qué objetos y dónde están estos objetos en una escena compleja. Habiendo abordado la tarea de clasificación en el módulo M2, los estudiantes aprenderán una gran familia de arquitecturas exitosas de redes convolucionales profundas que han demostrado resolver las tareas visuales de detección, segmentación y reconocimiento. Además de estas dos tareas visuales, este módulo también aborda temas avanzados de aprendizaje profundo, tales como arquitecturas para la generación de imágenes (GAN y VAE) más arquitecturas de codificador-decodificador para aplicaciones multimodales.
Drets:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.
Llengua:	Català, anglès, castellà
Titulació:	Visió per Computador / Computer Vision [4314099]
Pla d'estudis:	Màster Universitari en Visió per Computador/Computer Vision [1172]
Document:	Objecte d'aprenentatge