Reconeixement Visual

Cita bibliográfica -- Enlace permanente: https://ddd.uab.cat/record/298665

Reconeixement Visual [44777]
Vanrell Martorell, Maria Isabel
Serrat, Joan
Valveny Llobet, Ernest
Radeva Ivanova, Petia
Karatzas, Dimosthenis
Weijer, Joost van de
Kang, Lei
Barquero García, German
Silveira Jacques-Junior, Julio Cezar
Casas Roma, Jordi
Gomez Bigorda, Lluis
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Título variante:	Visual Recognition
Título variante:	Reconocimiento Visual
Fecha:	2024-25
Resumen:	Coordinador del mòdul: Dr. Joan Serrat Gual En visió per computador, el reconeixement visual correspon a la tasca d'explicar el contingut d'una imatge en termes de "Què és?" "On és això?". La resposta a aquestes preguntes és habitualment una etiqueta de classe corresponent als tipus d'objectes o objectes de la imatge, una caixa de delimitació estreta que conté l'objecte 1 corresponent als tipus d'objectes o objectes de la imatge, una caixa de delimitació estreta que conté l'objecte en qüestió o, a un nivell més fi, la regió (píxels) que és el seu esquema. Aquestes tasques s'anomenen, respectivament, classificació d'imatges, detecció d'objectes i segmentació semàntica. La pregunta és "doneu-me objectes com aquest", que requereix aprendre una mètrica similar entre imatges, fins i tot en el cas que provenen de diferents modalitats, com esbossos i fotografies, a través de les anomenades arquitectures de codificador-descodificador. El mòdul VR cobreix arquitectures de xarxes neuronals que aborden aquests quatre tipus de tasques. I, com a complement pràctic, mètodes per implementar-los. En concret, en aquest mòdul oferim a l'alumne una visió general dels mètodes més recents basats en tècniques d'aprenentatge profund per resoldre problemes de reconeixement visual. L'objectiu final és comprendre escenes complexes per construir sistemes factibles per a la comprensió automàtica d'imatges capaços de respondre a la pregunta complexa de quins objectes i on es troben aquests objectes en una escena complexa. Després d'haver abordat la tasca de classificació en cursos anteriors, els estudiants aprendran una gran família d'arquitectures d'èxit de xarxes profundes convolucionals que s'han demostrat per resoldre les tasques visuals dedetecció i segmentació i reconeixement. Addicionalment, apart d'aquestes tasques visual el curs adreça altres temes avançat d'aprenentatge profund.
Resumen:	Module Coordinator: Dr. Julio C. Silveira In Computer Vision, visual recognition corresponds to the task of explaining the content of an image in terms of "What is it?" "where is this?". The answer to these questions is usally a class label corresponding to the object or object types in the image, a tight bounding box containing the object in question, or, at a finer level, the 1 or object types in the image, a tight bounding box containing the object in question, or, at a finer level, the region (pixels) that is its outline. These tasks are called, respectively, image classification, object detection and semantic segmentation. A question is "give me objects like this one", that requires learning a similary metric between images, even in the case come from different modalities, like sketches and photographs, through the so called encoder-decoder architectures. VR module covers neural network architectures addressing these four types of tasks. And, as a practical complement, methods to implement them. Specifically, in this module we give to the student an overview of the latest methods based on deep learning techniques to solve visual recognition problems. The final aim is the understanding of complex scenes to build feasible systems for automatic image understanding able to answer the complex question of what objects and where are these objects in a complex scene. Having addressed the task of classification in previous course, the students will learn a large family of successful architectures of deep convolutional networks that have been proved to solve the visual tasks of detection and segmentation and recognition. In addition to these two visual tasks, this module addresses also advanced topics in deep learning.
Resumen:	Coordinador del Módulo: Dr. Joan Serrat Gual En visión por computador, el reconocimiento visual corresponde a la tarea de explicar el contenido de una imagen en términos de "¿Qué es?" "¿Dónde está esto?". La respuesta a estas preguntas suele ser una etiqueta de clase correspondiente al objeto o tipos de objeto en la imagen, un cuadro delimitador que contiene 1 etiqueta de clase correspondiente al objeto o tipos de objeto en la imagen, un cuadro delimitador que contiene el objeto en cuestión o, en un nivel más fino, la región (píxeles) que es su contorno. Estas tareas se denominan, respectivamente, clasificación de imágenes, detección de objetos y segmentación semántica. Una pregunta es "dame objetos como este", que requiere aprender una métrica similar entre imágenes, incluso en el caso de que provengan de diferentes modalidades, como bocetos y fotografías, a través de las llamadas arquitecturas codificador-decodificador. El módulo VR cubre arquitecturas de redes neuronales que abordan estos cuatro tipos de tareas. Y, como complemento práctico, métodos para implementarlos. Específicamente, en este módulo brindamos al estudiante una visión general de los últimos métodos basados en técnicas de aprendizaje profundo para resolver problemas de reconocimiento visual. El objetivo final es la comprensión de escenas complejas para construir sistemas viables para la comprensión automática de imágenes capaces de responder a la compleja pregunta de qué objetos y dónde están estos objetos en una escena compleja. Habiendo abordado la tarea de clasificación en cursos anteriores, los estudiantes aprenderán una gran familia de arquitecturas exitosas de redes convolucionales profundas que han demostrado resolver las tareas visuales de detección, segmentación y reconocimiento. Adicionalmente, se abordan otros temas avançados de aprendizaje profundo.
Derechos:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.
Lengua:	Català, anglès, castellà
Titulación:	Visió per Computador [4318299]
Plan de estudios:	Màster Universitari en Computer Vision [1539]
Documento:	Objecte d'aprenentatge