Reconeixement Visual

Cita bibliogràfica -- Enllaç permanent: https://ddd.uab.cat/record/231725

Reconeixement Visual [43088]
Vanrell Martorell, Maria
Serrat Gual, Joan
Gomez Zurita, Jose Luis
Ventura Royo, Carles
Herranz, Luis
Gomez Bigorda, Lluis
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant:	Visual Recognition
Títol variant:	Reconocimiento Visual
Data:	2020-21
Resum:	Coordinador del mòdul: Dr. Joan Serrat Gual En visió per computador, el reconeixement visual correspon a la tasca d'explicar el contingut d'una imatge en termes de "Què és?" "On és això?". La resposta a aquestes preguntes és habitualment una etiqueta de classe corresponent als tipus d'objectes o objectes de la imatge, una caixa de delimitació estreta que conté l'objecte en qüestió o, a un nivell més fi, la regió (píxels) que és el seu esquema. Aquestes tasques s'anomenen, respectivament, classificació d'imatges, detecció d'objectes i segmentació semàntica. La pregunta és "doneu-me objectes com aquest", que requereix aprendre una mètrica similar entre imatges, fins i tot en el cas que provenen de diferents modalitats, com esbossos i fotografies, a través de les anomenades arquitectures de codificador-descodificador. El mòdul VR cobreix arquitectures de xarxes neuronals que aborden aquests quatre tipus de tasques. I, com a complement pràctic, mètodes per implementar-los. En concret, en aquest mòdul oferim a l'alumne una visió general dels mètodes més recents basats en 1 En concret, en aquest mòdul oferim a l'alumne una visió general dels mètodes més recents basats en tècniques d'aprenentatge profund per resoldre problemes de reconeixement visual. L'objectiu final és comprendre escenes complexes per construir sistemes factibles per a la comprensió automàtica d'imatges capaços de respondre a la pregunta complexa de quins objectes i on es troben aquests objectes en una escena complexa. Després d'haver abordat la tasca de classificació al mòdul M2, els estudiants aprendran una gran família d'arquitectures d'èxit de xarxes profundes convolucionals que s'han demostrat per resoldre les tasques visuals dedetecció i segmentació i reconeixement. A més d'aquestes dues tasques visuals, aquest mòdul també aborda temes avançats d'aprenentatge profund com ara arquitectures per a la generació d'imatges (GANs i VAEs) i arquitectures de codificadors i decodificadors per a aplicacions multimodals.
Resum:	Coordinador del Módulo: Dr. Joan Serrat Gual En visión por computador, el reconocimiento visual corresponde a la tarea de explicar el contenido de una imagen en términos de "¿Qué es?" "¿Dónde está esto?". La respuesta a estas preguntas suele ser una etiqueta de clase correspondiente al objeto o tipos de objeto en la imagen, un cuadro delimitador que contiene el objeto en cuestión o, en un nivel más fino, la región (píxeles) que es su contorno. Estas tareas se denominan, respectivamente, clasificación de imágenes, detección de objetos y segmentación semántica. Una pregunta es "dame objetos como este", que requiere aprender una métrica similar entre imágenes, incluso en el caso de que provengan de diferentes modalidades, como bocetos y fotografías, a través de las llamadas arquitecturas codificador-decodificador. El módulo VR cubre arquitecturas de redes neuronales que abordan estos cuatro tipos de tareas. Y, como complemento práctico, métodos para implementarlos. Específicamente, en este módulo brindamos al estudiante una visión general de los últimos métodos basados 1 Específicamente, en este módulo brindamos al estudiante una visión general de los últimos métodos basados en técnicas de aprendizaje profundo para resolver problemas de reconocimiento visual. El objetivo final es la comprensión de escenas complejas para construir sistemas viables para la comprensión automática de imágenes capaces de responder a la compleja pregunta de qué objetos y dónde están estos objetos en una escena compleja. Habiendo abordado la tarea de clasificación en el módulo M2, los estudiantes aprenderán una gran familia de arquitecturas exitosas de redes convolucionales profundas que han demostrado resolver las tareas visuales de detección, segmentación y reconocimiento. Además de estas dos tareas visuales, este módulo también aborda temas avanzados de aprendizaje profundo, tales como arquitecturas para la generación de imágenes (GAN y VAE) más arquitecturas de codificador-decodificador para aplicaciones multimodales.
Drets:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.
Llengua:	Català, anglès, castellà
Titulació:	Visió per Computador / Computer Vision [4314099]
Pla d'estudis:	Màster Universitari en Visió per Computador/Computer Vision [1172]
Document:	Objecte d'aprenentatge