Understanding eye movements : psychophysics and a model of primary visual cortex / A dissertation submitted by David Berga Garreta ; Director Xavier Otazu ; Thesis committee Dr. Joost van de Weijer, Dr. Zhaoping Li, Dr. Naila Murray.
Berga Garreta, David, autor.
Otazu Porter, Xavier, supervisor acadèmic.
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Imprint: [Barcelona] : Universitat Autònoma de Barcelona, 2019.
Description: 1 recurs en línia (213 pàgines)
Abstract: En aquesta tesi intentaré explicar (1) com movem els ulls, (2) com fer màquines que entenguin la informacióvisual i executar moviments oculars, i (3) com fer que aquestes màquines entenguin tasques per tal de decidirper aquets moviments oculars. (1) Hem analitzat del comportament dels moviments oculars provocat per les diferències de característiquesde baix nivell amb una base de dades d'imatges composada per 230 patrons generats sintèticament. S'hangenerat un total de 15 tipus d'estímuls (p. e. orientació, brillantor, color, tamany, etc. ), amb 7 contrastos percada categoría de característica. Les dades de 34 participants s'han pogut col leccionar a partir d'un seguidorocular durant la visualització de la base de dades, amb les tasques d'Observació Lliure i Cerca Visual. Elsresultats han mostrat que la saliency és predominantment i distinctivament influenciada per: 1. el tipus decaracterística, 2. el contrast de característiques, 3. la temporalitat de les fixacions, 4. la dificultat de la tascai 5. l'esbiaixament central. A partir d'aquesta base de dades (SID4VAM) hem computat una comparaciódels models de saliency testejant el seu rendiment utilitzant patrons psicofísics. El nostre estudi revela queels models en l'estat de l'art en saliency basats Deep Learning no tenen bon rendiment amb patrons sintètics,contràriament, els models d'inspiració Espectral/Fourier en superen el rendiment i són més consistents amb laexperimentació psicofísica. (2) Les computacions de l'escorça visual primària (area V1 o escorça estriada) s'han hipotetitzat com aresponsables, entre altres mecanismes de processament visual, de l'atenció visual bottom-up (o també anomenadasaliency). Per tal de validar aquesta hipòtesi, s'han processat diferents bades de dades d'imatges ambseguidor ocular a partir d'un model biològicament plausible de V1 (anomenat Neurodyamic Saliency WaveletModel o NSWAM). Seguint el model neurodinàmic de Li, hem definit les connexions laterals de V1 amb unaxarxa de neurones firing rate, sensitives a característiques visuals com la brillantor, el color, la orientació i laescala. Els processos subcorticals inferiors (i. e. retinals i talàmics) s'han modelitzat funcionalment. Els mapesde saliency resultats s'han generat a partir de la sortida del model, representant l'activitat neuronal de V1cap a les arees del cervell involucrades en el control dels moviments oculars. Fa falta destacar que la nostraarquitectura unificada és capaç de reproduir diferents processos de la visió (i. e. inducció de brillantor, cromàticai malestar visual) sense aplicar cap tipus d'entrenament ni optimització i seguint la mateixa parametrització. S'ha extès el model (NSWAM-CM) incluint una implementació de la magnificació cortical per tal de definirles projeccions retinotòpiques cap a V1 per cada visualització de la escena. També s'ha proposat la inhibicióde retorn i mecanismes de selecció per tal de predir l'atenció tant en Observació Lliure com Cerca Visual. Elsresultats han demostrat que el model supera en rendiment a altres models biològicament inspirats per a lapredicció de saliency i sequències de saccades, en concret en imatges de sintètiques i de natura. (3) El priming de tasca és crucial per a la execució de moviments oculars, involucrant interaccions entre areescerebrals relacionades amb la conducta orientada a la meta, memòria de treball i de llarg termini en combinacióamb les zones neuronals responsables de processar els estímuls. En l'últim estudi, hem proposat d'extendre elSelective Tuning Reference Fixation Controller Model, basat en instruccions de tasca (STAR-FCT), describintnoves definicions computacionals de la Memòria de Llarg Termini, l'Executiu de Tasques Visuals i la Memòriade Treball per a la Tasca. A partir d'aquests mòduls hem sigut capaços d'utilitzar instruccions textuals per talde guiar el model a dirigir la atenció a categoríes específiques d'objecte i/o llocs concrets de la escena. Hemdisenyat el nostre model de memòria a partir de una jerarquía de característiques tant d'alt com de baix nivell. La relació entre les instruccions executives de la tasca i les representacions de la memòria s'han especificatutilitzant un arbre de similaritats semàntiques entre les característiques apreses i les anotacions de categoríad'objecte. Els resultats en comparació amb la saliency han mostrat que utilitzant aquest model, tant els mapesde localització d'objecte com les prediccions de saccades tenen major probabilitat de caure en les regions salientsdepenent de les instruccions.
Abstract: In this thesis we try to explain (1) how we move our eyes, (2) how to build machines that understand visual information and deploy eye movements, and (3) how to make these machines understand tasks in order to decide for eye movements. (1) We provided the analysis of eye movement behavior elicited by low-level feature distinctiveness with a dataset of 230 synthetically-generated image patterns. A total of 15 types of stimuli has been generated (e. g. orientation, brightness, color, size, etc. ), with 7 feature contrasts for each feature category. Eye-tracking data was collected from 34 participants during the viewing of the dataset, using Free-Viewing and Visual Search task instructions. Results showed that saliency is predominantly and distinctively in uenced by: 1. feature type, 2. feature contrast, 3. temporality of xations, 4. task di culty and 5. center bias. From such dataset (SID4VAM), we have computed a benchmark of saliency models by testing performance using psychophysical patterns. Our study reveals that state-of-the-art Deep Learning saliency models do not perform well with synthetic pattern images, instead, models with Spectral/Fourier inspiration outperform others in saliency metrics and are more consistent with human psychophysical experimentation. (2) Computations in the primary visual cortex (area V1 or striate cortex) have long been hypothesized to be responsible, among several visual processing mechanisms, of bottom-up visual attention (also named saliency). In order to validate this hypothesis, images from eye tracking datasets have been processed with a biologically-plausible model of V1 (named Neurodynamic Saliency Wavelet Model or NSWAM). Following Li's neurodynamic model, we de ne V1's lateral connections with a network of ring-rate neurons, sensitive to visual features such as brightness, color, orientation and scale. Early subcortical processes (i. e. retinal and thalamic) are functionally simulated. The resulting saliency maps are generated from the model output, representing the neuronal activity of V1 projections towards brain areas involved in eye movement control. We want to pinpoint that our uni ed computational architecture is able to reproduce several visual processes (i. e. brightness, chromatic induction and visual discomfort) without applying any type of training or optimization and keeping the same parametrization. The model has been extended (NSWAM-CM) with an implementation of the cortical magni cation function to de ne the retinotopical projections towards V1, processing neuronal activity for each distinct view during scene observation. Novel inhibition of return and selection mechanisms are also proposed to predict attention in Free-Viewing and Visual Search conditions. Results show that our model outpeforms other biologically-inpired models of saliency prediction as well as to predict visual saccade sequences, speci cally for nature and synthetic images. (3) Task priming has been shown to be crucial to the deployment of eye movements, involving interactions between brain areas related to goal-directed behavior, working and long-term memory in combination with stimulus-driven eye movement neuronal correlates. In our latest study we proposed an extension of the Selective Tuning Attentive Reference Fixation Controller Model based on task demands (STAR-FCT), describing novel computational de nitions of Long-Term Memory, Visual Task Executive and Task Working Memory. With these modules we are able to use textual instructions in order to guide the model to attend to speci c categories of objects and/or places in the scene. We have designed our memory model by processing a visual hierarchy of low- and high-level features. The relationship between the executive task instructions and the memory representations has been speci ed using a tree of semantic similarities between the learned features and the object category labels. Results reveal that by using this model, the resulting object localization maps and predicted saccades have a higher probability to fall inside the salient regions depending on the distinct task instructions compared to saliency.
Note: Departament responsable de la tesi: Departament de Ciències de la Computació
Note: Tesi. Doctorat. Universitat Autònoma de Barcelona. 2019.
Rights: L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: Creative Commons
Language: Anglès
Document: Tesis i dissertacions electròniques. ; doctoralThesis ; publishedVersion
Subject: Ulls ; Moviments ; Reconeixement facial (Informàtica)
ISBN: 9788449088599

Adreça alternativa: https://hdl.handle.net/10803/667901


214 p, 6.9 MB

The record appears in these collections:
Research literature > Doctoral theses

 Record created 2020-01-27, last modified 2020-08-02



   Favorit i Compartir