Linguistic support for protest event data collection
Danilova, Vera
Blanco Escoda, Xavier, dir.
Alexandrov, Mikhail, dir.
Universitat Autònoma de Barcelona. Departament de Filologia Francesa i Romànica

Publicació: [Barcelona] : Universitat Autònoma de Barcelona, 2015
Descripció: 1 recurs electrònic (161 p.)
Resum: Esta tesis aborda el problema de la cualidad de recopilación automática de datos sobre protestas y propone herramientas de extracción multilíngüe de atributos del evento de protesta para mejorar la calidad de la unidad de análisis. El trabajo incluye la exploración del estado de arte en los dominios de la recopilación automática de datos sobre protestas y la extracción multilíngüe de eventos. En la ausencia de una colección de datos multilíngües sobre protestas anotados por expertos para el aprendizaje supervisado nos enfocamos en el tratamiento de noticias multilíngües basado en patrones lingüísticos conectados a una jerarquía de conceptos relacionados con el evento de protesta. Las gramáticas y lexicones han sido elaborados según los estándares de GATE 8. 0, y la jerarquía de conceptos ha sido formalizada en Protégé - 4. 3. El presenta trabajo contribuye al tratamiento automático de bases de datos sobre protestas con lo siguiente: colección automática de un corpus de noticias relacionadas con el evento de protesta; descripción formalizada del evento de protesta basada en un estudio detallado de un corpus de noticias multilíngües (en búlgaro, francés, polaco, ruso, español y sueco); elaboración de patrones genéricos y lexicones multilíngües conectados a la jerarquía de conceptos que resuelve el problema de la ausencia de una colección de datos preanotados por expertos; Los datos obtenidos pueden aplicarse, entre otros, en el monitoreo y análisis de protestas y la relacionada comunicación de usuarios en las redes sociales.
Resum: sta tesis aborda el problema de la cualidad de recopilación automática de datos sobre protestas y propone herramientas de extracción multilíngüe de atributos del evento de protesta para mejorar la calidad de la unidad de análisis. El trabajo incluye la exploración del estado de arte en los dominios de la recopilación automática de datos sobre protestas y la extracción multilíngüe de eventos. En la ausencia de una colección de datos multilíngües sobre protestas anotados por expertos para el aprendizaje supervisado nos enfocamos en el tratamiento de noticias multilíngües basado en patrones lingüísticos conectados a una jerarquía de conceptos relacionados con el evento de protesta. Las gramáticas y lexicones han sido elaborados según los estándares de GATE 8. 0, y la jerarquía de conceptos ha sido formalizada en Protégé - 4. 3. El presenta trabajo contribuye al tratamiento automático de bases de datos sobre protestas con lo siguiente: colección automática de un corpus de noticias relacionadas con el evento de protesta; descripción formalizada del evento de protesta basada en un estudio detallado de un corpus de noticias multilíngües (en búlgaro, francés, polaco, ruso, español y sueco); elaboración de patrones genéricos y lexicones multilíngües conectados a la jerarquía de conceptos que resuelve el problema de la ausencia de una colección de datos preanotados por expertos; Los datos obtenidos pueden aplicarse, entre otros, en el monitoreo y análisis de protestas y la relacionada comunicación de usuarios en las redes sociales.
Resum: This thesis addresses the problem of automatic protest event collection quality and proposes the tools for multilingual protest feature extraction to improve the quality of analysis unit. This work includes the exploration of the state of the art in protest event data collection and multilingual event extraction. In the absence of a multilingual training dataset for supervised learning we focus on the rule-based approach to multilingual event extraction and connection of a domain concept hierarchy. Grammars and gazetteers have been elaborated in accordance with the standards of GATE 8. 0, and the protest event hierarchy has been formalized using Protégé - 4. 3. The present work contributes to the automatic protest event data collection and coding by the following: construction of a multilingual corpus of texts related to protest events; a formalized description of the protest event concept on the basis of a detailed examination of a multilingual corpus of news headlines (Bulgarian, French, Polish, Russian, Spanish, Swedish); elaboration of generic patterns and gazetteers for multilingual text processing, which helps to deal with the absence of a multilingual training set. The obtained data can be applied among others for the monitoring and analysis of event-specific social networks' response.
Nota: Tesi doctoral - Universitat Autònoma de Barcelona. Departament de Filologia Francesa i Romànica, 2015
Drets: L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons Creative Commons
Llengua: Anglès
Document: Tesi doctoral ; Versió publicada
Matèria: Moviments de protesta en els mitjans de comunicació de massa ; Informació ; Sistemes d'emmagatzematge i recuperació ; Tractament del llenguatge natural (Informàtica)
ISBN: 9788449061837

Adreça alternativa: https://hdl.handle.net/10803/374232
Adreça alternativa: https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1189689


161 p, 2.0 MB

El registre apareix a les col·leccions:
Documents de recerca > Tesis doctorals

 Registre creat el 2016-10-17, darrera modificació el 2022-07-25



   Favorit i Compartir