Extracció de dades de IMDB utilitzant tècniques de Screen-Scraping
Viñas Templado, Adrián
Ruiz Cirera, Albert, dir. (Universitat Autònoma de Barcelona. Departament de Matemàtiques)
Universitat Autònoma de Barcelona. Facultat de Ciències

Data: 2017
Descripció: 29 pag.
Resum: El creixement i expansió de la coneguda com red de redes ens ha portat a l'anomenada era de la informació. Web scraping és una tècnica utilitzada mitjançant programes de software per extreure informació de llocs web. Usualment, aquests programes simulen la navegació d'un humà en la World Wide Web ja sigui utilitzant el protocol HTTP manualment, o inserint un navegador en una aplicació. Es presenta a continuació una investigació sobre el desenvolupament de funcions relacionades amb l' Screen scraping utilitzant com a software R-project. Una més relacionada amb la tècnica de screen-scraping purament i l'altra a l'extracció i analisi posterior de les dades. La mostra ha estat agafada aleatòriament dins del marc mostral d'actors i actrius de la pàgina IMDB per veure si hi han diferències signicatives en el nombre de papers protagonitzats en pel·lícules respecte el sexe. El resultat ha estat que sí hi han diferències significatives entre el nombre de papers que fan els actors de promig respecte les actrius. S'han aconseguit desenvolupar dues funcions capaces d'extreure i analitzar determinada informació de diverses pàgines web i deixar part del treball enllestit per a que puguin ser modificades o ampliades de codi i extreure més o diferent informació.
Resum: The growth and expansion of the known as network of networks has led us to the so-called information age. Web scraping is a technique used to extract information from web sites by software programs. Usually,these programs simulate the navigation of a human on the World Wide Web either using HTTP protocol manually, or inserting a browser into an application. An investigation is presented about the development of functions related with the Screen-scraping using R-project as software. The rst function related to the technique of screen-scraping purely and the second with the extraction and analysis of the data. The sample has been taken randomly within the sample frame of actors and actresses of the page IMDB to see if there are signicant dierences in the number of feature lms starred acording to the sex. The result has been that there are signicant dierences between the number of feature lms starred by actors and actresses on average respectively. It has been possible to develop two functions capable of extracting and analyzing certain information of various web pages and leave some of the work done for the functions can be modied or extended code and extract more or dierent information.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Català
Titulació: Estadística Aplicada [2501919]
Pla d'estudis: Grau en Estadística Aplicada [973]
Document: Treball final de grau ; Text
Matèria: Web scraping ; Screen scraping ; HTTP ; Actor ; Actriu ; Rastreator ; Inferència ; IMDB ; Actress



29 p, 1.3 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Facultat de Ciències. TFG

 Registre creat el 2018-05-03, darrera modificació el 2022-05-01



   Favorit i Compartir