Web Scraping amb Python : una anàlisi textual de la premsa escrita
Gasull Jolis, Joan
Ruíz Cirera, Albert, dir. (Universitat Autònoma de Barcelona. Departament de Matemàtiques)
Universitat Autònoma de Barcelona. Facultat de Ciències

Data: 2017
Descripció: 31 pag.
Resum: L'objectiu fonamental d'aquest treball és crear una eina que, donada una notícia, predigui a quin diari pertany. S'ha utilitzat "web scraping" per a obtenir una base de dades de notícies de forma massiva i el més automàtica possible. El classificador de notícies utilitza models basats en el Teorema de Bayes, i en el treball s'estudia com maximitzar-ne el potencial predictiu. S'arriba a la conclusió que, en els casos estudiats i només considerant el vocabulari utilitzat, aquesta tècnica de classificació dóna uns resultats molt precisos.
Resum: El objetivo fundamental de este trabajo es crear una herramienta que, dada una noticia, prediga a qué diario pertenece. Se ha usado "web scraping" para obtener una base de datos de noticias de forma masiva y lo más automática posible. El clasificador de noticias usa modelos basados en el Teorema de Bayes, y en el trabajo se estudia como maximizar su potencial predictivo. Se llega a la conclusión que, en los casos estudiados y solo considerando el vocabulario usado, esta técnica de clasificación da unos resultados muy precisos.
Resum: The main objective of this work is to create a tool that, given a news item, predicts which journal it belongs to. "Web scraping" has been used to get a news database in a massive way, as much automatic as possible. The news classifier uses models based on the Bayes' Theorem, and the paper studies how to maximize its predictive potential. To conclude, in the cases studied and only considering the vocabulary used, this classification technique gives very precise results.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Català
Titulació: Estadística Aplicada [2501919]
Pla d'estudis: Grau en Estadística Aplicada [973]
Document: Treball final de grau ; Text
Matèria: Web scraping ; Naive Bayes ; Anàlisi textual ; Classificació



31 p, 1.5 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Facultat de Ciències. TFG

 Registre creat el 2018-05-04, darrera modificació el 2022-05-01



   Favorit i Compartir