Laboratorio di tecniche estrazione dati da rete o web scraping
- A.A. 2023/2024
- CFU 3
- Ore 20
- Classe di laurea L-41
Conoscenza di base del linguaggio di programmazione Python.
Familiarità con l'analisi dei dati e i concetti statistici di base.
Comprendere i concetti fondamentali del web scraping e le sue applicazioni nel contesto dell'analisi dei dati per le scienze sociali. Acquisire competenze pratiche per estrarre dati da pagine web utilizzando Python. Comprendere e saper utilizzare librerie e strumenti specifici per il web scraping. Essere consapevoli delle considerazioni etiche correlate al web scraping.
- Introduzione al web scraping: concetti fondamentali e applicazioni
- HTML e CSS: elementi di base per comprendere la struttura delle pagine web
- Python per il web scraping: librerie e strumenti utili
- Estrazione dati strutturati: scraping di tabelle e dati organizzati in formati specifici
- Estrazione dati non strutturati: scraping di testo, immagini e altri contenuti multimediali
- Etica relativa al web scraping
(A); Chapagain, A.; Hands-On Web Scraping with Python: Perform advanced scraping operations using various Python libraries and tools such as Selenium, Regex, and others; Packt Publishing Ltd.; 2019; Pagine/Capitoli: capp. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10; 978-1-78953-339-2
(C); Mitchell, R.; Web scraping with Python: Collecting more data from the modern web.; O'Reilly Media, Inc.; 2018; Pagine/Capitoli: capp. 1, 2, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 18.; 978-1-491-98557-1
-
Lezioni frontali per introdurre i concetti teorici e le tecniche di web scraping.
Esercitazioni pratiche guidate per acquisire competenze operative.
La verifica consiste di due prove:
- Progetto individuale o di gruppo (max 3 persone) in cui gli studenti applicano le tecniche di web scraping a un caso reale nel campo delle scienze sociali.
- Prova orale, consistente nella presentazione dei risultati del progetto, discussione delle scelte metodologiche effettuate, ed eventuali domande su tutti gli argomenti trattati nel corso.
Il progetto è prerequisito alla prova orale, per accedere alla quale lo studente deve aver ottenuto almeno la sufficienza nella valutazione del progetto (18/30). Il docente valuterà i risultati del progetto in merito all'implementazione delle tecniche di crawling, e dall'efficienza di esecuzione. La prova orale deve essere sostenuta a seguito della valutazione del progetto. Nel caso di esito negativo per la prova orale (votazione minore di 18/30), lo studente deve ripetere anche il progetto. Il voto finale sarà calcolato attraverso la seguente media pesata: 0.7 * voto progetto + 0.3 * voto prova orale.
Italiano