Salta ai contenuti. | Salta alla navigazione

Image Portlet
Home Uricchio Tiberio Didattica 2023/2024 Laboratorio di tecniche estrazione dati da rete o web scraping

Laboratorio di tecniche estrazione dati da rete o web scraping

  • A.A. 2023/2024
  • CFU 3
  • Ore 20
  • Classe di laurea L-41
Tiberio Uricchio /
Prerequisiti

Conoscenza di base del linguaggio di programmazione Python.

Familiarità con l'analisi dei dati e i concetti statistici di base.


Obiettivi del corso

Comprendere i concetti fondamentali del web scraping e le sue applicazioni nel contesto dell'analisi dei dati per le scienze sociali. Acquisire competenze pratiche per estrarre dati da pagine web utilizzando Python. Comprendere e saper utilizzare librerie e strumenti specifici per il web scraping. Essere consapevoli delle considerazioni etiche correlate al web scraping.


Programma del corso

  1. Introduzione al web scraping: concetti fondamentali e applicazioni
  2. HTML e CSS: elementi di base per comprendere la struttura delle pagine web
  3. Python per il web scraping: librerie e strumenti utili
  4. Estrazione dati strutturati: scraping di tabelle e dati organizzati in formati specifici
  5. Estrazione dati non strutturati: scraping di testo, immagini e altri contenuti multimediali
  6. Etica relativa al web scraping


Testi (A)dottati, (C)onsigliati

(A); Chapagain, A.; Hands-On Web Scraping with Python: Perform advanced scraping operations using various Python libraries and tools such as Selenium, Regex, and others; Packt Publishing Ltd.; 2019; Pagine/Capitoli: capp. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10; 978-1-78953-339-2


(C); Mitchell, R.; Web scraping with Python: Collecting more data from the modern web.; O'Reilly Media, Inc.; 2018; Pagine/Capitoli: capp. 1, 2, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 18.; 978-1-491-98557-1

Metodi didattici
  • Lezioni frontali per introdurre i concetti teorici e le tecniche di web scraping.

    Esercitazioni pratiche guidate per acquisire competenze operative.


Modalità di valutazione
  • La verifica consiste di due prove:

    • Progetto individuale o di gruppo (max 3 persone) in cui gli studenti applicano le tecniche di web scraping a un caso reale nel campo delle scienze sociali.
    • Prova orale, consistente nella presentazione dei risultati del progetto, discussione delle scelte metodologiche effettuate, ed eventuali domande su tutti gli argomenti trattati nel corso.


    Il progetto è prerequisito alla prova orale, per accedere alla quale lo studente deve aver ottenuto almeno la sufficienza nella valutazione del progetto (18/30). Il docente valuterà i risultati del progetto in merito all'implementazione delle tecniche di crawling, e dall'efficienza di esecuzione. La prova orale deve essere sostenuta a seguito della valutazione del progetto. Nel caso di esito negativo per la prova orale (votazione minore di 18/30), lo studente deve ripetere anche il progetto. Il voto finale sarà calcolato attraverso la seguente media pesata: 0.7 * voto progetto + 0.3 * voto prova orale.



Lingue, oltre all'italiano, che possono essere utilizzate per l'attività didattica

Italiano