Laboratorio di analisi di dati testuali
- A.A. 2025/2026
- CFU 3, 3(m)
- Ore 20, 20(m)
- Classe di laurea L-41 R, L-41(m)
Fondamenti di informatica e basi di dati (consigliato)
Fornire una panoramica delle tecniche di analisi dei dati testuali e delle loro applicazioni. Lo studente sarà in grado di collocare l’analisi del testo (text-mining, NLP) all’interno della più ampia filiera dell’analisi dei dati nelle scienze sociali.
Introdurre gli studenti ai principali strumenti software utilizzati per l’analisi dei testi. Lo studente acquisirà familiarità con almeno un ambiente software (es. tool grafico come Orange, oppure Python con librerie di base) per l’elaborazione di corpora testuali: importazione, pulizia, tokenizzazione, esplorazione, fino alle operazioni base di preprocessing e di visualizzazioni.
Sviluppare le competenze per estrarre informazioni rilevanti dai testi utilizzando metodi di elaborazione del linguaggio naturale. Lo studente sarà in grado di operare rappresentazioni del testo (es., embeddings) e utilizzarle in semplici analisi esplorative, applicando metodi di estrazione in un contesto di ricerca sociale.
Capire le tecniche per l’analisi del sentiment e l’identificazione di opinioni nei testi. Lo studente sarà introdotto alle tecniche di sentiment analysis e alla coretta interpretazione dei risultati, in particolare sui casi "limite" (ironia e contesti fortemente culturali) e sulle implicazioni etiche dell’identificazione di opinioni.
Applicare le competenze acquisite attraverso esercitazioni pratiche su dataset reali. Lo studente lavorerà mini-progetti guidati che coinvolgono dati testuali reali e fornirà un breve report con esplorazione, analisi e interpretazione. Sarà in grado di presentare i risultati dell’analisi testuale in forma comprensibile a un pubblico non tecnico (ad esempio un ricercatore delle scienze sociali).
In questo corso si fornirà una panoramica delle principali tecniche di analisi dei dati testuali e delle applicazioni nelle scienze sociali: dall’importazione e pulizia dei testi, alla "tokenizzazione" fino alla rappresentazione vettoriale ("word embeddings"). Si esploreranno metodi per l’analisi esplorativa (frequenze, visualizzazioni, similarità tra documenti), modelli tematici ("topic modelling" / LDA), analisi del sentiment e del contenuto d’opinione, e metodologie per l’estrazione di entità e parole-chiave. Il corso prevede una forte componente pratica: si utilizzeranno software (Python e Orange) ed è prevista una fase progettuale in cui gli studenti dovranno realizzare un progetto su dati testuali reali, con l’obiettivo di trasformare un problema delle scienze sociali in un’analisi concretamente realizzata e presentata.
- (C) Hovy, Dirk. Text analysis in Python for social scientists: Discovery and exploration. Cambridge University Press, 2020.
- (C) Wiedemann, Gregor. Text mining for qualitative data analysis in the social sciences. Springer Vs, 2016.
- (C) Ignatow, Gabe, and Rada Mihalcea. Text mining: A guidebook for the social sciences. Sage Publications, 2016. (aggiornato al 2018 e consultabile online)
-
Lezioni frontali, attività di laboratorio, progetti individuali/di gruppo, presentazioni e discussioni.
Lo studente verrà valutato sulla base di un progetto finale, da svolgere in gruppi da almeno due persone. Dovranno presentare i propri risultati e commentarli, e alla presentazione seguiranno delle brevi domande che costituiranno l'esame orale.
Italiano, inglese, spagnolo, russo
Italiano
