Machine learning e laboratorio di analisi dei big data - Laboratorio di analisi dei big data
- A.A. 2025/2026
- CFU 3, 3(m)
- Ore 20, 20(m)
- Classe di laurea L-41 R, L-41(m)
È consigliata una conoscenza di base di statistica e di informatica.
È inoltre fortemente consigliato aver seguito i corsi di Fondamenti di Programmazione e Metodi di Programmazione Avanzata, oppure possedere conoscenze preliminari di programmazione, con particolare riferimento all’utilizzo del linguaggio Python.
ll corso si propone di introdurre gli studenti ai concetti fondamentali e alle tecniche operative del Machine Learning applicato all’analisi dei Big Data. In particolare, il corso mira a fornire strumenti pratici per progettare, addestrare e valutare modelli predittivi su dataset di grandi dimensioni e complessità, utilizzando il linguaggio Python e la libreria scikit-learn.
Gli studenti acquisiranno competenze nell’intero ciclo di sviluppo di modelli supervisionati, affrontando problemi concreti di classificazione e regressione con attenzione agli aspetti metodologici, computazionali e applicativi. Saranno inoltre in grado di gestire dataset reali e di sviluppare soluzioni data-driven in scenari economici e finanziari, tipicamente caratterizzati da volume e varietà di dati.
Gli obiettivi formativi sono articolati nei seguenti risultati di apprendimento:
Conoscenza e comprensione
- Comprendere i principi di base del Machine Learning supervisionato e il ruolo delle sue principali tecniche (e.g. alberi decisionali, support vector machine, reti neurali artificiali) nel contesto dell’analisi dei Big Data.
- Acquisire familiarità con l’ambiente Python e con le principali librerie per il data science e il machine learning, in particolare scikit-learn.
Capacità di applicare conoscenza e comprensione
- Saper implementare pipeline di Machine Learning su dataset di grandi dimensioni, eseguendo le fasi di preprocessing, addestramento, validazione e test mediante l'utilizzo di Python.
- Gli studenti saranno in grado di valutare criticamente le performance dei modelli e di adattarli a specifici contesti applicativi, con particolare riferimento ai domini delle scienze sociali.
Il corso introduce ai fondamenti pratici del Machine Learning per l'analisi dei Big Data in Python, con particolare attenzione all’utilizzo della libreria scikit-learn. Gli studenti apprenderanno le principali tecniche di apprendimento supervisionato, dalla preparazione dei dati alla creazione, addestramento e valutazione di modelli predittivi.
Gli argomenti trattati includono:
- Introduzione al Machine Learning e alla libreria scikit-learn in Python.
- Preprocessing e pulizia dei dati.
- Algoritmi di classificazione e regressione supervisionata.
- Metodologie di suddivisione dei dataset (train/test split, cross-validation).
- Metriche di valutazione delle performance.
- Applicazioni pratiche a dataset reali, con focus sui domini delle scienze sociali.
(C) Python for Data Analysis by Wes McKinney, published by O’Reilly Media, Inc. in 2022. ISBN:
9781098104030
(C) Statistics - The Art & Science of Learning from Data (3rd edition – International Edition) by
Agresti and C. Franklin, published by Pearson, Essex, England in 2014. ISBN: 9781292024211
(C) Pattern Recognition and Machine Learning (Information Science and Statistics) by Christopher M.
Bishop, published by Springer-Verlag in 2006. ISBN: 0387310738
(C) An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, and Robert
Tibshirani, published by Springer US in 2021. ISBN: 9781071614174 (Second Edition)
(C) R. Zacharski, A Programming Guide to Data Mining
Altre informazioni / materiali aggiuntivi
N/A
-
- Lezioni frontali
- Esercitazioni al PC con codice Python
- Project Work
Materiali del corso
- Slide
- Esercizi Risolti (Codice Python)
- Esempi di Project Work
La verifica dell’apprendimento si basa su una prova scritta sotto forma di Project Work, che potrà essere
svolta in gruppi di massimo 3 studenti.
Organizzazione e modalità operative
- Il Project Work consisterà nello sviluppo di un progetto di Machine Learning in linguaggio Python per l'analisi di Big Data nell'ambito delle scienze sociali.
- Gli studenti dovranno: (1) consegnare il codice implementato; (2) eseguire il codice e discutere criticamente i risultati durante l'esame.
- Gli studenti potranno facoltativamente preparare una presentazione tecnica che illustri il lavoro svolto da discutere durante l'esame.
Tempistiche
- Il Project Work sarà assegnato durante l’ultima settimana di lezione per gli studenti frequentanti che intendono sostenere l’esame nel primo appello.
- Gli studenti non frequentanti, o coloro che intendono sostenere l’esame in appelli successivi, dovranno contattare il docente via e-mail almeno una settimana prima dell’appello, per ricevere il Project Work da svolgere.
Supporti consentiti
- Durante lo svolgimento del Project Work è consentito l’uso di materiali didattici messi a disposizione dal docente (esercitazioni, esempi di codice).
- Gli studenti potranno anche avvalersi, in modo responsabile e trasparente, del supporto di strumenti basati su intelligenza artificiale generativa come ChatGPT, Gemini, Copilot e simili.
- Tuttavia, durante l'esame, il docente valuterà attivamente il livello di comprensione individuale di ciascun partecipante, per accertare l’effettiva acquisizione delle conoscenze e competenze.
Criteri di valutazione
Il docente valuterà:
- la completezza e la correttezza del codice rispetto ai task richiesti;
- la capacità di ciascun componente del gruppo di discutere i risultati ottenuti e di dimostrare le competenze acquisite.
L’esame si considera superato con un punteggio minimo di 18/30 attribuito alla valutazione complessiva del Project Work.
Il voto ottenuto per il presente modulo (Laboratorio di Analisi dei Big Data) contribuirà, tramite media ponderata basata sui CFU, al voto complessivo dell’insegnamento integrato Machine Learning e Laboratorio di Analisi dei Big Data.
Inglese
Italiano