Data mining
- A.A. 2025/2026
- CFU 6, 6(m)
- Ore 40, 40(m)
- Classe di laurea L-41 R, L-41(m)
Conoscenza di Statistica descrittiva, algebra lineare, programmazione R di base; minime nozioni di inferenza.
Lo/la studente/ssa saprà:
1. progettare pipeline di data mining eticamente e metodologicamente corrette;
2. lavorare e analizzare diverse fonti dati quali: dati aziendali, creditizi e OSM;
3. applicare tecniche di analisi dati supervisionate e non supervisionate
4. interpretare modelli e comunicare via dashboard le evidenze ottenute;
5. Lavorare in team per le risoluzione di business cases
Unità 0 – Fondamenti
• Data Mining e CRISP-DM: fasi, etica, governance;
Unità 1 – Preparazione dati
• Data quality e data preparation
Unità 2 – Esplorazione e visualizzazione
• Statistica descrittiva, grafici multivariati (ggplot/plotly);
Unità 3 – Apprendimento supervisionato
• Analisi delle corrispondenze;
• Differenza-in-media, ANOVA;
• LASSO e Ridge per selezione variabili;
• Elastic net;
• Alberi CART & Random Forest (cenni);
• Metriche di accuratezza dei modelli (AUC-ROC, Gini);
• metodi di ricampionamento (bootstrap, k-fold)
Unità 4 – Apprendimento non supervisionato
• k-means e clustering;
• PCA;
• Reti Neurali (cenni);
Unità 5 – Laboratorio R
Workflow completo “data-ingestion ? processing ? modellazione ? dashboard (tidyverse, glmnet, caret, sf, osmdata)
• Applicazione metodologie ai dati OpenStreetMap;
• Applicazione ai dati di impresa AIDA-BvD;
TESTI ADOTTATI (A)
G. James, D. Witten, T. Hastie, R. Tibshirani; Introduzione all’apprendimento statistico con applicazioni in R; Piccin, Padova, 2020; Capitoli: 1-9; ISBN: 978-88-299-3094-4
-
Lezioni frontali e lezioni in laboratorio R con esercitazioni. Problem-based learning su casi di portafogli creditizi, bilanci imprese e dati OSM; gruppi; "peer-review" tra studenti. Utilizzo del linguaggio di programmazione open source R
Modalità di verifica dell’apprendimento: Project work: Il project work consiste in un lavoro da svolgere autonomamente o in gruppo di max 3 persone su dataset concordati con il docente, su cui applicare i principali argomenti svolti a lezione, utilizzando il linguaggio di programmazione R.
Inglese
Italiano
