Data mining

  • A.A. 2025/2026
  • CFU 6, 6(m)
  • Ore 40, 40(m)
  • Classe di laurea L-41 R, L-41(m)
Federico Ninivaggi / Professore a contratto
Prerequisiti

Conoscenza di Statistica descrittiva, algebra lineare, programmazione R di base; minime nozioni di inferenza.

Obiettivi del corso

Lo/la studente/ssa saprà:


1. progettare pipeline di data mining eticamente e metodologicamente corrette;

2. lavorare e analizzare diverse fonti dati quali: dati aziendali, creditizi e OSM;

3. applicare tecniche di analisi dati supervisionate e non supervisionate

4. interpretare modelli e comunicare via dashboard le evidenze ottenute;

5. Lavorare in team per le risoluzione di business cases

Programma del corso

Unità 0 – Fondamenti

• Data Mining e CRISP-DM: fasi, etica, governance;

Unità 1 – Preparazione dati

• Data quality e data preparation

Unità 2 – Esplorazione e visualizzazione

• Statistica descrittiva, grafici multivariati (ggplot/plotly);

Unità 3 – Apprendimento supervisionato

• Analisi delle corrispondenze;

• Differenza-in-media, ANOVA;

• LASSO e Ridge per selezione variabili;

• Elastic net;

• Alberi CART & Random Forest (cenni);

• Metriche di accuratezza dei modelli (AUC-ROC, Gini);

• metodi di ricampionamento (bootstrap, k-fold)

Unità 4 – Apprendimento non supervisionato

• k-means e clustering;

• PCA;

• Reti Neurali (cenni);

Unità 5 – Laboratorio R

Workflow completo “data-ingestion ? processing ? modellazione ? dashboard (tidyverse, glmnet, caret, sf, osmdata)

• Applicazione metodologie ai dati OpenStreetMap;

• Applicazione ai dati di impresa AIDA-BvD;

Testi (A)dottati, (C)onsigliati

TESTI ADOTTATI (A)


G. James, D. Witten, T. Hastie, R. Tibshirani; Introduzione all’apprendimento statistico con applicazioni in R; Piccin, Padova, 2020; Capitoli: 1-9; ISBN: 978-88-299-3094-4

Metodi didattici
  • Lezioni frontali e lezioni in laboratorio R con esercitazioni. Problem-based learning su casi di portafogli creditizi, bilanci imprese e dati OSM; gruppi; "peer-review" tra studenti. Utilizzo del linguaggio di programmazione open source R

Modalità di valutazione
  • Modalità di verifica dell’apprendimento: Project work: Il project work consiste in un lavoro da svolgere autonomamente o in gruppo di max 3 persone su dataset concordati con il docente, su cui applicare i principali argomenti svolti a lezione, utilizzando il linguaggio di programmazione R.

Lingue, oltre all'italiano, che possono essere utilizzate per l'attività didattica

Inglese

  Torna alla scheda
Calendario
  Materiali didattici
Avviso
I materiali didattici sono reperibili nella stanza Teams al link di seguito
Info
» Vai alla stanza Teams