Data mining

  • A.A. 2025/2026
  • CFU 6, 6(m)
  • Ore 40, 40(m)
  • Classe di laurea L-41 R, L-41(m)
Federico Ninivaggi / Professore a contratto
Prerequisiti

Conoscenza di Statistica descrittiva, algebra lineare, programmazione R di base; minime nozioni di inferenza.

Obiettivi del corso

Lo/la studente/ssa saprà:


1. progettare pipeline di data mining eticamente e metodologicamente corrette;

2. lavorare e analizzare diverse fonti dati quali: dati aziendali, creditizi e OSM;

3. applicare tecniche di analisi dati supervisionate e non supervisionate

4. interpretare modelli e comunicare via dashboard le evidenze ottenute;

5. Lavorare in team per le risoluzione di business cases

Programma del corso

Unità 0 – Fondamenti

• Data Mining e CRISP-DM: fasi, etica, governance;

Unità 1 – Preparazione dati

• Data quality e data preparation

Unità 2 – Esplorazione e visualizzazione

• Statistica descrittiva, grafici multivariati (ggplot/plotly);

Unità 3 – Apprendimento supervisionato

• Analisi delle corrispondenze;

• Differenza-in-media, ANOVA;

• LASSO e Ridge per selezione variabili;

• Elastic net;

• Alberi CART & Random Forest (cenni);

• Metriche di accuratezza dei modelli (AUC-ROC, Gini);

• metodi di ricampionamento (bootstrap, k-fold)

Unità 4 – Apprendimento non supervisionato

• k-means e clustering;

• PCA;

• Reti Neurali (cenni);

Unità 5 – Laboratorio R

Workflow completo “data-ingestion ? processing ? modellazione ? dashboard (tidyverse, glmnet, caret, sf, osmdata)

• Applicazione metodologie ai dati OpenStreetMap;

• Applicazione ai dati di impresa AIDA-BvD;

Testi (A)dottati, (C)onsigliati

TESTI ADOTTATI (A)


G. James, D. Witten, T. Hastie, R. Tibshirani; Introduzione all’apprendimento statistico con applicazioni in R; Piccin, Padova, 2020; Capitoli: 1-9; ISBN: 978-88-299-3094-4

Metodi didattici
  • Lezioni frontali e lezioni in laboratorio R con esercitazioni. Problem-based learning su casi di portafogli creditizi, bilanci imprese e dati OSM; gruppi; "peer-review" tra studenti. Utilizzo del linguaggio di programmazione open source R

Modalità di valutazione
  • Modalità di verifica dell’apprendimento: Project work: Il project work consiste in un lavoro da svolgere autonomamente o in gruppo di max 3 persone su dataset concordati con il docente, su cui applicare i principali argomenti svolti a lezione, utilizzando il linguaggio di programmazione R.

Lingue, oltre all'italiano, che possono essere utilizzate per l'attività didattica

Inglese

Lingue, oltre all'italiano, che si intende utilizzare per la valutazione

Italiano

  Torna alla scheda
Calendario
  Materiali didattici
Avviso
I materiali didattici sono reperibili nella stanza Teams al link di seguito
Info
» Vai alla stanza Teams