Obiettivi del corso sono:
Obiettivi del laboratorio annesso al corso teorico è fornire una esperienza diretta "hand on" di analisi dati sia pur in contesto didattico.
Il linguaggio di riferimento è Python e l'utilizzo delle principali librerie statistiche, di analisi dati e di visualizzazione dati.
Lo studente verrà guidato passo passo al caricamento dei dati, al loro riordino e pre-processing, alla esplortazione visuale e alla applicazione degli algoritmi che vengono via via presentati a lezione.
lezioni frontali in aula
Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.
Lezioni in aula, il docente presenta agli studenti script python illustrandone il significato e chidendo di replicarli ed applicarli ai vari data set.
Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus
Programmazione.
Nozioni di base di statistica e calcolo delle probabilità.
Nozioni di basi di dati.
Algebra lineare.
nozioni di calcolo numerico.
Programmazione
Nozioni di base di statistica e calcolo delle probabilità.
Nozioni di basi di dati.
Algebra lineare.
nozioni di calcolo numerico.
Obbligatoria
Obbligatoria
Statistica descrittiva e tecniche di visualizzazione.
Correlazione e regressione lineare. Regressione non lineare. regressione logistica.
Classificatori bayesiani: MAP.
Apprendimento di un classificatore: tipi di errore. matrice di confuzione. Curve ROC.
Dscriminati lienari: percettrone, discriminate lineare di Fisher, SVM.
Kernel trick e SVM non lineari.
PCA e altre tecniche non lineari di riduzione della dimenionalità.
K-nn
Alberi decisionali. CART.
Clustering: k-means e clustering gerarchico.
metodi di ensamble. Boosting.
a) Chapters from: Pattern Recognition and Machine Learning (Information Science and Statistics) Bishop C.M: Editore: Springer, 2007
b) Chapters from:Python for Data Analysis: Data Wrangling with Pandas, Numpy, and IPython (Inglese) W.Mckinney O'reilly 2017
Notebook Jupyter forniti dal docente
Chapters from:Python for Data Analysis: Data Wrangling with Pandas, Numpy, and IPython (Inglese) W.Mckinney O'reilly 2017
hand outs docente. Testi e tutorial dalla rete.
Numerosi Notebooks jupyter
Tutorial dalla rete.
FONDAMENTI DI ANALISI DATI | ||
Argomenti | Riferimenti testi | |
1 | Introduzione ai dati, raccolta, tipologia, problematiche generali | Dispensa/slides del docente |
2 | Richiami elementari alla probabilità, sigma Algebre e approccio di Kolmogorov | Dispensa/slides del docente |
3 | Statistica descrittiva classica e esploraizone visuale dei dati | capitoli dal testo b) |
4 | Dati multivariati: correlazione e indipendenza, misure di correlazione | capitoli dal testo a) |
5 | Regressione lineare | Dispensa/slides del docente |
6 | Regressione non lineare | Dispensa/slides del docente |
7 | Regressione logistica | Dispensa/slides del docente |
8 | Formula di Bayes e applicazioni al trattamento dei dati | capitoli dal testo a) |
9 | Classificatore MAP, algoruitmo Bayes naive | capitoli dal testo a) |
10 | Analisi degli errori di classificaizone: errore di training e di generalizzazione | capitoli dal testo a) |
11 | Matrice di confusione, curve ROC, rischio di un classificatore | capitoli dal testo a) |
12 | Linear discriminant Analysys e Fisher discriminant analysis | capitoli dal testo a) |
13 | Support Vector machine e kernel trick | Dispensa/slides del docente |
14 | Metodi non parametrici per la classificazione | capitoli dal testo a) |
15 | Alberti decisionali, CART e misure di omogeneità | capitoli dal testo b) |
16 | Algoritmo k-nn, motivazioni teoriche e ottimizzazione | capitoli dal testo a) |
17 | Cluster analysis, analisi di mixture gaussiane | capitoli dal testo b) |
18 | K-means e cenn al fuzzy k-means | capitoli dal testo b) |
19 | Clustering gerarchico | capitoli dal testo a) |
LABORATORIO | ||
Argomenti | Riferimenti testi | |
1 | Statistica descrittiva | notebook jupyter fornito dal docente, capitoli testo b) |
2 | Modalità più comuni di visualizzaizone dati | notebook jupyter fornito dal docente, capitoli testo b) |
3 | correlazione e indici di correlazione lineare | notebook jupyter fornito dal docente, capitoli testo b) |
4 | confronto tra popolazioni, cenni di statistica inferenziale | notebook jupyter fornito dal docente, capitoli testo b) |
5 | il problema della classificazione automatica, Ts, CS e errore | notebook jupyter fornito dal docente, capitoli testo b) |
6 | Regressione lineare | notebook jupyter fornito dal docente, capitoli testo b) |
7 | regressione non lineare e logistica | notebook jupyter fornito dal docente, capitoli testo b) |
8 | Formula di Bayes, classificazione MAP | notebook jupyter fornito dal docente, capitoli testo b) |
9 | Analisi discriminante: LDA, percettrone | notebook jupyter fornito dal docente, capitoli testo b) |
10 | SVM, SVM e kernel trick | notebook jupyter fornito dal docente, capitoli testo b) |
11 | Alberi decisionali: CART | notebook jupyter fornito dal docente, capitoli testo b) |
12 | Riduzione di dimensionalità lineare: PCA | notebook jupyter fornito dal docente, capitoli testo b) |
13 | K-nn e parzen methods (metodi non parametrici) | notebook jupyter fornito dal docente, capitoli testo b) |
14 | Clustering: k-means, medoids, clustering gerarchico | notebook jupyter fornito dal docente, capitoli testo b) |
L'esame si articola in tre prove distinte:
a) lo studente propone al docente lo studio di un dat set a sua scelta e concorda con il docente il tipo di analisi e irisultati cui tale analisi è orientata; raccomandata almeno una revisione intemredia dle progetto con il docente.(vedi laboratorio)
b) colloquio orale di verifica delle conoscenze di base relative al corso.
"La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere."
L'esame consiiste nella presentazione e discussione di un progetto di analisi dati scelto dallo studente e pre-approvato dal docente.
La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.
Il progetto di anlai parte da data set di dimensioni medio-grandi ottenibili in rete (molto popolare la scelta di data set da Kaggle)
Domande d'esame:
a) regola di Bayes e applicaizoni alla classificazione
b) strategie di ottimizzazione per il knn
c) misure di omogeneità
d) misure di correlazione
Tipici data set vengono estratti da Kaggkle e si richiede di eseguire task di regressione e di classificazione utilizzando differenti algoritmi e strategier, valutandone l'efficacia.