MATEMATICA E INFORMATICAInformaticaAnno accademico 2022/2023

1014452 - FONDAMENTI DI ANALISI DATI E LABORATORIO
Modulo 1014453 - FONDAMENTI DI ANALISI DATI

Docente: Giovanni GALLO

Risultati di apprendimento attesi

Obiettivi del corso sono:

Fornire le conoscenze di base circa le prassi e gli algoritmi piùù comuni e stao dell'arte utlizzati nell'analisi dei dati mediante la presentazione del framwork teorico-matematico ed esempi con reti di implementazione ed utilizzo.
Avviare gli studenti alla costruzione, gestione, preprocessing di un data set reale allo scopo di estrarne, mediante le tecniche più opportune , classificatori automatici e siistemi di supporto alle decisioni.
Fornire conoscenze adeguate per la valutazione dei pro e contro dei differenti paradigmi di analisi dati in modo da potere proporre di caso in caso l'approccio più adeguato per la soluzione dei problemi di estrazione della conoscenza che si presentano.
Addestrare alla redazione di report completi, rigorosi, visualmente intutivi che comunichino in modo corretto ed efficace all'utente finale gli esiti della analisi ed esplorazione di un data set sperimentale, giustificandone con chiarezza le conclusioni.
Capacità di aggiornarsi all'utilizzo di sistemi software, di linguaggi e algoritmi innovativi nel settore della analisi dei dati.

Modalità di svolgimento dell'insegnamento

lezioni frontali in aula

Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.

Prerequisiti richiesti

Programmazione.
Nozioni di base di statistica e calcolo delle probabilità.
Nozioni di basi di dati.

Algebra lineare.
nozioni di calcolo numerico.

Frequenza lezioni

Obbligatoria

Contenuti del corso

Statistica descrittiva e tecniche di visualizzazione.
Correlazione e regressione lineare. Regressione non lineare. regressione logistica.
Classificatori bayesiani: MAP.
Apprendimento di un classificatore: tipi di errore. matrice di confuzione. Curve ROC.
Dscriminati lienari: percettrone, discriminate lineare di Fisher, SVM.
Kernel trick e SVM non lineari.
PCA e altre tecniche non lineari di riduzione della dimenionalità.
K-nn
Alberi decisionali. CART.
Clustering: k-means e clustering gerarchico.

Testi di riferimento

a) Chapters from: Pattern Recognition and Machine Learning (Information Science and Statistics) Bishop C.M: Editore: Springer, 2007

b) Chapters from:Python for Data Analysis: Data Wrangling with Pandas, Numpy, and IPython (Inglese) W.Mckinney O'reilly 2017

Programmazione del corso

	Argomenti	Riferimenti testi
1	Introduzione ai dati, raccolta, tipologia, problematiche generali	Dispensa/slides del docente
2	Richiami elementari alla probabilità, sigma Algebre e approccio di Kolmogorov	Dispensa/slides del docente
3	Statistica descrittiva classica e esploraizone visuale dei dati	capitoli dal testo b)
4	Dati multivariati: correlazione e indipendenza, misure di correlazione	capitoli dal testo a)
5	Regressione lineare	Dispensa/slides del docente
6	Regressione non lineare	Dispensa/slides del docente
7	Regressione logistica	Dispensa/slides del docente
8	Formula di Bayes e applicazioni al trattamento dei dati	capitoli dal testo a)
9	Classificatore MAP, algoruitmo Bayes naive	capitoli dal testo a)
10	Analisi degli errori di classificaizone: errore di training e di generalizzazione	capitoli dal testo a)
11	Matrice di confusione, curve ROC, rischio di un classificatore	capitoli dal testo a)
12	Linear discriminant Analysys e Fisher discriminant analysis	capitoli dal testo a)
13	Support Vector machine e kernel trick	Dispensa/slides del docente
14	Metodi non parametrici per la classificazione	capitoli dal testo a)
15	Alberti decisionali, CART e misure di omogeneità	capitoli dal testo b)
16	Algoritmo k-nn, motivazioni teoriche e ottimizzazione	capitoli dal testo a)
17	Cluster analysis, analisi di mixture gaussiane	capitoli dal testo b)
18	K-means e cenn al fuzzy k-means	capitoli dal testo b)
19	Clustering gerarchico	capitoli dal testo a)

Verifica dell'apprendimento

Modalità di verifica dell'apprendimento

L'esame si articola in tre prove distinte:

a) lo studente propone al docente lo studio di un dat set a sua scelta e concorda con il docente il tipo di analisi e irisultati cui tale analisi è orientata; raccomandata almeno una revisione intemredia dle progetto con il docente.(vedi laboratorio)

b) colloquio orale di verifica delle conoscenze di base relative al corso.

"La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere."

Esempi di domande e/o esercizi frequenti

Il progetto di anlai parte da data set di dimensioni medio-grandi ottenibili in rete (molto popolare la scelta di data set da Kaggle)

Domande d'esame:
a) regola di Bayes e applicaizoni alla classificazione

b) strategie di ottimizzazione per il knn

c) misure di omogeneità

d) misure di correlazione

English version

1014452 - FONDAMENTI DI ANALISI DATI E LABORATORIO Modulo 1014453 - FONDAMENTI DI ANALISI DATI