MATEMATICA E INFORMATICAInformaticaAnno accademico 2022/2023

1014452 - FONDAMENTI DI ANALISI DATI E LABORATORIO
Modulo 1014454 - LABORATORIO

Docente: Giovanni GALLO

Risultati di apprendimento attesi

Obiettivi del laboratorio annesso al corso teorico è fornire una esperienza diretta "hand on" di analisi dati sia pur in contesto didattico.
Il linguaggio di riferimento è Python e l'utilizzo delle principali librerie statistiche, di analisi dati e di visualizzazione dati.
Lo studente verrà guidato passo passo al caricamento dei dati, al loro riordino e pre-processing, alla esplortazione visuale e alla applicazione degli algoritmi che vengono via via presentati a lezione.

Modalità di svolgimento dell'insegnamento

Lezioni in aula, il docente presenta agli studenti script python illustrandone il significato e chidendo di replicarli ed applicarli ai vari data set.

Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus

Prerequisiti richiesti

Programmazione
Nozioni di base di statistica e calcolo delle probabilità.
Nozioni di basi di dati.

Algebra lineare.
nozioni di calcolo numerico.

Frequenza lezioni

Obbligatoria

Contenuti del corso

Statistica descrittiva e tecniche di visualizzazione.

Correlazione e regressione lineare. Regressione non lineare. regressione logistica.

Classificatori bayesiani: MAP.

Apprendimento di un classificatore: tipi di errore. matrice di confuzione. Curve ROC.

Dscriminati lienari: percettrone, discriminate lineare di Fisher, SVM.

Kernel trick e SVM non lineari.

PCA e altre tecniche non lineari di riduzione della dimenionalità.

K-nn

Alberi decisionali. CART.

Clustering: k-means e clustering gerarchico.

metodi di ensamble. Boosting.

Testi di riferimento

Notebook Jupyter forniti dal docente

Chapters from:Python for Data Analysis: Data Wrangling with Pandas, Numpy, and IPython (Inglese) W.Mckinney O'reilly 2017

Programmazione del corso

 ArgomentiRiferimenti testi
1Statistica descrittivanotebook jupyter fornito dal docente, capitoli testo b)
2Modalità più comuni di visualizzaizone datinotebook jupyter fornito dal docente, capitoli testo b)
3correlazione e indici di correlazione linearenotebook jupyter fornito dal docente, capitoli testo b)
4confronto tra popolazioni, cenni di statistica inferenzialenotebook jupyter fornito dal docente, capitoli testo b)
5il problema della classificazione automatica, Ts, CS e errorenotebook jupyter fornito dal docente, capitoli testo b)
6Regressione linearenotebook jupyter fornito dal docente, capitoli testo b)
7regressione non lineare e logisticanotebook jupyter fornito dal docente, capitoli testo b)
8Formula di Bayes, classificazione MAPnotebook jupyter fornito dal docente, capitoli testo b)
9Analisi discriminante: LDA, percettronenotebook jupyter fornito dal docente, capitoli testo b)
10SVM, SVM e kernel tricknotebook jupyter fornito dal docente, capitoli testo b)
11Alberi decisionali: CARTnotebook jupyter fornito dal docente, capitoli testo b)
12Riduzione di dimensionalità lineare: PCAnotebook jupyter fornito dal docente, capitoli testo b)
13K-nn e parzen methods (metodi non parametrici)notebook jupyter fornito dal docente, capitoli testo b)
14Clustering: k-means, medoids, clustering gerarchiconotebook jupyter fornito dal docente, capitoli testo b)

Verifica dell'apprendimento

Modalità di verifica dell'apprendimento

L'esame consiiste nella presentazione e discussione di un progetto di analisi dati scelto dallo studente e pre-approvato dal docente.
La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.

Esempi di domande e/o esercizi frequenti

Tipici data set vengono estratti da Kaggkle e si richiede di eseguire task di regressione e di classificazione utilizzando differenti algoritmi e strategier, valutandone l'efficacia.


English version