FONDAMENTI DI ANALISI DATI E LABORATORIO

9 CFU - 1° semestre

Docenti titolari dell'insegnamento

GIOVANNI GALLO - Modulo FONDAMENTI DI ANALISI DATI - INF/01 - 6 CFU
ANTONINO FURNARI - Modulo LABORATORIO - INF/01 - 3 CFU

Obiettivi formativi

FONDAMENTI DI ANALISI DATI
Obiettivi del corso sono:
1.Fornire le conoscenze di base circa le prassi e gli algoritmi piùù comuni e stao dell'arte utlizzati nell'analisi dei dati mediate la presentazione del framwork teorico-matematico ed esempi conreti di implementazione ed utilizzo.
2. Avviare gli studenti alla costruzione, gestione, preprocessing di un data set reale allo scopo di estrarne, mediante le tecniche più opportune , classificatori automatici e siistemi di supporto alle decisioni.
3. Fornire conoscenze adeguate per la valutazione dei pro e contro dei differenti pardigmi di analisi dati in modo da potere proporre di caso in caso le oluzioni più adeguate per la soluzione die problemi di estrazione della conoscenza che si presentano.
4. Addestrare alla redazione di report completi, rigorosi, visualmente intutivi che comunichino in modo corretto ed efficace all'utente finale gli esiti della analisi ed esplorazione di un data set sperimentale, giustificandone con chiarezza le conclusioni.
5. Capacità di aggiornarsi all'uttilizzo di sistemi software, di linguaggi e algoritmi innovativi nel settore della analisi dei dati.
LABORATORIO
Gli obiettivi del corso sono:
1. Fornire la conoscenza di strumenti pratici per la corretta gestione e analisi dei dati;
2. Fornire strumenti per la corretta visualizzazione ed esplorazione dei dati;
3. Favorire la comprensione di concetti e modelli teorici mediante l'implementazione di algoritmi noti e/o l'analisi di implementazioni esistenti;
4. Fornire metodologie pratiche per l'addestramento e utilizzo di algoritmi di analisi dei dati e machine learning per la costruzione di sistemi automatici di supporto alle decisioni;
5. Fornire strumenti per la produzione di report dettagliati inerenti al processo di analisi dei dati.

Prerequisiti richiesti

FONDAMENTI DI ANALISI DATI
Programmazione.
Nozioni di base di statistica e calcolo delle probabilità.
Nozioni di basi di dati.

Algebra lineare.
nozioni di calcolo numerico.
LABORATORIO
Conoscenze di base di programmazione.

Conoscenze di base del linguaggio di programmazione Python.

Frequenza lezioni

FONDAMENTI DI ANALISI DATI
Obbligatoria tre volte la settimana
LABORATORIO
Obbligatoria, in alternanza con le lezioni del modulo di fondamenti di analisi dei dati, circa una volta alla settimana.

Contenuti del corso

FONDAMENTI DI ANALISI DATI
Statistica descrittiva e tecniche di visualizzazione.

Correlazione e regressione lineare. Regressione non lineare. regressione logistica.

Classificatori bayesiani: MAP.

Apprendimento di un classificatore: tipi di errore. matrice di confuzione. Curve ROC.

Dscriminati lienari: percettrone, discriminate lineare di Fisher, SVM.

Kernel trick e SVM non lineari.

PCA e altre tecniche non lineari di riduzione della dimenionalità.

K-nn

Alberi decisionali. CART.

Clustering: k-means e clustering gerarchico.

metodi di ensamble. Boosting.
LABORATORIO
- Introduzione a Python per il calcolo Scientifico;
- Statistica descrittiva;
- Distribuzione Gaussiana;
- Regressione Lineare;
- Correlazione e Regressione Logistica;
- Distribuzioni di Probabilità;
- Classificazione basata su soglie, Curve ROC, matrici di confusione;
- Classificazione MAP, classificazione basata su distanza di Mahalanobis, Naive Bayes
- Principal Component Analysis, Linear Discriminant Analysis
- Support Vector Machine
- K-Nearest Neighbour
- Clustering: K-Means e Misture di Gaussiane
- Classificazione mediante alberi decisionali

Testi di riferimento

FONDAMENTI DI ANALISI DATI
si suggeriscono varie dispense del docente
LABORATORIO
Diverse dispense fornite dal docente.

Altro materiale didattico

FONDAMENTI DI ANALISI DATI
hand outs docente. Testi e tutorial dalla rete.
LABORATORIO
Dispense fornite dal docente, documentazione dei pacchetti software utilizzati durante il corso:
- Scipy: https://docs.scipy.org/doc/
- Scikit-Learn: http://scikit-learn.org/stable/documentation.html
- Statsmodels: http://devdocs.io/statsmodels/

Programmazione del corso

FONDAMENTI DI ANALISI DATI
	Argomenti	Riferimenti testi
1	Statistica descrittiva
2	Modalità più comuni di visualizzaizone dati
3	correlazione e indici di correlazione lineare
4	confronto tra popolazioni, cenni di statistica inferenziale
5	il problema della classificazione automatica, Ts, CS e errore
6	Regressione lineare
7	regressione non lineare e logistica
8	Formula di Bayes, classificazione MAP
9	Analisi discriminante: LDA, percettrone
10	SVM, SVM e kernel trick
11	Alberi decisionali: CART
12	Riduzione di dimensionalità lineare: PCA
13	Riduzione di dimensionalità non lineare
14	K-nn e parzen methods (metodi non parametrici)
15	Clustering: k-means, medoids, clustering gerarchico
16	Ensamble techniques, boosting
LABORATORIO
	Argomenti	Riferimenti testi
1	Introduzione a Python per il calcolo scientifico
2	Statistica descrittiva (media, mediana, quartili, percentili, dotplot, istogrammi, media, varianza, deviazione standard, boxplot, grafici a torta)
3	Distribuzione Guassiana
4	Regressione Lineare
5	Correlazione e Regressione Logistica
6	Distribuzioni di Probabilità
7	Classificazione Basata su Soglia, Curve ROC, Matrici di Confusione
8	Classificazione MAP, Classificazione basata su distanza di Mahalanobis, Naive Bayes
9	PCA e LDA
10	SVM
11	KNN
12	Clustering: K-Means e Misture di Gaussiane (GMM)
13	Classificazione mediante Alberi Decisionali (CART)

Verifica dell'apprendimento

MODALITÀ DI VERIFICA DELL'APPRENDIMENTO

FONDAMENTI DI ANALISI DATI
L'esame si articola in tre prove distinte:

a) un laboratorio in Python offerto nelle date di esame a calendario. Viene proposto un data set e veine richiesto di condurre su tale data set una serie di analisi standard;

b) lo studente propone al docente lo studio di un dat set a sua scelta e concorda con il docente il tipo di analisi e irisultati cui tale analisi è orientata;

c) colloquio orale di verifica delle conoscenze di base relative al corso.
LABORATORIO
Il punto a indicato nel modulo di fondamenti analisi dati: prova di laboratorio in Python scolto nelle date di esame indicate in calendario. La prova consiste nel condurre e documentare una serie di analisi standard su un dataset fornito.

PROVE IN ITINERE

FONDAMENTI DI ANALISI DATI
non sono previste
LABORATORIO
Non previste.

PROVE DI FINE CORSO

FONDAMENTI DI ANALISI DATI
le verifiche di cui alla "modalità di esame" debbono essere sostenute nella sequenza:

a precede b precede c

ESEMPI DI DOMANDE E/O ESERCIZI FREQUENTI

FONDAMENTI DI ANALISI DATI
Indicatori centrali e indicatori di dispersione. Correlazione. Regressione lineare.. Regressione logitica. Dipendenza e indipendenza statistica. teoremaa di Bayes. Classificazione MAP. Discriminante lineare. SVM. Kernel trick. Knn. K-means. CART.
LABORATORIO
Studiare la correlazione tra due variabili mediante l'analisi dello scatter plot e della matrice di correlazione.

Studiare la correlazione tra una variabile e un gruppo di variabili mediante la costruzione e analisi di un regressore lineare.

Studiare la correlazione tra un gruppo di varibili e il verificarsi di un evento mediante la costruzione e analisi di un regressore logistico.

Classificare dati mediante Naive Bayes.

Classificare dati mediante alberi decisionali.

Applicare tecniche di clustering a un insieme di dati.

Apri in formato Pdf English version