MATEMATICA E INFORMATICAInformaticaAnno accademico 2023/2024
1014452 - FONDAMENTI DI ANALISI DATI E LABORATORIO
Modulo 1014453 - FONDAMENTI DI ANALISI DATI
Docente: ANTONINO FURNARI
Risultati di apprendimento attesi
-->
Gli obiettivi del corso sono:
- Fornire una solida comprensione dei principi fondamentali necessari per raccogliere, organizzare, modellare, analizzare e interpretare i dati. Il corso mira a fornire tale comprensione mediante la presentazione di un framework teorico-matematico e numerosi esempi di applicazione di tale framework a insiemi di dati reali.
- Guidare lo studente nell’acquisizione delle competenze tecniche per la costruzione, gestione, analisi di set di dati reali al fine di costruire, mediante le tecniche più opportune, modelli dei dati e sistemi di supporto alle decisioni.
- Fornire conoscenze adeguate alla scelta delle tecniche più adeguate alla risoluzione di un problema di analisi dei dati ed estrazione della conoscenza, valutandone pro e contro.
- Formare gli studenti per la redazione di report completi, rigorosi, e visualmente adeguati che comunichino in modo corretto ed efficace all'utente finale gli esiti della analisi ed esplorazione di un insieme di dati, giustificando con chiarezza le conclusioni.
- Fornire le competenze necessarie per permettere agli studenti di aggiornarsi autonomamente sull’utilizzo di tecniche, software, e linguaggi di programmazione utili all’analisi dei dati.
Modalità di svolgimento dell'insegnamento
Lezioni frontali in aula.
Qualora l'insegnamento venisse impartito in modalità mista o a distanza, potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.
Prerequisiti richiesti
-->
Il corso prevede i seguenti prerequisiti curriculari, che devono essere soddisfatti precedentemente al sostenimento dell’esame:
- Programmazione I e Laboratorio
- Algebra lineare e Geometria
- Elementi di Analisi Matematica I
- Strutture Discrete
Frequenza lezioni
La frequenza non è obbligatoria, ma fortemente consigliata.
Contenuti del corso
-->
Il corso è articolato in sei moduli principali:- Introduzione all'analisi dei dati
- Analisi dei dati descrittiva ed esplorativa
- Analisi dei dati inferenziale
- Cenni di analisi dei dati causale
- Analisi predittiva
- Introduzione all'analisi di serie temporali
I paragrafi che seguono dettagliano i contenuti dei vari moduli.
Introduzione all'analisi dei dati
- Panoramica sull'analisi dei dati, scopo e applicazioni
- Principali tipi di analisi dei dati: descrittiva, esplorativa, inferenziale, causale, predittiva, analisi di dati temporali
- Esempi di analisi dei dati e applicazioni (esempi notevoli di analisi dei dati e come queste sono state utili per risolvere problemi reali)
- Diversi tipi di dati: dati nominali, ordinali, intervallo e rapporto
- Tecniche di raccolta dati: sondaggi, esperimenti, studi osservazionali, campionamento
- Differenza tra campione e popolazione
- Tecniche di pre-processing dei dati: pulizia dei dati, gestione dei dati mancanti, standardizzazione dei dati, codifica delle variabili categoriche (variabili dummy), riduzione del rumore nei dati (filtraggio, smoothing, rimozione di valori anomali, normalizzazione)
- Utilizzo della probabilità per l'analisi dei dati: concetti di base della probabilità (probabilità congiunta, marginale, condizionale, indipendenza e indipendenza condizionale), teorema di Bayes e suo utilizzo nell'analisi dei dati, distribuzioni di probabilità discrete, continue, cumulativi. Distribuzioni di probabilità notevoli.
Analisi dei dati descrittiva ed esplorativa
- Misure della tendenza centrale, media, mediana e moda
- Misure di dispersione, varianza, deviazione standard, quartili e intervallo interquartile
- Fit di gaussiane ai dati
- Covarianza, correlazione (Pearson, Spearman), uso della regressione lineare (semplice e multipla) e logistica (semplice e multinomiale) per studiare la relazione tra variabili
- Tecniche di stima della densità e cluster analysis: finestra di Parzen, kernel density estimation, modelli di misture di gaussiane (GMM), K-Means
- Tecniche di riduzione della dimensionalità: analisi delle componenti principali (PCA)
- Tecniche di visualizzazione dei dati: diagrammi a torta, istogrammi, boxplot, scatterplot, hexbin, mappe di densità, curve di livello, scattermatrix, plot di regressione
Analisi dei dati inferenziale
- Stima puntuale e intervallare
- Test di ipotesi, ipotesi nulla e alternativa, p-value e significatività statistica
- Intervalli di confidenza, livelli di significatività e come interpretarli
- Valutare la significatività dei coefficienti di correlazione
- Significatività statistica della regressione lineare e logistica
- Tecniche di selezione del modello, inclusa la regressione stepwise e backward elimination
- Test di normalità: Q-Q Plot e test Chi Quadrato di Pearson
Cenni di analisi dei dati Causale- Definizione di causalità. Differenza tra correlazione e causalità e importanza di determinare la relazione causale tra le variabili.
- Esperimenti vs. osservazioni. Differenze tra esperimenti controllati e studi osservazionali. Importanza dei primi per stabilire la causalità. Randomized Controlled Experiments.
- Counterfactuals e confounders.
- Semplici tecniche di inferenza causale: regressione lineare con controllo di confounders
Introduzione all'analisi dei dati predittiva- Concetti fondamentali dell'analisi predittiva: training, validation e test set, cross validation e come usare questi set per valutare le prestazioni di un modello. Algoritmi generativi e discriminativi. Parametri e iper-parametri. Metodi parametrici e non parametrici. Overfitting e underfitting, bias e varianza. Modelli lineari e nonlineari.
- Tecniche di regressione. Misure di valutazione per problemi di regressione: errore quadratico medio e errore assoluto medio.
- Tecniche di classificazione. Valutazione delle prestazioni di un modello di classificazione: confusion matrix, precision, recall e F1 score. Curve ROC e AUC per la valutazione delle prestazioni della classificazione binaria. Funzioni discriminanti. Fisher Discriminant Analysis (FDA), Linear Discriminant Analysis (LDA), Distanza di Mahalanobis, K-Nearest Neighbor (KNN) come metodo di classificazione non parametrico. MAP e Naive Bayes. Classificazione one vs rest e one vs all per la classificazione multi-classe. Tecniche di bilanciamento dei dati.
- Tecniche di ottimizzazione degli iper-parametri del modello: ricerca a griglia.
Introduzione alla analisi delle serie temporali- Introduzione ai dati delle serie temporali. Definizioni e problemi.
- Decomposizione delle serie temporali in trend e stagionalità
- Tecniche e modelli di base per l'analisi delle serie temporali
Testi di riferimento
-->
Capitoli dei seguenti libri:
- Peck, Roxy, Chris Olsen, and Jay L. Devore. Introduction to statistics and data analysis. Cengage Learning, 2015.
- James, Gareth Gareth Michael. An introduction to statistical learning: with applications in Python, 2023.https://www.statlearning.com
- Bishop, Christopher M. "Machine Learning. Machine learning, 2006. https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/
- Hernán, Miguel A., and James M. Robins. Causal inference, 2010. https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/
Materiale didattico condiviso dal docente mediante Microsoft Teams (codice del Team: i87g4nb).
Programmazione del corso
| Argomenti | Riferimenti testi |
1 | Introduzione al corso | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
2 | Principali concetti di analisi dei dati | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
3 | Statistica descrittiva e rappresentazione grafica dei deti | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
4 | Incertezza e dati come osservazioni di eventi casuali | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
5 | Distribuzione di probabilità | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
6 | Introduzione alla inferenza statistica: generalizzare alla popolazione | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
7 | Associazione di due variabili | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
8 | Introduzione alla inferenza causale | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
9 | Semplici tecniche di inferenza causale per analizzare dati osservazionali | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
10 | Clustering e density estimation | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
11 | Riduzione della dimensionlaità | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
12 | Analisi dei dati predittiva | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
13 | Modelli probabilistici per la classificazione | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
14 | Funzioni discriminati per la classificazione | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
15 | Analisi di serie temporali | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
Verifica dell'apprendimento
Modalità di verifica dell'apprendimento
-->
L'esame si articola in due prove distinte:
- Un progetto che consiste nell’analisi di un set di dati concordato col docente. Il progetto consisterà nell'applicazione delle tecniche di analisi dei dati più opportune, a seconda del set di dati considerate, viste a lezione.
- Colloquio orale per la presentazione del progetto e verifica della conoscenza degli argomenti del corso.
La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.
La votazione è espressa in trentesimi secondo il seguente schema:
Voto 29-30 e lode
Lo studente ha una conoscenza approfondita dei concetti e delle tecniche di analisi dei dati. Riesce prontamente ad analizzare i problemi di analisi dei dati, individuando le tecniche di analisi dei dati più idonee alla risoluzione del problema considerato in maniera autonoma e con spirito critico e indicando le pratiche metodologiche più idonee per la loro applicazione. Ha ottime capacità comunicative e proprietà di linguaggio.
Voto 26-28
Lo studente ha una buona conoscenza dei concetti e delle tecniche di analisi dei dati. Riesce ad analizzare i problemi di analisi dei dati, individuando tecniche di analisi dei dati idonee alla risoluzione del problema considerato e indicando le pratiche metodologiche più idonee per la loro applicazione. Ha buone capacità comunicative e proprietà di linguaggio.
Voto 22-25
Lo studente ha una discreta conoscenza dei concetti e delle tecniche di analisi dei dati, anche se si limita agli argomenti principali. Riesce ad analizzare i problemi di analisi dei dati, seppure non sempre in maniera lineare, individuando tecniche di analisi dei dati idonee alla risoluzione del problema considerato. Ha discrete capacità comunicative e una discreta proprietà di linguaggio.
Voto 18-21
Lo studente ha la minima conoscenza dei concetti e delle tecniche di analisi dei dati. Ha una modesta capacità di analizzare i problemi di analisi dei dati. Ha sufficienti capacità comunicative, seppure non sempre una appropriata proprietà di linguaggio.
Esame non superato
Lo studente non possiede la conoscenza minima richiesta dei contenuti principali dell’insegnamento. La capacità di utilizzare il linguaggio specifico è scarsissima o nulla e non è in grado di applicare autonomamente le conoscenze acquisite.
Esempi di domande e/o esercizi frequenti
-->
Il progetto di analisi dei dati è generalmente basato su dataset di dimensioni medio-grandi ottenibili in rete.
Esempi di domande d'esame tipo:
- Si definisca il problema della classificazione, si discutano le differenze rispetto al problema della regressione e si riportino degli esempi pratici.
- Si illustri l’algoritmo K-NN per la classificazione. Si discuta l’effetto del parametro K sulle performance dell’algoritmo. Si facciano degli esempi grafici del funzionamento dell’algoritmo e dell’effetto di K.
- Si discutano le misure di valutazione per i problemi di classificazione: accuracy, matrice di confusione, precision, recall e score F1. Si discutano i pro e i contro delle misure considerate, anche in relazione alle caratteristiche del dataset di test.
- Si illustrino le principali tecniche utili per studiare la correlazione tra variabili.
English version