Lezioni frontali in aula.
Qualora l'insegnamento venisse impartito in modalità mista o a distanza, potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.
Il corso è articolato in cinque moduli principali:
- Introduzione all’analisi dei dati
- Analisi dei dati descrittiva ed esplorativa
- Analisi dei dati inferenziale
- Dati come punti N-dimensionali
- Analisi dei dati predittiva
I paragrafi che seguono dettagliano i contenuti dei vari moduli.
Introduzione all'analisi dei dati
- Panoramica sull'analisi dei dati, scopo e applicazioni
- Principali tipi di analisi dei dati: descrittiva, esplorativa, inferenziale, predittiva
- Esempi di analisi dei dati e applicazioni (esempi notevoli di analisi dei dati e come queste sono state utili per risolvere problemi reali)
- Diversi tipi di dati: dati nominali, ordinali, intervallo e rapporto
- Tecniche di raccolta dati: sondaggi, esperimenti, studi osservazionali, campionamento
- Differenza tra campione e popolazione
- Tecniche di pre-processing dei dati: pulizia dei dati, gestione dei dati mancanti, standardizzazione dei dati, codifica delle variabili categoriche (variabili dummy), riduzione del rumore nei dati (filtraggio, rimozione di valori anomali, normalizzazione)
- Utilizzo della probabilità per l’analisi dei dati: concetti di base della probabilità (probabilità congiunta, marginale, condizionale, indipendenza e indipendenza condizionale), teorema di Bayes e suo utilizzo nell’analisi dei dati, distribuzioni di probabilità discrete, continue, cumulativi. Distribuzioni di probabilità notevoli.
Analisi dei dati descrittiva ed esplorativa
- Misure della tendenza centrale, media, mediana e moda
- Misure di dispersione, varianza, deviazione standard, quartili e intervallo interquartile
- Covarianza, correlazione
- Tecniche di visualizzazione dei dati: diagrammi a torta, istogrammi, boxplot, scatterplot, hexbin, mappe di densità, curve di livello, scattermatrix, plot di regressione
- Analisi dei dati inferenziale
- Obiettivi dell'analisi dei dati inferenziale
- Uso degli intervalli di confidenza nell'analisi dei dati, livelli di significatività e come interpretarli
- Uso dei test di ipotesi per l'analisi dei dati, ipotesi nulla e alternativa, p-value e significatività statistica. Principali test statistici: confronto di medie, t-test, chi-quadrato
- Valutare la significatività dei coefficienti di correlazione con test di ipotesi
- Uso della regressione lineare e logistica per studiare la relazione tra variabili
- Significatività statistica della regressione lineare e logistica
- Tecniche di selezione dei modelli di regressione, backward elimination
- Cenni di analisi dei dati causale: correlazione vs causalità, randomized controlled experiments, studi osservazionali, conterfactuals e confounders, regressione lineare con controllo di confounders
I dati come punti N-Dimensionali
- Feature, funzioni di rappresentazione, spazi delle feature, metriche
- Tecniche di clustering: definizioni e K-Means
- Fit di Gaussiane ai dati, Maximum Likelihood
- Tecniche di stima della densità: finestra di Parzen, kernel density estimation, modelli di misture di gaussiane (GMM)
- Tecniche di riduzione della dimensionalità: analisi delle componenti principali (PCA)
Analisi dei dati predittiva
- Concetti fondamentali dell’analisi predittiva: training, validation e test set, cross validation. Algoritmi generativi e discriminativi. Parametri e iper-parametri. Metodi parametrici e non parametrici. Overfitting e underfitting, bias e varianza. Modelli lineari e nonlineari.
- Tecniche di regressione. Misure di valutazione per problemi di regressione: errore quadratico medio e errore assoluto medio.
- Tecniche di classificazione. Valutazione delle prestazioni di un modello di classificazione: confusion matrix, precision, recall e F1 score. Curve ROC per la valutazione delle prestazioni della classificazione binaria. Funzioni discriminanti. Fisher Discriminant Analysis (FDA), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), Distanza di Mahalanobis, K-Nearest Neighbor (KNN) come metodo di classificazione non parametrico. MAP e Naive Bayes.
L’esame si articola nelle seguenti prove:
- Uno scritto, volto a verificare le competenze dello studente in merito agli argomenti trattati nel modulo di “Fondamenti di Analisi dei Dati”, da un punto di vista teorico e metodologico. La prova è valutata con un voto in trentesimi.
- Un progetto, concordato con il docente e svolto in autonomia dallo studente, volto a verificare le competenze acquisite nel modulo di “Laboratorio”. Il progetto viene presentato al docente mediante un colloquio e valutato con un voto in trentesimi.
Gli studenti con disabilità e/o DSA dovranno contattare con sufficiente anticipo rispetto alla data dell'esame il docente, il referente CInAP del DMI (prof.ssa Daniele) e il CInAP per comunicare che intendono sostenere l'esame fruendo delle opportune misure compensative.
Sono previste due prove in itinere in forma scritta durante il corso. Il superamento delle due prove dà diritto all'esonero dalla prova scritta.
Il voto finale è ottenuto mediante una media pesata tra i voti ottenuti nelle due prove con pesi pari a 2/3 per la prova scritta e 1/3 per la prova di laboratorio.
La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.
La votazione di ciascuna prova è espressa in trentesimi secondo il seguente schema:
Voto 29-30 e lode
Lo studente ha una conoscenza approfondita dei concetti e delle tecniche di analisi dei dati. Riesce prontamente ad analizzare i problemi di analisi dei dati, individuando le tecniche di analisi dei dati più idonee alla risoluzione del problema considerato in maniera autonoma e con spirito critico e indicando le pratiche metodologiche più idonee per la loro applicazione. Ha ottime capacità comunicative e proprietà di linguaggio.
Voto 26-28
Lo studente ha una buona conoscenza dei concetti e delle tecniche di analisi dei dati. Riesce ad analizzare i problemi di analisi dei dati, individuando tecniche di analisi dei dati idonee alla risoluzione del problema considerato e indicando le pratiche metodologiche più idonee per la loro applicazione. Ha buone capacità comunicative e proprietà di linguaggio.
Voto 22-25
Lo studente ha una discreta conoscenza dei concetti e delle tecniche di analisi dei dati, anche se si limita agli argomenti principali. Riesce ad analizzare i problemi di analisi dei dati, seppure non sempre in maniera lineare, individuando tecniche di analisi dei dati idonee alla risoluzione del problema considerato. Ha discrete capacità comunicative e una discreta proprietà di linguaggio.
Voto 18-21
Lo studente ha la minima conoscenza dei concetti e delle tecniche di analisi dei dati. Ha una modesta capacità di analizzare i problemi di analisi dei dati. Ha sufficienti capacità comunicative, seppure non sempre una appropriata proprietà di linguaggio.
Esame non superato
Lo studente non possiede la conoscenza minima richiesta dei contenuti principali dell’insegnamento. La capacità di utilizzare il linguaggio specifico è scarsissima o nulla e non è in grado di applicare autonomamente le conoscenze acquisite.