Il corso introduce le principali tecniche di data mining. Il focus è sul mining di grandi quantità di dati, tali da non entrare in memoria principale. I diversi esempi presentati durante il corso riguarderanno il web, le social network e i dati Next Generation Sequencing prodotti in ambito biomedico. Inoltre il corso affronta la tematica anche dal punto di vista degli algoritmi, enfatizzando la differenza dal machine-learning. Tra gli argomenti affrontati troviamo, in primo luogo tool quali, map-reduce, per lavorare in ambito distribuito con grandi quantità di dati. Tale argomento farà da denominatore comune in tutte le problematiche di mining presentate. Successivamente viene affrontato il problema della ricerca di similarità e dell’uso delle tecniche di hashing per grandi volumi di dati. Si affronta anche il problema classico del mining ad alto supporto descrivendo l’algoritmo apriori e le sue varianti. Saranno quindi introdotti i sistemi di raccomandazione. In tale contesto si affronterà pure il problema dei dati ad alta dimensionalità e le tecniche riduzione della dimensionalità quali, SVD, CUR, NNMF. Il corso introdurrà quindi le tematiche principali nell’analisi delle network. Verranno introdotte le misure di centralità per le network, con particolare riferimento al page-rank e alle sue varianti. Sarà introdotto il concetto di modello nullo di network in grado di conservare le caratteristiche della rete quali, distribuzione dei degree e coefficiente di clustering. Tra i modelli presentati troveremo: Erdos-Renyi, Chung-Lu, Preferential Attachment. Sarà affrontato il problema del clustering attraverso l’uso delle tecniche basate su modularità e clustering spettrale.
Obiettivi formativi generali dell'insegnamento in termini di risultati di apprendimento attesi.
lezioni frontali e laboratorio.
Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.
Programmazione, strutture dati, algoritmi su grafi, concetti di base di probabilità e statistica.
Le risorse principali messe a disposizione dello studente sono le lezioni frontali, la cui frequenza è fortemente consigliata.
Per seguire meglio le lezioni, vengono messe a disposizione le slide utilizzate per il corso. Le slide non costituiscono un mezzo di studio: forniscono un dettaglio puntuale sugli argomenti trattati a lezione.
Argomenti | Riferimenti testi | |
---|---|---|
1 | Introduzione, Map Reduce, Spark | Capitoli 1 e 2 + materiale didattico integrativo |
2 | Mining di insiemi frequenti | Capitolo 6 + materiale didattico integrativo |
3 | Similarità ad alte dimensioni. Locality sensitive Hashing (LSH). | Capitolo 3 + materiale didattico integrativo |
4 | Attività pratica su LSH e sue applicazioni | Capitolo 3 + materiale didattico integrativo |
5 | Dimensionality reduction. PCA, SVD, CUR, NNMF | Capitolo 11 + materiale didattico integrativo |
6 | Attività pratica su dimensionality reduction. | Capitolo 11 + materiale didattico integrativo |
7 | Sistemi di raccomandazione. Latent Semantic Indexing, Collaborative filtering e Network based inference, | Capitolo 9 + materiale didattico integrativo |
8 | Attività pratica su sistemi di raccomandazione. | Capitolo 9 + materiale didattico integrativo |
9 | Link Analysis: PageRank Link spam Hub-Authorities Applicazioni su Map-Reduce | Capitolo 5 + materiale didattico integrativo |
10 | Analisi di Grafi di grandi dimensioni. Conteggio triangoli subgraph matching e motif finding, community detection: overlapping communities Network alignment | Capitolo 10 + materiale didattico integrativo |
11 | Attività pratica su motif finding su grafi di grandi dimensioni. Applicazioni in Finanza. | Capitolo 10 + materiale didattico integrativo |
12 | Web Advertising: Algoritmi online Adword e sue implementazioni | Capitolo 8 è materiale didattico integrativo |
13 | Text mining. TF.IDF, Entity annotation | Materiale didattico integrativo |
14 | Attività pratica su text mining e sistemi di raccomandazione per analisi di banche dati citazioni: arxiv, pubmed | Materiale didattico integrativo |
L'esame finale consiste in una prova scritta ed un colloquio orale nel quale viene discusso un progetto.
La prova scritta è costituita da esercizi e domande di teoria.
Chi non supera la prova scritta, non può sostenere l'orale. La prova scritta può essere visionata prima delle prove orali.
Salvo diversa comunicazione:
Note:
La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.
Il voto è espresso su una scala di trenta, fino a un massimo di 30/30 e lode.
Per l'assegnazione del voto finale si terrà conto dei seguenti parametri:
Esempi saranno pubblicati sul portale www.studium.unict.it