Regione Piemonte - Sito Ufficiale

Sezione Agricoltura e Qualità

Statistiche Agricole

Sommario:

Approfondimenti metodologici sul Data mining

Cos’è il data mining

Letteralmente significa scavare nei dati, estrarre informazioni:

Data: Dati, Informazione

Mining (to mine): Scavare, Estrarre

Con esso si intende l'applicazione di una o più tecniche che consentono l'esplorazione di grandi quantità di dati, con l'obiettivo di individuare le informazioni più significative e di renderle disponibili e direttamente utilizzabili nell'ambito del decision making.
L'estrazione di conoscenza (informazioni significative) avviene tramite individuazione delle associazioni, o "patterns", o sequenze ripetute, o regolarità, nascoste nei dati. In questo contesto un "pattern" indica una struttura, un modello, o, in generale, una rappresentazione sintetica dei dati.

Si possono distinguere due approcci di analisi, ovvero l’analisi non supervisionata (bottom up, esplorativa) e l’analisi supervisionata (top down, confermativa). Queste si differenziano per le conoscenze che si hanno del fenomeno, generiche nel primo caso e più mirate nel secondo.
A livello pratico, un’analisi esplorativa considera le variabili di analisi sullo stesso piano, mentre per uno studio supervisionato si riprendono i modelli inferenziali che considera variabili esplicative, esogene, e variabili risposta, endogene.

Le tecniche utilizzabili sono varie e, di conseguenza, anche gli algoritmi che le implementano. La scelta dipende principalmente dello scopo che si vuole raggiungere e dal tipo di dati da analizzare. Gli obiettivi possono essere:

  • Previsione e classificazione:
    strumenti che consentono di creare modelli lineari e non, partendo da dati effettivi per poi applicarli a nuovi dati (previsione) o per definire delle classi di appartenenza (classificazione).
  • Clustering (segmentazione):
    si applicano allo scopo di raggruppare gli elementi di un database in gruppi omogenei. Si differenzia dalla classificazione dei modelli predittivi in quanto in essi tali classi non sono predefinite
  • Analisi delle relazioni:
    mediante indici statistici e probabilistici si studiano eventuali associazioni ricorsive che evidenziano particolari abbinamenti, a cui si può aggiungere una variabile temporale, nel qual caso si parla di analisi delle sequenze.

Gli algortimi di clustering e l'uso delle reti neurali non supervisionate consentono di effettuare operazioni di segmentazione sui dati, cioè di individuare gruppi omogenei, o tipologie, che presentano delle regolarità al loro interno in grado di caratterizzarli e differenziarli dagli altri gruppi.

Le reti neurali (supervisionate), gli alberi di decisione e le tecniche di regressione consentono di effettuare operazioni di classificazione e previsione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggetti o prevedere nuovi eventi.

Le tecniche di analisi delle associazioni consentono di individuare delle regole nelle occorrenze concomitanti di due o più eventi.

Il clustering

Per quanto riguarda lo scopo principale dell’analisi dei gruppi, altrimenti detta clustering, si può dire che il suo obiettivo principale è quello di ottenere, dall’insieme di elementi di partenza, raggruppamenti in base alla somiglianza, in modo che gli elementi di uno stesso gruppo siano fra loro il più simili possibile e gli elementi appartenenti a gruppi distinti siano fra loro il più diversi possibile, in modo da ottenere un’alta omogeneità all’interno dei gruppi e un’alta eterogeneità tra gruppi.

I metodi di analisi dei gruppi nel loro complesso permettono di raggiungere differenti fini, quali la scoperta di una reale tipologia, l’adattamento di un modello, la predizione basata sui gruppi, la validazione di ipotesi, l’esplorazione di dati, la proposta di ipotesi ed in fine la riduzione di dati.
Il principio su cui si basano queste tecniche è la costruzione di una matrice delle distanze tra le varie unità statistiche, che vengono raggruppate in insiemi caratterizzati da elementi omogenei tra loro e il più possibile distinti dagli elementi degli altri gruppi.

In generale un metodo di segmentazione è caratterizzato da due fattori:
a) una misura del grado di diversità tra le coppie di unità;
b) un algoritmo con cui procedere alla ricerca dei cluster.

Per poter ottenere dei raggruppamenti è necessario introdurre la nozione di prossimità tra le unità statistiche. Gli indici di prossimità tra coppie di unità statistiche forniscono le informazioni preliminari necessarie per individuare gruppi di unità omogenee.
Quando le variabili considerate sono quantitative, si usano come indici di prossimità le distanze, mentre si ricorre agli indici di similarità nel caso in cui i caratteri siano di tipo qualitativo. Se le variabili sono miste (alcune quantitative, altre qualitative) allora si ricorre a indici di prossimità specifici.

Le diverse combinazioni tra le diverse misure di diversità e i vari algoritmi ha permesso l’introduzione di diversi metodi dei quali sono state proposte diverse classificazioni alcune basate sul tipo di algoritmo adottato dal metodo, altre basate sul tipo di risultato da esso fornito.
La più diffusa è quella, basata sul tipo di algoritmo, che distingue le tecniche più tradizionali tra metodi gerarchici e metodi non gerarchici, a cui si vanno aggiungere altri approcci tra i quali spiccano sicuramente, viste la oramai consolidate applicazioni, le reti neurali auto organizzanti (SOM).

Gli algoritmi gerarchici sono metodi che producono raggruppamenti successivi ordinabili secondo livelli crescenti o decrescenti della distanza (o, viceversa, della similarità). Si tratta di procedura iterative che considerano tutti i livelli di distanza e i gruppi che si ottengono ad un certo livello di distanza sono contenuti nei gruppi ottenuti ad un livello di distanza inferiore. I metodi gerarchici si possono ulteriormente dividere distinguendo tra metodi agglomerativi e scissori.

Dal punto di vista operativo una procedura di cluster analysis gerarchica procede per p osservazione del tipo , k = (1,…,p)
attraverso i seguenti passaggi:

  • Inizializzazione: date p unità statistiche da classificare, ad ogni elemento si associa un gruppo (si hanno quindi g = p cluster).
  • Selezione: vengono selezionati i due cluster più “vicini” (confrontando quindi tutte le possibili combinazioni) rispetto alla misura di prossimità, che può essere una distanza per variabili quantitative oppure una misura di similarità per variabili quantitative.
  • Aggiornamento: vengono uniti i due cluster selezionati al passo (2), il numero di cluster passerà da g a g-1.
  • Ripetizione: si eseguono i passi (2) e (3) p-1 volte in modo che si arriva ad ottenere un unico raggruppamento contenente tutte le unità.

I risultati intermedi di tale processo, ovvero quelli non banali, dipendono dalle caratteristiche della funzione di distanza scelta e dal tipo di criterio di fusione adottato. Il punto (2) risulta quindi essere un trade-off per l’algoritmo, infatti a seconda di come venga stabilito il metodo di selezione si distinguono ulteriori sottocategorie di classificazione:

  • Metodi associativi o di legame: operano su coppie di oggetti; portano all'associazione fra gli oggetti in base alla distanza tra gli stessi.
  • Metodi centroidi: utilizzano il valore minimo della distanza di ciascun oggetto dal centroide di gruppo.
  • Metodi di varianza: utilizzano un criterio basato sulla massimizzazione della variabilità "fra gruppi".

Questi criteri determinano il modo in cui vengono definite le distanza tra le varie unità prima, e al formarsi dei cluster tra unità/cluster e cluster/cluster.

Lo strumento utilizzato: SAS® Enterprise Miner™

Il modulo SAS di Data Mining si pone come obiettivo quello di supportare al meglio lo svolgimento della attività di analisi dei dati presenti nei vari ambiti aziendali. In generale le attività di ‘data mining’ identificano le analisi di grandi moli di dati per rilevare comportamenti non facilmente individuabili e utili ai fini del business.

Enterprise Miner completa le funzionalità già offerte dal software SAS System mediante:

  • una interfaccia utente che elimina la necessità di sviluppare programmi in linguaggio SAS;
  • la disponibilità, oltre al repertorio delle metodologie di analisi di tipo statistico classico, di altri metodi (reti neurali, alberi di classificazione
  • funzionalità di trattamento dei dati prima e dopo la analisi, in modo da coprire tutte le attività di elaborazione che gli analisti di marketing devono effettuare per giungere al risultato, tra cui:
  • l’accesso ai dati,
  • il campionamento,
  • la rimozione degli outlier,
  • la sostituzione dei missing value,
  • la trasformazione dei dati,
  • etc.

Le caratteristiche principali delle funzionalità offerte da Enterprise Miner sono le seguenti:

  • Interfaccia utente
  • Funzionalità di visualizzazione interattiva dei dati
  • Funzionalità di analisi dei dati
    • Clustering
      • Segmentazione
      • Web Customer Profilino
  • Funzionalità di gestione del processo di analisi

|
Regione Piemonte Home Page