Letteralmente significa scavare nei dati, estrarre informazioni:
Data: Dati, Informazione
Mining (to mine): Scavare, Estrarre
Con esso si intende l'applicazione di una o più tecniche che consentono l'esplorazione di grandi quantità di dati, con l'obiettivo di individuare le informazioni più significative e di renderle disponibili e direttamente utilizzabili nell'ambito del decision making.
L'estrazione di conoscenza (informazioni significative) avviene tramite individuazione delle associazioni, o "patterns", o sequenze ripetute, o regolarità, nascoste nei dati. In questo contesto un "pattern" indica una struttura, un modello, o, in generale, una rappresentazione sintetica dei dati.
Si possono distinguere due approcci di analisi, ovvero l’analisi non supervisionata (bottom up, esplorativa) e l’analisi supervisionata (top down, confermativa). Queste si differenziano per le conoscenze che si hanno del fenomeno, generiche nel primo caso e più mirate nel secondo.
A livello pratico, un’analisi esplorativa considera le variabili di analisi sullo stesso piano, mentre per uno studio supervisionato si riprendono i modelli inferenziali che considera variabili esplicative, esogene, e variabili risposta, endogene.
Le tecniche utilizzabili sono varie e, di conseguenza, anche gli algoritmi che le implementano. La scelta dipende principalmente dello scopo che si vuole raggiungere e dal tipo di dati da analizzare. Gli obiettivi possono essere:
Gli algortimi di clustering e l'uso delle reti neurali non supervisionate consentono di effettuare operazioni di segmentazione sui dati, cioè di individuare gruppi omogenei, o tipologie, che presentano delle regolarità al loro interno in grado di caratterizzarli e differenziarli dagli altri gruppi.
Le reti neurali (supervisionate), gli alberi di decisione e le tecniche di regressione consentono di effettuare operazioni di classificazione e previsione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggetti o prevedere nuovi eventi.
Le tecniche di analisi delle associazioni consentono di individuare delle regole nelle occorrenze concomitanti di due o più eventi.
Per quanto riguarda lo scopo principale dell’analisi dei gruppi, altrimenti detta clustering, si può dire che il suo obiettivo principale è quello di ottenere, dall’insieme di elementi di partenza, raggruppamenti in base alla somiglianza, in modo che gli elementi di uno stesso gruppo siano fra loro il più simili possibile e gli elementi appartenenti a gruppi distinti siano fra loro il più diversi possibile, in modo da ottenere un’alta omogeneità all’interno dei gruppi e un’alta eterogeneità tra gruppi.
I metodi di analisi dei gruppi nel loro complesso permettono di raggiungere differenti fini, quali la scoperta di una reale tipologia, l’adattamento di un modello, la predizione basata sui gruppi, la validazione di ipotesi, l’esplorazione di dati, la proposta di ipotesi ed in fine la riduzione di dati.
Il principio su cui si basano queste tecniche è la costruzione di una matrice delle distanze tra le varie unità statistiche, che vengono raggruppate in insiemi caratterizzati da elementi omogenei tra loro e il più possibile distinti dagli elementi degli altri gruppi.
In generale un metodo di segmentazione è caratterizzato da due fattori:
a) una misura del grado di diversità tra le coppie di unità;
b) un algoritmo con cui procedere alla ricerca dei cluster.
Per poter ottenere dei raggruppamenti è necessario introdurre la nozione di prossimità tra le unità statistiche. Gli indici di prossimità tra coppie di unità statistiche forniscono le informazioni preliminari necessarie per individuare gruppi di unità omogenee.
Quando le variabili considerate sono quantitative, si usano come indici di prossimità le distanze, mentre si ricorre agli indici di similarità nel caso in cui i caratteri siano di tipo qualitativo. Se le variabili sono miste (alcune quantitative, altre qualitative) allora si ricorre a indici di prossimità specifici.
Le diverse combinazioni tra le diverse misure di diversità e i vari algoritmi ha permesso l’introduzione di diversi metodi dei quali sono state proposte diverse classificazioni alcune basate sul tipo di algoritmo adottato dal metodo, altre basate sul tipo di risultato da esso fornito.
La più diffusa è quella, basata sul tipo di algoritmo, che distingue le tecniche più tradizionali tra metodi gerarchici e metodi non gerarchici, a cui si vanno aggiungere altri approcci tra i quali spiccano sicuramente, viste la oramai consolidate applicazioni, le reti neurali auto organizzanti (SOM).
Gli algoritmi gerarchici sono metodi che producono raggruppamenti successivi ordinabili secondo livelli crescenti o decrescenti della distanza (o, viceversa, della similarità). Si tratta di procedura iterative che considerano tutti i livelli di distanza e i gruppi che si ottengono ad un certo livello di distanza sono contenuti nei gruppi ottenuti ad un livello di distanza inferiore. I metodi gerarchici si possono ulteriormente dividere distinguendo tra metodi agglomerativi e scissori.
Dal punto di vista operativo una procedura di cluster analysis gerarchica procede per p osservazione del tipo , k = (1,…,p)
attraverso i seguenti passaggi:
I risultati intermedi di tale processo, ovvero quelli non banali, dipendono dalle caratteristiche della funzione di distanza scelta e dal tipo di criterio di fusione adottato. Il punto (2) risulta quindi essere un trade-off per l’algoritmo, infatti a seconda di come venga stabilito il metodo di selezione si distinguono ulteriori sottocategorie di classificazione:
Questi criteri determinano il modo in cui vengono definite le distanza tra le varie unità prima, e al formarsi dei cluster tra unità/cluster e cluster/cluster.
Il modulo SAS di Data Mining si pone come obiettivo quello di supportare al meglio lo svolgimento della attività di analisi dei dati presenti nei vari ambiti aziendali. In generale le attività di ‘data mining’ identificano le analisi di grandi moli di dati per rilevare comportamenti non facilmente individuabili e utili ai fini del business.
Enterprise Miner completa le funzionalità già offerte dal software SAS System mediante:
Le caratteristiche principali delle funzionalità offerte da Enterprise Miner sono le seguenti: