L'attività è stata finalizzata all'analisi dei dati del 5° Censimento Generale dell’Agricoltura relativi alla Regione Piemonte (circa 120 mila aziende) sfruttando tecniche di Data Mining, particolarmente adatte allo studio di grandi moli di dati.
Il Data Mining è un processo di esplorazione e analisi con mezzi automatici, o semi automatici, di grosse quantità di dati con lo scopo di scoprire pattern significativi e regole. Si è valutata quindi l'opportunità di utilizzare tali tecniche per creare nuova conoscenza a partire dal patrimonio informativo disponibile. In particolare, l'analisi si è focalizzata sulle caratteristiche delle singole aziende agricole con lo scopo di evidenziare omogeneità o difformità.
L'universo di riferimento dei dati è stato il Datawarehouse del 5° Censimento della Regione Piemonte: i suoi dati sono stati opportunamente riorganizzati ed integrati e in base alle prime analisi si è considerato un sottoinsieme delle variabili per frequenza ed importanza.
Una volta riorganizzata la base dati, a questa sono stati applicati differenti modelli di clustering (quali Aggregativi, K-medie, Mappe di Kohonen). La Clustering Analysis permette la formazione di gruppi o classi, chiamati Cluster, tali che i membri di ogni classe condividano caratteristiche rilevanti. L’analisi, in base al confronto tra diversi indici statistici che indicano la bontà della segmentazione e le considerazioni di esperti della materia, ha portato a definire quindi delle classi o gruppi di aziende aventi al loro interno caratteristiche simili.
In particolare sono state condotte 3 indagini:
Le analisi sono state realizzate utilizzando strumenti specialistici (SAS Enterprise Miner) per l’applicazione dei modelli statistici.