Dati Validi per analisi accurate
I ricercatori devono preparare i propri dati prima di
effettuarne l’analisi. Anche se IBM SPSS Statistics include strumenti per la
preparazione dei dati, a volte è neessario utilizzare tecniche specializzate
per ottenere dati pronti per l’analisi. IBM SPSS Data Preparation vi permette
di identificare valori anomali oppure non validi, per un insieme di variabili o
per l’intero dataset. In questo modo, potete determinare la validità del
fenomeno studiato e rimuovere o correggere anomalie per rendere le vostre
analisi ancora più accurate e veritiere.
IBM SPSS Data Preparation è disponibile per installazione client ma, per una miglior
performance e scalabilità, è disponibile anche una versione server.
Preparare i dati in un unico passaggio, automaticamente
Per validare manualmente i dati, solitamente, si
produce una tabella di frequenza di una o più variabili, si modificano i valori
anomali e poi si produce nuovamente la tabella di frequenza delle stesse
variabili per verificare se la correzione copre tutte le anomalie. Come si può
intuire, è un processo lungo e laborioso, inoltre ciascun analista potrebbe
condurlo a proprio modo, modificando l’approccio a seconda del progetto. IBM
SPSS Data Preparation vi consente, invece, di gestire l’intero processo di
validazione: dalla standardizzazione dei metodi di selezione delle anomalie
alla verifica pre-analisi della conformità dei dati, tutto in un unico
passaggio.
Accuratezza dei dati
Il processo di validazione dei dati vi permette di applicare regole di convalida basate sulla scala di misurazione di ciascuna
variabile (categoriale o continua). Per esempio, se la vostra analisi si basa
su dati raccolti in fase di indagine, con domande su scala di Likert a 5
livelli, potete utilizzare la procedura “Validate Data” per contrassegnare i
casi che hanno dei valori al di fuori dell’intervallo 1-5. Il nuovo modulo vi
permette di ottenere, oltre ai resoconti dei dati anomali in formato tabella,
un grafico corredato dall’analisi riassuntiva delle regole violate e il numero
dei casi ad esse sottostanti. Con IBM SPSS Data Preparation potete gestire la
validazione sia di singole variabili (come controlli su intervalli di
risposte/valori validi) sia di variabili congiunte (esempio “minorenni con
patente auto”). Le vostre statistiche non saranno mai più imprecise o
inconcludenti!
Valori anomali ed estremi nelle analisi
multivariate
I dati multidimensionali estremi oppure anomali non
saranno più un problema: la procedura di validazione individua i valori anomali
sulla base dello scostamento da dati simili e fornisce la motivazione su base
numerica di tale deviazione. Una volta individuati, tali valori potranno essere
contrassegnati e successivamente gestiti.
Procedura Optimal Binning
Per utilizzare algoritmi che utilizzano variabili nominali (come il Naïve Bayes e i
modelli logit), è necessario suddividere le variabili prima di costruire il
modello. Se le variabili non vengono suddivise, algoritmi come la regressione
logistica multinomiale potrebbero essere molto lenti o inefficaci, soprattutto
con grandi dataset. Inoltre, i risultati ottenuti potrebbero essere difficili
da leggere e da interpretare. La procedura di suddivisione ottimale permette di
imporre dei cutpoints per le variabili continue per ottenere i risultati
migliori con gli algoritmi per variabili nominali.
Con questa procedura sono disponibili tre tipologie di suddivisione ottimale:
- non-supervisionata, con algoritmo delle pari frequenze
- per determinare i cutpoints. Questo metodo è più accurato della non-supervisionata, ma l’elaborazione è più pesante
- approccio ibrido tra le due precedenti. Questo metodo è particolarmente utile in caso di numerosi valori distinti.
È ora possibile riutilizzare e condividere efficacemente gli asset analitici, proteggerli secondo requisiti
interni o esterni, e pubblicare i risultati in modo che siano accessibili ad un maggior numero di utenti aziendali, aggiungendo a IBM SPSS Statistics la
piattaforma IBM SPSS Collaboration and Deployment Services (finora chiamati SPSS Predictive Enterprise Services). Maggiori informazioni sono disponibili su
www.spss.com/software/deployment/cds.
Ogni modulo della famiglia IBM SPSS Statistics potrà essere installato e lanciato
indipendentemente dagli altri moduli. IBM SPSS Statistics Base non è più un
requisito necessario, poiché le funzioni come accesso e gestione dei dati e i
grafici sono stati aggiunti a tutti i moduli, dando maggiore flessibilità
nell’installazione e utilizzo del software. IBM SPSS Statistics Base sarà
ancora disponibile e continuerà ad essere la base di molte implementazioni,
poiché contiene test statistici e procedure fondamentali per molte analisi.