SPSS® Data PreparationTM 19 - Specifiche
Dati validi per analisi accurate
I ricercatori devono preparare i propri dati prima di effettuarne l'analisi. Anche se SPSS Statistics include strumenti per la preparazione dei dati, a volte è neessario utilizzare tecniche specializzate per ottenere dati pronti per l'analisi. SPSS Data Preparation vi permette di identificare valori anomali oppure non validi, per un insieme di variabili o per l'intero dataset. In questo modo, potete determinare la validità del fenomeno studiato e rimuovere o correggere anomalie per rendere le vostre analisi ancora più accurate e veritiere.
SPSS Data Preparation è disponibile per installazione client ma, per una miglior performance e scalabilità, è disponibile anche una versione server.
Scegliete tra diverse opzioni per la preparazione dei dati
Procedura Convalida dati
Per validare manualmente i dati, solitamente, si produce una tabella di frequenza di una o più variabili, si modificano i valori anomali e poi si produce nuovamente la tabella di frequenza delle stesse variabili per verificare se la correzione copre tutte le anomalie. Come si può intuire, è un processo lungo e laborioso, inoltre ciascun analista potrebbe condurlo a proprio modo, modificando l'approccio a seconda del progetto. SPSS Data Preparation vi consente, invece, di gestire l'intero processo di validazione: dalla standardizzazione dei metodi di selezione delle anomalie alla verifica pre-analisi della conformità dei dati, tutto in un unico passaggio.
Il processo di validazione dei dati vi permette di applicare regole di convalida basate sulla scala di misurazione di ciascuna variabile (categoriale o continua). Per esempio, se la vostra analisi si basa su dati raccolti in fase di indagine, con domande su scala di Likert a 5 livelli, potete utilizzare la procedura "Validate Data" per contrassegnare i casi che hanno dei valori al di fuori dell'intervallo 1-5. Il nuovo modulo vi permette di ottenere, oltre ai resoconti dei dati anomali in formato tabella, un grafico corredato dall'analisi riassuntiva delle regole violate e il numero dei casi ad esse sottostanti. Con SPSS Data Preparation potete gestire la validazione sia di singole variabili (come controlli su intervalli di risposte/valori validi) sia di variabili congiunte (esempio "minorenni con patente auto"). Le vostre statistiche non saranno mai più imprecise o inconcludenti!
Preparate di dati in un singolo step, automaticamente
La preparazione dei dati manuale è un processo complesso che può portare via dal 40 al 90 percento del tempo di un analista su un progetto. Quando si ha la necessità di ottenere risultati velocemente, la procedura Automated Data Preparation (ADP) aiuta ad individuare e correggere errori e valori mancanti in un solo step. La procedura ADP fornisce un semplice report con raccomandazioni e visualizzazioni che vi aiuteranno a determinare quali dati utilizzare nell'analisi.
Procedura di validazione dei valori anomali
I dati multidimensionali estremi oppure anomali non saranno più un problema: la procedura di validazione individua i valori anomali sulla base dello scostamento da dati simili e fornisce la motivazione su base numerica di tale deviazione. Una volta individuati, tali valori potranno essere contrassegnati e successivamente gestiti.
Procedura Optimal Binning
Per utilizzare algoritmi che utilizzano variabili nominali (come il Naïve Bayes e i modelli logit), è necessario suddividere le variabili prima di costruire il modello. Se le variabili non vengono suddivise, algoritmi come la regressione logistica multinomiale potrebbero essere molto lenti o inefficaci, soprattutto con grandi dataset. Inoltre, i risultati ottenuti potrebbero essere difficili da leggere e da interpretare. La procedura di suddivisione ottimale permette di imporre dei cutpoints per le variabili continue per ottenere i risultati migliori con gli algoritmi per variabili nominali.
Con questa procedura sono disponibili tre tipologie di suddivisione ottimale:
- non-supervisionata, con algoritmo delle pari frequenze
- supervisionata, che tiene conto della variabile oggetto di studio per determinare i cutpoints. Questo metodo è più accurato della non-supervisionata, ma l'elaborazione è più pesante
- approccio ibrido tra le due precedenti. Questo metodo è particolarmente utile in caso di numerosi valori distinti.
È ora possibile riutilizzare e condividere efficacemente gli asset analitici, proteggerli secondo requisiti interni o esterni, e pubblicare i risultati in modo che siano accessibili ad un maggior numero di utenti aziendali, aggiungendo a SPSS Statistics la piattaforma SPSS Collaboration and Deployment Services (finora chiamati SPSS Predictive Enterprise Services).