Software per le analisi statistiche

Per effettuare delle analisi statistiche occorre scegliere un software:

Un ottimo punto di partenza (in lingua inglese) per il software statistico è la lista di Statistical Computing Resources di UCLA (University of California at Los Angeles). Si veda anche il Journal of Statistical Software.

Lettura e importazione dei dati

Partiamo dall’ultimo punto, la lettura dei dati da analizzare. A meno che non li si immetta manualmente (ad esempio quando le informazioni di partenza sono disponibili solo su supporto cartaceo), i dati saranno inevitabilmente in un formato diverso da quello che viene letto dal software che vogliamo utilizzare.

Se questo è il problema, due sono le soluzioni possibili:



Software commerciale

Gli altri due punti sollevati all’inizio sono relativi all’accessibilità e all’effettiva utilizzabilità del software.

Alcuni pacchetti sono molto specializzati (tipicamente per modelli complessi). Non ce ne occupiamo in dettaglio qui, trattiamo invece dei pacchetti generali

Tre pacchetti principali: SPSS, SAS, STATA (più EViews e MATLAB)

SPSS

SPSS (Statistical Package for the Social Sciences nella definizione iniziale) è un pacchetto a larga diffusione soprattutto in ambito aziendale e di ricerca sociale. Per questo abbiamo deciso di utilizzarlo per alcune analisi di esempio.

SPSS è basato su finestre, ed è quindi semplice da utilizzare a prima vista. Ha però l’importante vantaggio di unire all’interfaccia per finestre la possibilità di scrivere in automatico e poi modificare la sintassi relativa ad uno specifico comando scelto via menu (bottone “paste”). E’ infatti particolarmente importante avere a disposizione la sintassi per ricostruire ciò che si è fatto o replicare analisi!

SPSS è di solito il pacchetto di “entry-level” per l’analisi dei dati

Vantaggi principali: larghissima diffusione anche se è un pacchetto commerciale, semplicità d’uso se non si esce dal seminato, diversi corsi e volumi lo usano/illustrano

Svantaggi: capacità di analisi talvolta limitate rispetto agli altri pacchetti.

SAS

SAS (Statistical Analysis System) è un pacchetto di analisi dei dati decisamente completo, e inizialmente e meno “user-friendly” rispetto ad SPSS. E’ comunque un pacchetto di analisi statistica a grande diffusione. Lo schema a finestre ‘tipico’ dei pacchetti statistici basati sulla sintassi, anche se permette di condurre analisi guidate dal menu.

Vantaggi: diffusione ampia in ambito accademico e in grandi aziende, capacità di lavoro efficiente con dataset molto grandi, procedure di analisi statistica complete, possibilità di implementare procedure proprie.

Svantaggi: occorre investire più tempo rispetto ad SPSS per iniziare ad usarlo, costo elevato

STATA

STATA  è un pacchetto particolarmente diffuso negli ambiti di ricerca economica e medica. E’ principalmente basato su sintassi, anche se esiste la possibilità di utilizzare

STATA contempla la possibilità di utilizzare un numero elevatissimo di modelli e procedure statistici, e prevede inoltre la possibilità che si sviluppino moduli che poi terzi possono istallare. Spesso dunque i programmi addizionali con nuove istruzioni Stata vengono distribuiti gratuitamente

Vantaggi: pacchetto molto diffuso nelle facoltà di economia, sintassi molto semplice per analisi standard, costo relativamente basso per essere commerciale

Svantaggi: è poco diffuso in azienda, comunque è un pacchetto commerciale

MATLAB

MATLAB (MATrix LABoratory) è utile quando si desiderano implementare soluzioni metodologiche nuove, come piattaforma di programmazione, o come pacchetto per l’analisi statistica (dispone di uno Statistics Toolbox). MATLAB opera prevalentemente attraverso la sintassi

Vantaggi: pacchetto standard per le tecnologie avanzate (es. facoltà di ingegneria), un’infinità di moduli

Svantaggi: costi elevati, difficoltà di ingresso, scarsa diffusione in azienda non tecnologia e tra economisti

EViews

EVIEWS (Econometric Views) è usato spesso nei corsi di econometria. E’ un pacchetto completo per l’econometria (non copre tutta la modellistica di analisi dei dati) basato su finestre (oggetti). Non viene sostanzialmente usato al di fuori dell’econometria

Software di pubblico dominio

Inevitabile dire che anche nel pubblico dominio esiste un numero grandissimo di pacchetti

Vediamone alcuni esempi: R, OpenStat, EasyReg International. Una lista lunga, e commentata, di pacchetti di pubblico dominio è mantenuta da John C. Pezzullo presso http://members.aol.com/johnp71/javasta2.html.

R

R è un pacchetto open source destinato all’analisi statistica, sviluppato sostanzialmente da statistici di professione che vi dedicano importanti risorse (“R Project”). La sintassi di R riprende il linguaggio S (implementato nel pacchetto commerciale S-Plus)

La struttura di R è quella classica dei pacchetti statistici a finestre (sintassi, output/log, grafici, dati), con un livello eccezionale per la grafica (anche se non ‘user-friendly’). Esistono poi diversi progetti collegati a R per scopi più specifici.

Esiste addirittura “RWeb”, un’interfaccia web che permette di lanciare programmi in R dal browser senza averlo istallato sul PC (http://bayes.math.montana.edu/Rweb/)

Vantaggi: gratuito, implementa un numero elevatissimo di procedure statistiche (anche grazie ai contributi degli utilizzatori)

Svantaggi: impatto non user-friendly

OpenStat

OpenStat è stato scritto da Bill Miller a scopi didattici. Il pacchetto si scarica e si istalla facilmente presso ed è fornito di documentazione abbondante. Il grande vantaggio di OpenStat è l’interfaccia: si tratta sostanzialmente di una copia dell’interfaccia di SPSS a menù.

Vantaggi: uso di un pacchetto con interfaccia simile a SPSS, completamente gratuito

Svantaggi: non legge direttamente i dati in formato SPSS, né la sintassi (manca in generale la possibilità di usare la sintassi)

EasyReg International

EasyReg International, scritto da Herman J. Bierens (Penn State) è un pacchetto molto semplice da usare orientato all’analisi dei dati, soprattutto per applicazioni econometriche

Vantaggi: gratuito, aggiornato nell’ambito della modellistica econometrica, facile da usare

Svantaggi: non funziona con un numero di osservazioni elevato (maggiore di 32767), modelli non econometrici poco trattati, manca la possibilità di agire per sintassi

Webstat

WebStat è un software freeware di analisi dei dati compilato in java che funziona on line, direttamente via Web con qualsiasi browser. Le sue funzionalità sono specifiche per l´analisi dei dati e il suo funzionamento molto semplice e intuitivo è stato pensato per coloro che si avvicinano alla statistica per la prima volta.

Webstat contiene tutti gli strumenti di base per l´analisi statistica, è facile da usare, adatto ai principianti, è dotato di una guida dettagliata nelle procedure di analisi dei dati, consente ampie possibilità di importazione dei dati, anche direttamente da pagine web. Salva e stampa i risultati direttamente dal browser.

Macro Excel Statistica 4038

Statistica 4038 è un una macro di Microsoft Excel utilizzabile come supporto nell’ambito del corso introduttivo di Statistica dell’Università Bocconi, creata da Sergio Venturini e Maurizio Poli. Permette di costruire distribuzioni di frequenze e tabelle a doppia entrata a partire da osservazioni su uno o due caratteri, effettuare rappresentazioni grafiche (istogramma, box plot, diagramma a bolle).

Il manuale di Statistica 4038 è accessibile qui, mentre la macro può essere scaricata qui.