Analisi discriminante

Esercizio 2

Il data set car.sav contiene dati raccolti su 402 autovetture in relazione alle seguenti variabili:

Quesito

La popolazione delle autovetture è ripartita in due sottopopolazioni  in base alla variabile origin. Si è interessati a tracciare le differenze tra le autovetture prodotte in America e quelle prodotte in altri paesi del mondo in relazione alle variabili prese in considerazione.

A tale scopo implementiamo un’ Analisi Discriminante in SPSS.

Dal menu Analyse, selezioniamo Classify e quindi Discriminant:

Selezioniamo come Grouping variable Origin, che assume valore 0 se la auto non è americana e 1 se la auto è americana. Indichiamo quindi 0 e 1 rispettivamente come minimo e massimo all’interno del menu Define Range.

Selezioniamo come Independents le variabili: mpg, engine, horse, weight, accel, cylinder.

Dal menu Statistics selezioniamo le statistiche descrittive, Descriptives e i coefficienti della funzione discriminante, Fisher’s Coefficients.

Dal menu Classify, selezioniamo Summary Table.

Analisi dell’output

L’output che si apre con le statistiche descrittive (medie e scarti quadratici) delle variabili selezionate.

In media il numero di miglia percorse per gallone e il tempo di accelerazione sono maggiori per le auto non americane, la cilindrata, i cavalli, il numero di cilindri e il peso sono maggiori per le auto americane.

Sulla base dell’Anova condotta sulle singole variabili (nella tabella di seguito si riportano i risultati) possiamo concludere che tutte le variabili in esame presentano delle differenze significative nelle due popolazioni.

Costruiamo la funzione discriminante di Fisher sulla base delle variabili prese in considerazione. Le due tabelle di seguito riportano rispettivamente i coefficienti standardizzati e le correlazioni tra le singole variabili e la funzione discriminante.


In particolare la structure matrix evidenzia una contrapposizione tra la cilindrata, il numero di cilindri, il peso e i cavalli vapore (correlati negativamente) e le miglia per galloni e il tempo di accelerazione (correlati positivamente).

Di seguito riportiamo gli istogrammi dei punteggi discriminanti per le due popolazioni delle auto americane e delle auto prodotte nel resto del mondo


I punteggi delle autovetture non americane sono tutti positivi mentre più del 50% dei punteggi delle autovetture americane sono negativi.

I risultati della classificazione operata dalla funzione discriminante utilizzata sono riportati nella tabella di seguito. Circa l’82% delle auto è classificato correttamente.