Analisi delle Componenti Principali

Il data set work.sav è tratto da un sottoinsieme della ‘NLSY97’ (National Longitudinal Survey of Youth), un’indagine effettuata dall’Ufficio delle Statistiche sul Lavoro (“Bureau of Labor Statistics”) del Department of Labor statunitense. (si veda http://www.bls.gov/nls/nlsy97.htm). Si tratta di un indagine su giovani residenti negli Stati Uniti nati tra il 1980 e il 1984, nella quale si rilevano informazioni soprattutto collegate al comportamento sul mondo del lavoro.  In particolare utilizziamo le variabili rilevate durante interviste condotte nel 1999. Si tratta dunque di intervistati che hanno età comprese tra 15 e 19 anni.

Quesito

Intendiamo individuare la struttura di associazione tra le seguenti variabili:

A tale scopo determiniamo le componenti principali mediante SPSS.

Dal menu Analyse, selezioniamo Data Reduction  e quindi Factor:

Dopo aver selezionato le variabili in esame, nel menu Descriptives/ Correlation Matrix selezioniamo  Coefficients. Nel menu Extraction selezioniamo nel riquadro Method Principal components, nel riquadro Analyse Correlation matrix, nel riquadro Display Unrotated factor solution  e Scree plot e nel riquadro Extract Number of factors indichiamo 2. Nel menu Rotation, selezioniamo Varimax nel riquadro Method e Rotated solution e Loading plot(s) nel riquadro Display.

Analisi dell’output

Considerate le correlazioni tra le tutte le coppie di variabili, di seguito riportate, osserviamo che le correlazioni tra la variabile Wage 99 e ciascuna delle altre variabili sono le più basse.

Come riportato dalla tabella sottostante, solo la prima componente principale ha varianza maggiore di 1 e spiega il 66% della varianza totale, mentre le prime due componenti spiegano assieme l’84% della varianza totale.

Considerate allora le prime due componenti principali, valutiamo la correlazione tra le singole variabili e le componenti principali.

La prima componente principale ha una alta correlazione con variabili Weeks 99, Jobs 99 e Hours 99,  mentre la correlazione con Wages 99 è la più bassa. La seconda componente è correlata principalmente con Wages 99 e ha una correlazione molto bassa con Jobs 99. La prima componente si può interpretare come rappresentativa dell’ammontare di lavoro svolto e la seconda come rappresentativa del reddito.