Il dataset tab1a041.sav (http://ostpxweb.ost.dot.gov/aviation/index.html) contiene dati rilevati su 2143 tratte aeree statunitensi nel 2001 in relazione alle seguenti variabili

Intendiamo studiare le determinanti della tariffa aerea media nel mercato in considerazione.

Analisi Esplorativa

Cominciamo con un’analisi esplorativa dei dati volta ad individuare la struttura di associazione tra alcune delle variabili analizzate. A tale scopo, determiniamo le componenti principali delle variabili: Distance, Passeng, Fare, Fare_lg, Fare_low.

Dall’osservazione dello Scree plot, riportato di seguito, selezioniamo le prime due componenti.

Di seguito riportiamo la tabella dei pesi non ruotati e ruotati delle componenti.


Il primo fattore individua la struttura tariffaria del mercato, con pesi elevati sulle variabili Fare, Fare_LG e Fare_Low. Il secondo fattore individua le altre componenti del mercato, quali le miglia percorse (Distance) e il numero di passeggeri (Passenge). Le due componenti spiegano complessivamente circa l’80% della varianza totale.

Analisi di regressione

Al fine di individuare le variabili determinanti delle tariffa media ricorriamo ad un’analisi di regressione, assumendo come variabile dipendente la variabile Fare.

Consideriamo l’istogramma della variabile Fare, riportato di seguito.

La variabile presenta una distribuzione leggermente asimmetrica. Ai fini dell’applicazione di un modello di regressione, tale asimmetria potrebbe risultare problematica, in quanto potrebbe determinare la violazione dell’assunzione di normalità della variabile dipendente. Proviamo a trasformare la variabile calcolandone il logaritmo.

Di seguito si riportano l’istogramma della variabile logfare, trasformazione logaritmica della variabile Fare, e la tabella con i risultati di un test di adattamento Kolmogorov-Smirnov alla medesima.

La distribuzione della variabile Logfare è decisamente più simmetrica e in base al test non rifiutiamo l’ipotesi di una distribuzione normale della variabile.

Assumiamo allora come variabile dipendente della nostra analisi di regressione la variabile Logfare. Cominciamo con il considerare quali variabili esplicative le variabili

Distance, Passenge, Large_ms If_ms. L’ipotesi sottostante è che la tariffa media sia influenzata non solo dalla distanza e dal numero di passeggeri, ma anche dal livello di concorrenza o monopolio riscontrabile nel mercato.

Di seguito si riportano alcune statistiche di sintesi delle variabili in considerazione.

Per rendere più agevole l’interpretazione dei risultati, trasformiamo le variabili esplicative, dividendole per 1000. Regrediamo quindi la variabile logfare sulle variabili esplicative considerate così modificate.

Cominciamo con il considerare la tabella con le stime dei coefficienti.

Osserviamo come, contrariamente a quanto atteso, per il mercato in considerazione, le variabili Large_mod e Lf_mod a confronto delle altre risultino meno significative ai fini della determinazione della tariffa media. Mostrano per altro una correlazione parziale con la variabile dipendente molto bassa.

Ristiamo il modello di regressione, escludendo le variabili Large_ms e If_ms.

In base alle tabelle riassuntive, il modello stimato risulta significativo, con un coefficiente di determinazione R quadro aggiustato pari a 0.216.

Venendo ai coefficienti, dalla tabella sottostante, osserviamo che la stima del coefficiente della variabile Dist_mod è positiva e la stima del coefficiente della variabile Pass_mod negativa. Più precisamente a fronte di 1000 passeggeri in più, quando sono mantenuti inalterati i valori delle altre variabili, ci si aspetta una riduzione della tariffa media di circa il 22%. Analogamente a fronte di un aumento della distanza di 1000 miglia, ci si aspetta, mantenendo inalterati i valori delle altre variabili, un aumento della tariffa media di circa il 25%.

Riportiamo infine l’istogramma dei residui standardizzati e il P-P plot degli stessi.

L’ipotesi di normalità dei residui è soddisfatta.

A conclusione, possiamo domandarci se e in quale maniera la tariffa media sia influenzata dal quadrato della variabile Dist_mod, indicato di seguito come Dist2.

Inseriamo tra le variabili esplicative, la variabile Dist2. Di seguito riportiamo la tabella delle stime dei coefficienti

.

Osserviamo che la variabile Dist2 presenta una correlazione parziale negativa con la variabile dipendente. La stima del coefficiente di Dist2 è negativa, pari a -0.0089. Il costo marginale della distanza (che determina un aumento della tariffa) decresce al crescere della distanza stessa.