Analisi Istituto Digis: rilevamenti PDL 2008 e 2009

Analisi Istituto Digis: rilevamenti PDL 2008 e 2009
In questo nostro recente articolo abbiamo presentato un’analisi di massima sull’andamento degli Istituti di sondaggi relativi alle Elezioni Politiche Nazionali 2008 ed Elezioni Europee 2009. Abbiamo indicato quali siano stati gli errori medi di ogni Istituto in riferimento ai dati reali delle POL08 (abbreviazione per Elezioni Politiche Nazionali 2008). Abbiamo altresì anche presentato un’analisi di interpolazione polinomiale degli errori delle serie storiche delle POL08, con l’obiettivo di trovare l’evoluzione dell’errore medio di ogni Istituto.
In un nostro commento abbiamo tuttavia messo in evidenza come alcuni Istituti presentino andamenti discordanti, fortemente dipendenti dal momento di rilevazione del sondaggio: alcuni Istituti infatti  sembrano sottostimare o sovrastimare taluni partiti apparentemente in modo non lineare.
In questo nostro nuovo articolo presentiamo uno studio dell’Istituto Digis, il quale ha effettuato 6 rilevamenti nel 2008 e 9 nel 2009.
Trattiamo il caso del PDL per dare un’idea di massima di come questo istituto abbia lavorato nel 2008 in previsione delle prossime elezioni Europee. Lo stesso tipo di analisi può essere effettuata per qualunque altro Istituto/partito.
Nel 2008 Digis effettuò 6 rilevamenti. Per il PDL si leggono i seguenti valori
24/02/2008  DIGIS  38,2 0,02139
01/03/2008  DIGIS  40,3 0,07754
09/03/2008  DIGIS  41,1 0,09893
16/03/2008  DIGIS  40,4 0,080214
21/03/2008  DIGIS  41 0,096257
27/03/2008  DIGIS  40,4 0,080214

 

Nella prima colonna la data di rilevamento, nella terza il valore per il PDL e nella quarta colonna la dispersione dal dato finale (37,4%). Si evince subito che
1. Digis sovrastimò sempre il PDL tra il 2,1% ed il 9,8%
2. la prima rilevazione Digis  fu la più vicina al voto finale, mentre nel corso dei successivi sondaggi sovrastimò sempre oltre il 7,7%, con un andamento a dorso di cammello, come possiamo notare dal grafico sottostante
In questa immagine abbiamo evidenziato tre tipi di interpolazioni al 5% di confidenza:
1. polinomiale Montecarlo
2. somma di due funzioni sinusoidali
3. smoothing (ovvero di massima verosimiglianza con la forma reale)
4. polinomiale del V ordine (polinomi con grado inferiore davano R^2 più bassi. Polinomi con grado più alto hanno bisogno invece di molti più dati da interpolare).
Poichè si è tenuto conto del primo punto (rilevazione del 24/02/2008), le interpolazioni tendono a decadere dopo il sesto punto, tendendo verso zero. L’andamento a dorso di cammello lo prevede senza possibilità di fuga. Chiaro che in questo tipo di interpolazioni si presume che l’andamento al punto successivo sia in linea con quelli precedenti. Nel caso in cui ciò non fosse vero allora l’Istituto si discosterebbe dalla verosimiglianza del test e tutta l’analisi risulterebbe essere una “caccia al buio stile Nostradamus”. Statisticamente quindi dobbiamo pensare che il punto successivo si collochi, entro i margini di errore del test, sulla curva di interpolazione.
Seguendo queste 4 interpolazioni, la proiezione per i prossimi 2 rilevamenti risulta essere

 

Interpolazione Proiezione 1 Proiezione 2
poly MC 0,032086 -0,04813
Sum Sin 0,021968 0,006199
Smooth 0,065799 0,11283
Poly5 -0,3984 -2,3556

Per proiezioni qui intendiamo la possibilità che il punto successivo all’ultimo presente nella figura corrisponda al dato finale delle EUR09.

(per continuare la lettura cliccare su “2”)

L’interpolazione al quinto grado fa emergere una proiezione troppo discordante (tale funzione tende a meno infinito troppo velocemente rispetto alle altre, e quindi produce una sottostima troppo elevata per il PDL) e perciò la tralasciamo. Dimostrazione lampante di come l’analisi di R^2 in questo tipo di studi è condizione necessaria ma non sufficiente affinchè un’interpolazione sia corretta.
Utilizzando le prime 3 funzioni test, applichiamo ai valori percentuali che Digis assegna nel 2009 al PDL per le EUR09 ed otteniamo i seguenti valori
Valore di previsione dispersione
Data Sondaggio  Valore Digis  0,032086 0,021968 0,065799 -0,04813 0,006199 0,11283
23/02/2009 39,7 38,466 38,847 37,249 41,707 39,455 35,675
02/03/2009 39,5 38,272 38,651 37,061 41,497 39,257 35,495
16/03/2009 39,7 38,466 38,847 37,249 41,707 39,455 35,675
23/03/2009 39,5 38,272 38,651 37,061 41,497 39,257 35,495
10/04/2009 40,5 39,241 39,629 38 42,548 40,251 36,394
18/04/2009 40 38,756 39,14 37,531 42,022 39,754 35,944
27/04/2009 39,8 38,563 38,944 37,343 41,812 39,555 35,765
02/05/2009 40,2 38,95 39,336 37,718 42,233 39,952 36,124
11/05/2009 40,2 38,95 39,336 37,718 42,233 39,952 36,124
Nella seconda colonna il dato di Digis nei sondaggi per le EUR09. Nelle successive colonne, i valori ricalibrati secondo i dati provenienti dalle interpolazioni precedenti. Quindi, sono i valori veri che Digis sta al momento campionando presupponendo che l’errore commesso oggi sia in linea con quello del 2008.
Considerando la media del rilevamento di Digis per il PDL nel 2009, pari a 39,9%, (con una deviazione standard molto bassa, pari a 0,3464)  applichiamo nuovamente i 6 valori di dispersione precedenti ed otteniamo
Proiezione 1 Proiezione 2
poly MC 38,66 41,917
Sum Sin 39,042 39,654
Smooth 37,437 35,855

 

Vorremmo spendere due parole sul valor medio di Digis per il PDL: nel 2008, Digis mostrò una rilevazione media per il PDL pari a 40,23% ed una deviazione standard pari a 1,052. Nel 2009 invece Digis da una rilevazione media di 39,9%, quindi molto simile al 2008, ma con una deviazione standard nettamente più bassa, 0,3464. Poichè la deviazione standard indica il grado di dispersione dal valor medio, possiamo affermare che nel 2009 Digis dimostra di essere molto più stabile, con debolissime variazioni. Questo può essere considerato un indicatore di accuratezza o almeno di consistenza maggiore nel campionamento.
Se invece escludiamo la priva rilevazione del 24/02/2008, l’evoluzione di errore di Digis appare più simile ad una funzione sinusoidale. Infatti, come si evince dalla prossima interpolazione, effettuata con una funzione del tipo
f(x) =  a0 + a1*cos(x*w) + b1*sin(x*w),
questo tipo di funzione tende a decrescere per poi risalire, esattamente in linea con gli errori delle rilevazioni di Digis nel 2008 rispetto ai dati reali delle POL08.
Le proiezioni alla sesta e settima rilevazione (cioè, ribadiamo, EUR09) sono
Proiezione 1 Proiezione 2
Fourier 1 0.0951634 0.0825684

(per continuare la lettura cliccare su “3”)

Con queste proiezioni (errore del 9,5% ed 8,2% rispettivamente), i sondaggi per il PDL di Digis nel 2009 risultano modificati nel seguente modo
Valore previsione dispersione
Data Sondaggio  Valore Digis  0,095163 0,082568
23/02/2009 39,7 36,25 36,672
02/03/2009 39,5 36,068 36,487
16/03/2009 39,7 36,25 36,672
23/03/2009 39,5 36,068 36,487
10/04/2009 40,5 36,981 37,411
18/04/2009 40 36,524 36,949
27/04/2009 39,8 36,342 36,764
02/05/2009 40,2 36,707 37,134
11/05/2009 40,2 36,707 37,134

 

Poichè i valori di dispersione che abbiamo considerato sono quelli più alti rispetto alle rilevazioni di Digis nel 2008, risulta naturale ottenere valori più bassi in questo caso. Il valore che abbiamo escluso in questa prova (cioè 0.02 che si riferisce al valore di dispersione del sondaggio del 24 Febbraio 2008) fa aumentare considerevolmente il grado di proiezione. Applicando le due proiezioni al valor medio di Digis nel 2009 (39,9%), ricaviamo
PDL = 36.4329%
PDL = 36.8568%
Questi valori sono in linea per esempio con l’ultimo sondaggio di  Predict09.eu, che abbiamo recentemente presentato.
Confrontiamo ora i risultati ottenuti. per la media di rilevazione di Digis per il PDL per le EUR09, pari a 39.9%: nella prima colonna il tipo di interpolazione usata. Nella seconda colonna la stima di proiezione numero 1 e nella terza la stima di proiezione numero 2.
Proiezione 1 Proiezione 2
poly MC 38,66 41,917
Sum Sin 39,042 39,654
Smooth 37,437 35,855
Fourier (Escl.) 36,433 36,857
Quasi tutte le interpolazioni tendono a sottostimare il valore medio di 39,9%. L’interpolazione polinomiale con  modalità MonteCarlo è l’unico caso di sovrastima, con un valore di 41,917%. L’interpolazione a somme di funzioni sinusoidali è quella che da un riscontro più simile al sondaggio reale.
Il 41,917% è in linea con Crespi, il 38 con il nostro sondaggio del 7/05, i dati sul 39% si attestano sulla media di tutti gli Istituti di sondaggi.
Concludiamo questo lavoro con due considerazioni:
1. nel 2008 Digis sovrastimò molto il PDL tranne in un caso, nel sondaggio del 24 Febbraio 2008, in cui il gradi didispersione dai valori percentuali finali (37,4) fu di 0,02, ovvero del 2%. Digis pubblicò allora un valore di 38,2%. In tutti gli altri casi Digis diede un valore oltre il 40%, sovrastimando di almeno l’8% il PDL.
2. una proiezione più conservatrice terrebbe in conto solo i sondaggi di Digis dal primo Gennaio al 27 Marzo 2008  per estrarre un valor medio d’errore, poichè dimostrano essere più in sintonia con il trend generale dell’Istituto. (che ricordiamo essere interpolato meglio da una funzione sinusoidale). Questo porta ad un valore di proiezione per la dispersione in EUR09 molto alta, pari a circa il 9%. Se invece includiamo tutti i dati dei sondaggi per POL08, il valor di proiezione si abbassa fino al 2%. Il valore medio di dispersione in questo caso, considerando tutte le interpolazioni adottate (3, escludendo il polinomio di grado V poichè troppo sovrastimante. Darebbe infatti il PDL al 65%, cosa francamente impossibile da immaginare) è di 0,03179, ovvero il 3,179% d’errore. Noi del TP per esempio forniamo i nostri valori con un margine di errore del 2%.
Con questo valor medio, si ricava una proiezione in base ai sondaggi di Digis per il 2009 di
PDL = 38.6706%
ovvero 1,3% in meno rispetto alla media di Digis per il PDL ed un punto percentuale sotto la media di tutti gli Istituti per quanto riguarda questo partito. Nessun Istituto pronostica tale valore, se non il TP nella rilevazione del 7 Maggio.