Sovrastime e sottostime nei sondaggi CAWI

elezioni anticipate voto anticipato

Sovrastime e sottostime nei sondaggi CAWI

Una delle questioni più ricorrenti che si pone ai sondaggisti e’ il livello di attendibilità’ di un sondaggio CAWI, quindi di una misura della sovrastima o sottostima nelle rivelazioni per i singoli partiti. Prendendo spunto dall’analisi condotta da Marco Ghiotti si può tentare una possibile misura di questi effetti incrociando i dati Itanes, che forniscono per una serie di classificazioni socio demografiche le percentuali ottenute dai maggiori partiti nelle elezioni del 2008, i dati Audiweb, che ci forniscono la penetrazioni di internet  nelle medesime classi sociali, e i dati ISTAT che ci consentono di quantificare le medesime classi.

Il primo passo e’ quindi stato la creazione di una tabella che per ogni classificazione socio-demografica riportasse la popolazione della medesima fascia e i risultati ottenuti dai partiti in quella medesima fascia.

L’operazione e’ stata non banale perché le classificazioni Audiweb e Itanes non coincidono esattamente.

I risultati sono mostrati nella Fig. 1

Occorre precisare alcune cose.

1) La colonna rappresenta i votanti 2008, considerando la percentuale degli astenuti identica per ogni fascia

2) Audiweb non presenta statistiche per gli over 75. Il dato e’ ricavato da una campionatura dei nostri sondaggi

3) Per quanto riguarda le altre fasce di eta’, le classificazioni Audiweb sono piu’ “larghe” di quelle Itanes. Si e’ quindi proceduto a sommare le fasce Itanes per avere risultati comparabili a quelli Audiweb

4) Audiweb non usa la stessa suddivisione della fasce della popolazione dei comuni utilizzata di ISTAT e Itanes, tranne per l’ultima classificazione (oltre 250mila abitanti). Purtuttavia, essendo le variazioni tra le fasce inferiori assolutamente minime abbiamo mantenuto la classificazione Itanes utilizzando il dato Audiweb in cui il massimo della fascia Itanes e’ compreso

5) Il dato sui Disoccupati/In cerca e’ ottenuto incrociando I dati Audiweb e Istat per ricondurlo alla classificazione Itanes

6) Il dato Audiweb sugli occupati e’ stato ottenuto facendo una media su tutte le classificazioni professionali proposte da Audiweb

7) Il numero degli insegnanti in Italia, non disponibile da ISTAT, e’ stato stimato a 1 milione, considerando che il Ministero dell’Istruzione ha un organico di 838mila docenti, cui si devono aggiungere precari e insegnanti di scuole private

8) Nella sotto categoria Dirigente si considerano compresi anche i Quadri

9) Si assume che la stima audiweb per gli insegnanti sia la medesima di quella per gli impiegati

10) Nel caso delle categoria geografica per le percentuali si utilizzano i risultati reali calcolati per ogni raggruppamento geografico e non le stima Itanes che sono ovviamente più imprecise. Inoltre e’ stato considerato per la Lega come meno rappresentativo il dato del Centro, non essendosi all’epoca la Lega presentata al Sud e Isole

11) tutte le percentuali di penetrazione audiweb sono riferite al “Profilo degli individui con accesso a internet da casa e/o lavoro/ufficio tramite computer”. Dati dal 12/05/08 al 12/03/09

Il secondo passo e’ stato quello di calcolare per ogni partito il campione piu’ rappresentativo, quello meno rappresentativo, la percentuale del partito in questi due campioni e infine la percentuale di utenti web in ogni campione

I risultati sono mostrati nelle figure 2 e 3

Anche in questo caso occorre dire che riguardo alla classificazione Occupazione, la fascia Occupati non e’ stata considerata come possibile minimo o massimo, preferendo utilizzare la più dettagliata classificazione per Professione.

Alcuni dati interessanti saltano subito all’occhio. Ad esempio il campione piu’ rappresentativo del PDL risulta essere quello con meno utenti web in percentuale, mentre invece il campione meno rappresentativo del PDL e’ anche quello con maggiore copertura web

 

Rimarchevole anche il fatto che il campione più rappresentativo per il PD e’ quello meno penetrato dagli utenti web dopo quello del PDL.

(per continuare la lettura cliccare su “2”)

Molto ben coperti risultano gli elettorati più rappresentativi di SA e La Destra, mentre non ci sono grandi differenze per gli altri partiti.

Situazione quasi speculare per gli elettorati meno rappresentativi. Si e’ già detto della copertura del campione PDL, subito dietro ci sono i campioni meno rappresentativi di PD e Lega. Ultimi SA e LD.

Possiamo in base a questi dati tentare una misura della sovrastima o sottostima per un dato partito in un sondaggio CAWI?

Supponiamo che l’elettorato di un partito sia composto da solo due campioni, quello piu’ rappresentativo e quello meno rappresentativo appunto.

Questo presupposto puo’ sembrare azzardato, ma se calcoliamo il rapporto tra le popolazioni di questi due campioni per il PDL ad esempio scopriamo che questo rapporto e’ di  0,98 circa. Questo significa che se consideriamo un campione di 1000 casi dovremmo avere 492 votanti pescati dal campione più rappresentativo e 508 da quello meno. Considerando che nel campione piu’ rappresentativo il PDL ha il 44,8% e in quello meno rappresentativo il 31,67%, sui 1000 voti otteniamo 381 voti: una percentuale del 38,1% non lontana dal 37,39% ottenuto nelle elezioni del 2008 e in linea con il fatto che il campione Itanes sovrastima leggermente
il PDL e sottostima il PD.

Ora, se pero’ consideriamo la copertura web di questi due campione e calcoliamo il rapporto tra i due campioni questo rapporto cambia e il risultato e’ che il nostro campione di 1000 casi pescato via web avrà 359 voti invece dei 381, per cosi’ dire di partenza.

Dunque la PDL risulterà sottostimata di poco meno del 6%, come si può vedere in figura 4

E’ interessante notare come l’elettorato meglio rappresentato sul web, sia quello della Lega assieme a quello del PD, mentre invece per le altre forze ci troviamo di fronte a sovrastime anche superiori al 10%