A. Tarsitano
Statistica descrittiva, teoria delle probabilità e delle variabili casuali

CLUEB, Bologna, 2001

statistics is a lighthouse

L’approccio all’insegnamento di un corso semestrale intensivo di statistica introduttiva adoperato dall’autore segue il programma tradizionale impartito nelle facoltà di economia, ma la forma del supporto è insolita. Lo scopo primario è di porre in grado gli studenti di accedere in modo rapido e agevole al materiale didattico grazie alla forte caratterizzazione informatica. Potranno inoltre sperimentare in proprio la statistica che si usa e non solo quella che si insegna. A questo fine il testo può essere affiancato da esercitazioni in aula informatica o come autoesercitazione utilizzando gli appositi blocchi di dati annessi al testo.

Recensione di
Enzo Lombardo
logo adobe
Riassunto dei capitoli
Consultazione diretta del testo
Apre Acrobat Reader 4

Back to main publications Home page
Cap_1 Concetti di base

La Statistica è una scienza in cui si ritrovano svariati metodi e tecniche che hanno come obiettivo la scoperta, la negazione, la definizione dei contenuti informativi più profondi, semplici e propri di un insieme di dati  finalizzato alla soluzione di un problema. Saper “far di conto” non è l’unica abilità con i numeri. Una persona è letterata non solo perché sa leggere, ma anche perché capisce ciò che legge. La stessa capacità occorre con i numeri e questa disciplina aiuta a svilupparla. La Statistica è però spesso fraintesa ed i suoi metodi mal utilizzati e nel paragrafo 1.1 si cercherà di dare una panoramica critica sul suo uso. Nell’affrontare per la prima volta un argomento è ben imparare subito il suo vocabolario ed i concetti fondamentali. Innanzitutto c’è l’idea di indagine o ricerca statistica cioè di un programma di lavoro che combinando congetture teoriche ed osservazioni empiriche (in un ordine e in una proporzione qualsiasi) tenta di ridurre lo stato di incertezza di un problema. La discussione su questo punto è svolta nel paragrafo 1.1. Al centro dell’indagine statistica c’è l’acquisizione di informazioni, notizie, valori su dei soggetti: persone, aziende, enti, etc. Quali possano essere i destinatari dell’indagine e come si configurano è indicato nel paragrafo 1.2. Gli aspetti su cui acquisire i dati dipendono dal contesto dell’indagine: una estensione, una numerosità, un attributo, un’opinione; quindi, elementi che possono cambiare valore o status da un soggetto all’altro e/o da una rilevazione all’altra: cioè delle variabili e la loro natura è approfondita nel paragrafo 1.3. Le regole per assegnare i valori alle variabili in modo da descrivere le caratteristiche delle unità sono approfondite nel paragrafo 1.5 dedicato alle scale di misurazione. Infine, nel paragrafo 1.5 sarà illustrato il criterio organizzativo che spiega la sequenza con cui i dati sono coinvolti nelle elaborazioni.

Cap_2 Operazioni preliminari

Pearce S.C. (1965, p. 5) sostiene: “E’ un grave errore, ma su cui sono caduti anche grandi statistici, supporre che il modo corretto di analizzare i dati dipenda solo dalla struttura dei dati stessi perché dipende anche dallo scopo per cui sono utilizzati. La conduzione dell’indagine e quindi i dati che è riuscita a produrre potrebbe precludere l’impiego di certe tecniche senza che si possa negare che proprio una di queste sia la più idonea a risolvere il problema e che perciò tutto il lavoro ne rimanga vanificato. La Statistica può essere di grandissimo aiuto nel trovare le risposte, ma non può decidere a quale domanda rispondere”. Lo scopo di questo capitolo è di impostare delle tecniche esplorative finalizzate al confronto tra rilevazioni diverse e di guidare lo studente ad impostare statisticamente un problema avviando intelligentemente l’analisi dei dati raccolti e ponendo i quesiti giusti. Innanzitutto, l’indagine statistica è inquadrata nello spazio dei dati che racchiude gli elementi acquisibili su di un problema. La realizzazione materiale dell’indagine produce la matrice dei dati -discussa nel paragrafo 2.1- che sarà la base delle nostre elaborazioni. Nelle occasioni in cui più spesso si impiega la Statistica la raccolta delle informazioni è già stata eseguita ed i dati ci vengono presentati con prospetti e schemi  dai quali partire con i calcoli  e con le riflessioni. In che modo vengono costruiti questi schemi? Qual’è il processo che porta dall’insieme dei valori osservati ad una tabella riassuntiva chiara e completa? Esistono forme di esposizione dei risultati più efficaci? Il paragrafo 2.2 sviluppa alcune proposte in questo senso. Ogni unità soggetto di indagine statistica ricade in una sola modalità della variabile, ma come si può avere un’idea della collocazione delle unità tra le varie modalità e delle eventuali strutture che tendono a formare? E’ possibile ottenerne una rappresentazione grafica? A queste domande risponde il paragrafo 2.3 sullo studio delle frequenze assolute e relative, semplici e cumulate.  

Cap_3 Sintesi delle distribuzioni


Dalle operazioni preliminari del capitolo precedente si esce con una o più distribuzioni di frequenza che riassumono il contenuto informativo acquisito per i vari aspetti che si è ritenuto di studiare sulle unità. La quantità di dati che esse detengono, pur nelle astrazioni e semplificazioni effettuate, è eccessiva perché si possa cogliere l’essenza delle variabili o per confrontarle efficacemente. E’ perciò necessario procedere ad una sintesi delle distribuzioni in pochi indici descrittivi (detti statistiche) delle loro caratteristiche più salienti.
Quali sono i tratti principali di una distribuzione di frequenza? Qual’è il modo più efficiente per evidenziarli? Quale tecnica può agevolare la comprensione del processo che ha generato i dati? La Statistica, nel corso del tempo, ha focalizzato l’attenzione su alcuni aspetti differenzianti delle distribuzioni quali: la centralità cioè l’esistenza di una modalità, fittizia o reale, che prevalga sulle altre e sia di queste rappresentativa (paragrafo 3.1); la variabilità e cioè l’attitudine delle modalità a disperdersi o a concentrarsi su particolari valori (paragrafo 3.2); la simmetria cioè la tendenza all’equilibrio ovvero al prevalere dei valori piccoli o dei valori grandi studiata nel paragrafo 3.3. Nell’esporre concetti ed indici cercheremo di tenere in primo piano l’avviso di Ehrenberg (1983) che invita ad insegnare la Statistica che si usa limitando l’enunciazione di  principi astratti applicati a problemi che nessuno si porrà. In questo capitolo più che nei due precedenti, i calcoli ed i grafici saranno in primo piano ed a questo fine valgono le avvertenze già date nella premessa: qualcuno può anche essere svolto con penna e calcolatrice, ma è meglio impostarli sul foglio elettronico tipo Excel o con un pacchetto applicativo tipo SPSS che sollevano dalle fasi più ingrate dell’apprendimento per dare maggiore tempo alla riflessione.
 
 

Cap_4Rappresentazioni grafiche


La presentazione e l’interpretazione dei dati risulta più agevole se il loro contenuto è espresso con  grafici che danno un’idea chiara e accurata dei risultati ottenuti. Alcune tecniche sono già state trattate nel secondo capitolo: diagramma a punti, diagramma ramo-foglia, istogrammi, poligoni, ogive e curve di frequenza. Questi grafici però privilegiano l’aspetto operativo integrando le tabelle e gli indici sintetici. Già meglio il boxplot più orientato al confronto di variabili diverse e quindi maggiormente adatto alla spiegazione di aspetti complessi. Oltre l’interpretazione e la sintesi, i grafici hanno però una finalità altrettanto importante: la comunicazione visiva dell’esito di una indagine ed in questo istogrammi e curve non sono sempre il mezzo più efficiente.
I grafici discussi e presentati in questo capitolo sono stati realizzati con un pacchetto di grafica statistica (tipo Deltagraph) alla portata dell’utente medio di computer. Molti possono essere anche redatti manualmente, ma il risultato è di rado altrettanto soddisfacente oppure ottenuto negli stessi tempi. Se la finalità del grafico è di chiarire il modo in cui i diversi fattori del problema influenzano il risultato finale, di comprendere i rapporti di massima tra le modalità, giusto per avere un’idea generale, allora ci si può contentare di schizzi a mano libera; se invece i grafici servono a presentare dei risultati, ad indirizzare messaggi, ad attirare l’attenzione del pubblico, allora il grafico deve essere realizzato nella maniera più professionale. Alcune tecniche di presentazione vanno oltre il pacchetto di grafica statistica (ad esempio la cartografia tematica) e necessitano di software specialistico ed una trattazione più approfondita. Si spera che quel poco che può essere detto in questo capitolo basti a soddisfare la curiosità dei neofiti senza far sorridere gli esperti del ramo. Utili approfondimenti potranno trovarsi in Bachi (1968), Beninger e Robyn (1978), Bertin (1973), Schmid e Schmid (1979), Tufte (1983, 1997), Cleveland (1993, 1994), Wallgren ed al. (1996).  
  

Cap_5 Applicazioni economiche


In questo capitolo sono state raccolte alcune tecniche mirate alle applicazioni economiche e aziendali: i rapporti statistici, i numeri indici e la concentrazione. Il primo argomento si riferisce alla costruzioni di indicatori che producono elementi tangibili di molti concetti importanti, ma immateriali. Come è emerso nei capitoli precedenti, non sempre si dispone di variabili direttamente collegate a tutti gli aspetti del problema: quale metrica, ad esempio, corrisponde al "grado di controllo" esercitato dalla direzione sul personale? Come si può misurare la diffusione di un quotidiano o la qualità della vita in un centro urbano? Come si valuta la redditività di un’impresa? A queste domande si risponde nel paragrafo 5.1 in cui si discutono delle semplici tecniche di costruzione di variabili molto utili sia per decidere quali informazioni acquisire sulle unità che per sfruttare efficacemente le informazioni già rilevate.
Il confronto dei valori nel tempo e nello spazio è un’esigenza frequente nei contesti economici e finanziari: il costo della vita, la produzione industriale, le retribuzioni contrattuali. Nel paragrafo 5.2 saranno discussi i numeri indici, elementari e sintetici, che costituiscono lo strumento privilegiato per le comparazioni temporali e spaziali degli aggregati economici. Per variabili misurate su scala metrica, ma che hanno anche il requisito della trasferibilità: ammontare di reddito, popolazione, assetti proprietari, possedimenti fondiari, etc. è interessante studiare la concentrazione in poche unità di quote rilevanti della variabile ovvero la diffusione della variabile tra le unità. Di questo ci occuperemo nel paragrafo 5.3. Anche il taglio di questo capitolo è descrittivo-esplorativo, cioè rivolto  alla  individuazione e descrizione dei fatti presenti nei dati, senza però fare alcuno sforzo di proiettarli in uno scenario più ampio, compito che sarà proprio della statistica inferenziale.  
 

Cap_6 Teoria della probabilità


L’evoluzione delle conoscenze ha reso l’umanità consapevole che per controllare le forze temibili con cui convive è inutile sacrificare agli dei, ma le antiche paure sono ancora presenti e l’avanzare delle scoperte non fa che aumentare il mistero intorno a noi. Per non essere sopraffatti dalla sensazione di impotenza abbiamo inventato la teoria delle probabilità come tecnica di gestione dell’incerto e come respingente, almeno psicologico, del caos in cui siamo costretti a muoverci finché non sia svelato il meccanismo del fenomeno che incuriosisce e spesso sgomenta. Secondo A. Eistein la probabilità è anche un gesto di ribellione dell’umanità all’idea di essere un soggetto passivo in balìa dell’universo. Nel primo paragrafo di questo capitolo discuteremo della casualità; nel secondo sarà presentato l’approccio assiomatico alla teoria elementare della probabilità come tentativo razionale di comprendere la natura di un pianeta che, con la sua indifferenza, ci è ancora ostile. Nel terzo paragrafo si porranno le basi di numerosi schemi sperimentali -basati sul calcolo combinatorio- in cui la casualità ha un ruolo facile da interpretare e con i quali riprendere diversi aspetti di statistica descrittiva lasciati in sospeso o volutamente trascurati; nel 4° paragrafo approfondiremo l’importante concetto della dipendenza stocastica e dei suoi risvolti operativi attraverso il teorema di Bayes. La teoria della probabilità ha un duplice ruolo nello sviluppo del programma di Statistica. Innanzitutto, la selezione delle unità sulle quali effettuare una rilevazione parziale stabilendo le condizioni per poterne estendere i risultati all’intera popolazione e di questo si parlerà nel paragrafo 6.5. Un altro scopo, altrettanto ampio e interessante, è la predisposizione di modelli teorici che ripensano i fenomeni della statistica descrittiva in un coerente quadro probabilistico. Di questo però ci occuperemo nel prossimo capitolo. E’ opportuno avvertire che il calcolo delle probabilità è ingannevolmente semplice: bastano pochi termini per proporre un problema dalla chiarezza palmare, ma la cui soluzione richiede pagine e pagine di calcoli simbolici e numerici.
 

cap_7 Le variabili casuali


Nel capitolo precedente si è privilegiato l’evento e la sua probabilità senza indugiare sulle finalità dell’esperimento e sulle attività connesse alle sue manifestazioni. E’ chiaro però che l’esperimento è condotto perché si spera di ricavarne qualche utile indicazione per migliorare lo stato conoscitivo di un problema e si deve perciò stabilire in che modo le conoscenze probabilistiche acquisite possano trasferirsi su uno o più aspetti connessi alla prova.  L’esperimento casuale è la sublimazione di una attività che si svolge sotto l’azione della sorte; le variabili casuali di cui ci occupiamo in questo capitolo ne sono aspetti circoscritti che spesso sono comuni a più esperimenti e talvolta vivono al di fuori degli esperimenti. Sono cioè dei modelli da adattare al fenomeno per descriverne e comprenderne il comportamento nel presupposto che le forme disponibili siano abbastanza flessibili ed utili per interpretare i fenomeni reali. In base alla funzione di insieme dello spazio di probabilità (S,P,W) dell’esperimento si ricava la distribuzione di probabilità della variabile casuale che, simile alla distribuzione di frequenza, verrà sintetizzata con gli indici descrittivi introdotti nel capitolo 3°. Infatti, le variabili casuali riprendono le distribuzioni di frequenza  discusse nel capitolo 2° proponendo per loro schemi di studio semplificati ed astratti, in grado di dare risposte non solo in base alla particolare indagine che si effettua, ma mobilitando, informazioni a priori, esperienze precedenti ed il calcolo delle probabilità. Nel primo paragrafo discuteremo le variabili casuali discrete e finite essenzialmente legate ad un numero limitato di prove binarie ripetute (modello binomiale e ipergeometrico). Nel secondo paragrafo verranno rafforzati i postulati di Kolmogorov per gestire aspetti sperimentali enumerabilmente infiniti (modello di Poisson e Pascal). Infine, nel terzo, dopo aver chiarito la tipologia degli eventi di interesse, si tratteranno le variabili casuali continue ed in particolare il modello Normale. Il livello di astrazione del capitolo è ancora più elevato del precedente, ma si noterà la convergenza verso quanto è stato esposto nella prima parte del testo.