Psicologia
11.111~ FABIO LUCIDI FABIO ALIVERNINI ARRIGO PEDON
Metodologia della ricerca qualitativa
I lettori che d...
199 downloads
1327 Views
6MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Psicologia
11.111~ FABIO LUCIDI FABIO ALIVERNINI ARRIGO PEDON
Metodologia della ricerca qualitativa
I lettori che desiderano informarsi sui libri e sull'insieme delle attività della Società editrice il Mulino possono consultare il sito Internet: www.mulino.it
Indice
Premessa
I.
Il.
ISBN 978-88-15-12620-7
Copyright 2008 by Società editrice il Mulino, Bologna. Tutti i diritti sono riservati. Nessuna parte di questa pubblicazione può essere fotocopiata, riprodotta, archiviata, memorizzata o trasmessa in qualsiasi forma o mezzo – elettronico, meccanico, reprografico, digitale – se non nei termini previsti dalla legge che tutela il Diritto d'Autore. Per altre informazioni si veda il sito www.mulino.it/edizioni/fotocopie
III.
Tra ricerca quantitativa e qualitativa
9
15
1. Diversità nei riferimenti epistemologici 2. Diversità nell'oggetto di studio della ricerca 3. Diversità negli obiettivi generali della ricerca 4. Differenze nelle tecniche di indagine e nella tipologia dei dati 5. Differenze nelle analisi dei dati e nell'esposizione dei risultati 6. Differenze metodologiche fra ricerca qualitativa e ricerca quantitativa riconsiderate
30
Il problema della validità e dell'attendibilità
35
1. La validità 2. La generalizzazione nella ricerca qualitativa 3. L'attendibilità
43
Le differenti strategie di raccolta dati
53
1. L'osservazione 2. Le interviste 3. I focus group 4. La raccolta documentaria
53
17 19 21 27 29
35 44
56 65 67
INDICE
IV.
V.
Lo studio di caso
71
1. Le
domande di ricerca 2. Le asserzioni dello studio 3. L'unità di analisi 4. La logica che collega i dati alle ipotesi e i criteri per interpretare i risultati
74
L'analisi qualitativa del contenuto
89
1. L'analisi delle domande di ricerca 2. La definizione delle unità di analisi 3. Il campionamento 4. La codifica esplorativa 5. La definizione del «codebook» 6. La valutazione formativa dell'attendibilità 7. Il campionamento per la codifica definitiva 8. La codifica definitiva dei testi 9. La valutazione sommativa dell'attendibilità 10. Le analisi quantitative VI.
INDICE
76 77 81
92 92 93 95 97 98 98 99 99 100
La statistica testuale
107
1. L'analisi
108
delle domande di ricerca 2. L'analisi delle frequenze 3. L'analisi delle concordanze 4. L'analisi delle corrispondenze di tabelle lessicali VII. Il «text mining» 1. Il processo di «text mining» 2. L'analisi delle domande di ricerca 3. L'estrazione dei concetti 4. La valutazione dei concetti estratti 5. Il «data mining» VIII. Modelli misti e approccio «significato attendibile» 1. L'analisi
del contenuto mista 2. L'approccio significato attendibile
111 114 116 129 131 131 133 134 134 143 145 150
IX. Software per l'analisi qualitativa
7
155
1. SPAD
155
2. «QDA Miner»
158
e «Wordstat» 3. «Text mining for Clementine»
162
Riferimenti bibliografici
169
Indice analitico
179
Premessa
Questo volume, in linea con la collana in cui è inserito, è stato pensato come un itinerario, diviso in tappe, lungo le strade e i sentieri della ricerca qualitativa. Il punto di partenza di questo percorso è costituito dalla discussione, appassionata ma anche un po' confusa, che ha luogo intorno alle principali differenze esistenti tra ricerca quantitativa e ricerca qualitativa. Per distinguere tra le due metodologie sono stati, non alternativamente, ricercati argomenti legati alle diverse cornici epistemologiche, all'oggetto di studio, agli obiettivi di ricerca, alle tecniche di indagine e alla tipologia dei dati raccolti, alle modalità di analisi dei dati e di esposizione dei risultati. La scelta della strada da prendere in questo itinerario sarebbe dipesa, in prima istanza, dalla posizione assunta all'interno di questa discussione. Ciò che abbiamo voluto sottolineare è che un punto di vista esclusivamente epistemologico appare inutilizzabile per distinguere pienamente tra ricerca qualitativa e quantitativa. Entrambe, nella strada da noi proposta, accettano il dovere della confutabilità empirica dei propri asserti e dispongono degli strumenti concettuali e metodologici per poter valutare la validità dei risultati e delle conclusioni prodotte da un ricercatore a fronte di altri risultati, magari alternativi, prodotti da altri ricercatori. L'attuale ricerca qualitativa non evita, né potrebbe farlo, la quantificazione, ma la usa per rintracciare, all'interno di dati non strutturati, proprietà che non erano state previste (o non completamente previste) a priori. Nella descrizione dei risultati di tale lavoro empirico, talvolta i ricercatori preferiscono usare affermazioni quantitative in forma verbale, invece che usare i numeri, ma questa differenza
10 PREMESSA
attiene al piano formale del linguaggio utilizzato per descrivere un risultato, non all'epistemologia della ricerca. Il resto dell'itinerario risulta quindi snodarsi lungo una strada i cui margini sono definiti da una parte dalla controllabilità empirica dei risultati conseguiti e dall'altra dalla logica della scoperta di proprietà in dati non strutturati. Tali margini consentono di definire il terreno privilegiato della ricerca qualitativa entro l'obiettivo della scoperta concettuale, confutabile empiricamente e basata su dati non strutturati. Vengono così ad essere toccati i confini sfumati sia della speculazione sia della ricerca quantitativa, ma senza sovrapposizioni. Sulla base di queste premesse, il lettore non sarà sorpreso di sapere che la nostra seconda tappa è rappresentata dall'esame degli approcci teorici e tecnici alla base della valutazione dell'attendibilità e della validità nell'ambito della ricerca qualitativa. In questo ambito il concetto di validità si esprime nei termini di una corrispondenza semantica dei risultati con il contesto da cui sono tratti i dati, di una concordanza di quanto evidenziato attraverso il ricorso a strumenti diversi, e di una più generale tenuta rispetto a un metodo di ragionamento basato sulla critica e sulla continua messa in discussione delle conclusioni conseguite. La possibilità offerta dalle metodologie di ricerca qualitativa di affrontare un fenomeno secondo molteplici approcci e attraverso molteplici strumenti consente, allo stesso tempo, di acquisire un ventaglio più ampio di informazioni e di definire la validità della ricerca stessa attraverso modalità di triangolazione dei risultati. Il tema dell'attendibilità è stato invece affrontato alla luce del problema della replicabilità delle procedure di ricerca. L'attendibilità interna rappresenta il grado in cui ricercatori diversi da quelli originari giungerebbero alle stesse conclusioni analizzando i dati già raccolti in una stessa ricerca. Un tema che assume una forte rilevanza, viste le problematiche legate alla codifica dei dati, figlia di scelte sempre soggettive ma mai arbitrarie. L'attendibilità esterna corrisponde alla garanzia che vengano fornite tutte le informazioni affinché altri ricercatori possano replicare le procedure di un determinato studio, non necessariamente per arrivare ai medesimi risultati, ma quantomeno per capire il perché delle eventuali differenze. Dalla definizione dello spazio della ricerca qualitativa come spazio della «scoperta concettuale controllabile empiricamente», condotta attraverso la raccolta di dati non strutturati con una metodologia valida e attendibile, de-
PREMESSA 11
riva la necessità di individuare metodi che, pur essendo caratterizzati da vincoli meno stringenti di quelli della ricerca quantitativa, risultino comunque basati su decisioni capaci di garantire efficacia ed efficienza nell'affrontare e risolvere uno specifico problema oggetto di studio. La terza tappa ci porterà ad esplorare i principali metodi di raccolta dei dati che possono essere utilizzati nella ricerca qualitativa: l'osservazione, l'intervista, la raccolta documentaria. Sullo sfondo, le nuove possibilità legate alla disponibilità di tecnologie informatiche, di internet e più in generale alla enorme diffusione di dati in formato digitale. Con lo studio di caso – quarta tappa –, si entra in una vera e propria palestra dove si possono sperimentare diverse tecniche di raccolta dati ai fini dell'esame dettagliato di un singolo esempio di una classe di fenomeni. Si tratta di una strategia di ricerca che investiga un fenomeno nel suo contesto reale, utilizzando fonti multiple di evidenza empirica. Viene così messo in risalto l'aumento esponenziale dei dati raccolti che può caratterizzare la ricerca qualitativa contemporanea. Le tappe successive riguardano l'analisi dei dati qualitativi, in particolare quelli più diffusi, vale a dire i testi derivati da interviste o da documenti. Si tratta di un settore che negli ultimi dieci anni ha visto un enorme sviluppo, grazie anche all'aumento della disponibilità offerta dalle nuove tecnologie. Thomas e Znaniecki nel 1920 pubblicavano una famosa ricerca la cui base empirica era costituita da lettere in formato cartaceo scambiate tra contadini polacchi emigrati negli Stati Uniti e i loro parenti rimasti in Polonia. A quei tempi raccogliere materiale e analizzarlo costituiva un lavoro di anni, un lavoro la cui validità e attendibilità erano di difficile valutazione. Negli anni '90 hanno cominciato a diffondersi i primi software di QDA (Qualitative Data Analysis) che consentivano una codifica assistita dei dati offrendo ai ricercatori la possibilità di una maggiore trasparenza del processo di analisi. Oggi la registrazione video e audio nei contesti di raccolta dati è alla portata anche dei più modesti budget di ricerca ed è sufficiente collegarsi ad internet per accedere, su scala mondiale, a migliaia di documenti su qualunque tema sotto forma di blog, forum di discussione, siti internet, e-mail ecc. I software di analisi dei dati qualitativi sono centinaia e offrono potenti strumenti di assistenza alla codifica permettendo il controllo intersoggettivo dei risultati conseguiti e consentendo anche di condurre analisi quantitative.
12
PREMESSA
Ovviamente il nostro percorso tiene conto di queste opportunità e le illustra dedicando largo spazio alle possibilità offerte dai software di ausilio per le analisi qualitative, alcuni dei quali vengono brevemente descritti al termine del volume. Nella quinta tappa è proposta una rilettura della tradizionale analisi del contenuto, una tecnica usata per svolgere inferenze valide e replicabili sul significato di testi, immagini o altri significanti che vengono raggruppati in categorie. Tali inferenze in un approccio qualitativo sono tipicamente bottom-up: partono dal materiale stesso per arrivare a individuare delle categorie di contenuto. La sesta tappa esplora diversi metodi statistici di analisi induttiva dei testi. L'approccio presentato, rispetto ad altri, è caratterizzato dall'assenza di un intervento del ricercatore sui dati prima della loro analisi, rispettando così il criterio qualitativo della possibilità di scoperta di proprietà/concetti nei dati. La settima tappa è dedicata al text mining, una famiglia di metodologie molto recenti che permettono di valutare i testi sulla base di algoritmi che possono considerare sia íl significato linguistico, sia le relazioni di cooccorrenza e di prossimità fra le parole sulla base del senso che hanno all'interno di un testo. Nel text mining si cerca infatti di estrarre concetti in modo automatizzato, cercando di ripercorrere le modalità usate dall'essere umano, riconoscendo i termini che assumono un significato simile entro diversi contesti linguistici. L'ottava tappa dell'itinerario proposto si svolge in un luogo da cui è possibile intravedere alcune prospettive di sviluppo, alcune diramazioni che esplorano sentieri meno battuti. Il primo sentiero riguarda l'analisi del contenuto mista, un altro approccio bottom-up che prova a massimizzare la possibilità di scoperta di elementi dotati di significato attraverso l'analisi delle categorie emerse dall'analisi del contenuto, dalla statistica testuale come pure dal text mining. Il secondo sentiero riguarda un approccio, definito significato attendibile, che si propone di massimizzare l'attendibilità e minimizzare i tempi di analisi nell'individuazione di significati complessi in un testo attraverso regole parzialmente o completamente automatizzabili. In questo caso gli algoritmi possono essere implementati dal ricercatore sulla base dei risultati delle precedenti analisi sui testi o anche derivare da conoscenze pregresse, ad esempio di natura teorica. In questo caso l'analisi qualitativa può essere finalizzata a individuare e implementare indicatori
PREMESSA
13
testuali per la rilevazione, su base algoritmica, di un costrutto oggetto d'interesse teorico. Il filo rosso che collega questi due sentieri è il tema dell'integrazione e questa esplorazione lascia intravedere il territorio delle metodologie miste qualitative e quantitative. Si tratta di approcci che combinano, tra le altre cose, la visione data-driven della ricerca qualitativa con le procedura theorydriven della ricerca quantitativa per affrontare specifici problemi di ricerca. L'utilizzo di metodologie miste sta riscuotendo in questo ultimo periodo un notevole interesse che ha portato nel 2007 alla nascita di due riviste di larga diffusione: il «Journal of Mixed Methods Research» edito dalla Sage e l'australiano «International Journal of Multiple Research Approches». Nonostante diversi autori [Brewer e Hunter 2006] sostengano che le metodologie quantitative e qualitative possono essere vantaggiosamente integrate in tutti i passaggi di uno studio, la ricerca mista è ricca di problemi aperti e di sfide e costituisce una nuova frontiera metodologica delle scienze umane e sociali. Ma questo è un altro itinerario.
Un grazie va a Rita Marzoli e a Paola Morocchi della biblioteca dell'iNvusi che ci hanno regalato la loro professionalità e disponibilità sostenendoci in una affannosa ricerca di testi. Un grazie agli studenti che, dimostrandosi insoddisfatti delle nostre sommarie illustrazioni di cosa sia la ricerca qualitativa, ci hanno spinto a scrivere questo volume. Un grazie a tutti i colleghi che hanno accettato di scambiare con noi le loro opinioni sul tema: per paura di dimenticarne qualcuno non citeremo nessuno. Un grazie a Sara Manganelli, che ha fatto con amicizia e attenzione «l'ultima rilettura» prima della consegna del lavoro. Infine un grazie speciale va a Giorgia che ha accettato di ospitare le nostre discussioni serali nelle sue cene, senza chiederci nemmeno di sparecchiare.
Tra ricerca quantitativa e qualitativa
Esiste attualmente un'amplissima letteratura sulla ricerca qualitativa: effettuando una ricerca in una grande libreria online come Amazon.com troviamo oltre 800 libri che riportano nel titolo Qualitative research, e cercando su un motore di ricerca come Google lo stesso testo, vengono riportati oltre un milione di risultati. Dagli anni '80 la nota casa editrice Sage pubblica una collana di monografie a carattere metodologico nella serie «Qualitative Research Methods», che è giunta attualmente a contare una cinquantina di volumi. Sono stati pubblicati manuali che vengono ormai considerati dei classici, come lo Handbook of qualitative research di Denzin e Lincon [2000], il Qualitative research methods for the social sciences di Berg [2007], il Doing qualitative research di Silverman [2000], l'Introduction to qualitative research methods di Taylor e Bogdan [1998], il Qualitative data analysis di Miles e Hubermann [1994] e altri ancora che verranno citati nel corso di questo testo. Esistono inoltre decine di software dedicati all'analisi qualitativa dei dati e ne nascono continuamente di nuovi, rendendo difficile avere un panorama esaustivo in questo ambito. Nonostante la proliferazione di scritti e di strumenti per la ricerca qualitativa, tuttora, come affermano Bryman e Burgess [1999, 9] «definire che cosa essa sia e che cosa escluda non è cosa facile». Molti autori [ad esempio Berg 2007; Fischer 2006; Denzin e Lincon 2000; Bryman e Burgess 1999; Silverman 2000] per individuare le peculiarità della ricerca qualitativa, la mettono a confronto con la ricerca quantitativa. Sebbene ad un primo sguardo possa sembrare intuitivo individuare con
TRA RICERCA QUANTITATIVA E QUALITATIVA 17
16 CAPITOLO 1
TAB. 1 .1 . Principali differenze fra ricerca qualitativa e ricerca quantitativa riportate in letteratura
Aratro oats
DIFI~
Eamerm mato reatm U ~TURA RICERCA quAtirAIWA
&CIRCA QUAN1TrATIVA
Idealismo Ermeneutica Fenomenologia Postmodernismo Costruttivismo Rifiuto modello scienze naturali
Realismo Positivismo Postpositivismo Modello scienze naturali
OGGETTO DI STUDIO DELLA RICERCA Berg [2007]; Fischer [2006]; Denzin e Lincon [2000]
Natura delle cose Significati Fenomeni naturali
Quantità delle cose Comportamenti Fenomeni artificiali
OBIETTIVO GENERALE DELLA RICERCA Taylor e Bogdan [1998]; Denzin e Lincon [2000]
Esplorazione Idiografico Far emergere una teoria
Testare ipotesi Nomotetico Testare una teoria
Osservazione partecipante Intervista aperta Vicinanza del ricercatore Dati naturali Dati ricchi
Esperimento Inchiesta campionaria Lontananza del ricercatore Dati artificiali Dati attendibili
Interpretazione Codifica Descrizioni
Statistica Analisi formale Statistiche
RIFERIMENTI EPISTEMOLOGICI Smith [1984]; Denzin e Lincon [2000]
TECNICHE D'INDAGINE E TIPOLOGIA DEI DATI Bryman e Burgess [1999]
ANALISI DATI ED ESPOSIZIONE DEI RISULTATI Strauss e Corbin [1990]; Miles e Huberman [1994]; Denzin e Lincon [2000]
il termine quantitativo un approccio dove è previsto un maggior utilizzo dei numeri e con qualitativo un tipo di ricerca basato più sulle parole e sulle descrizioni, in letteratura esiste uno scarso accordo su quali siano le rispettive specificità e la legittimità di tale differenziazione. Due autorevoli ricercatori, Fred Kerlinger, autore di uno dei più diffusi manuali di metodologia delle scienze del comportamento, e Donald T. Campbell, uno degli autori più citati in quest'ambito, si riferiscono, con toni molto diversi, alla ricerca qualitativa. Mentre per Kerlinger «non esistono dati qualitativi. Qualunque cosa è 1 o 0», per Campbell «tutta la ricerca, in definitiva, ha alla base un fondamento qualitativo». Al di là delle specifiche posizioni, se proviamo ad esaminare con maggiore dettaglio le differenze tra ricerca definita quantitativa e quella definita qualitativa, il quadro che ne esce appare piuttosto complesso. Nella tabella 1.1 sono riportati i principali ambiti e gli elementi specifici che, più frequentemente, vengono citati per enfatizzare le differenze tra i due approcci.
Nella medesima tabella vengono anche riportati gli autori che hanno, fra gli altri, enfatizzato tale ordine di differenza. A ciascun aspetto verrà dedicato un approfondimento specifico.
1. DIVERSITÀ NEI RIFERIMENTI EPISTEMOLOGICI La ricerca qualitativa è stata spesso dipinta [Bryman 1999] come un approccio che, rispetto alla ricerca quantitativa, fa riferimento ad un'epistemologia diversa, ad un modo diverso di pensare le condizioni sotto le quali si può raggiungere una conoscenza scientifica o addirittura, in senso più esteso, la conoscenza in generale. Ad esempio, in modo molto esplicito, Filstead afferma: I metodi quantitativi e quelli qualitativi sono più che delle differenze fra strategie di ricerca e procedure di raccolta dei dati. Questi approcci rappresentano differenti cornici epistemologiche per la concettualizzazione della natura del conoscere, della realtà sociale e procedure per comprendere questi fenomeni [Filstead 1979, 45]. Più recentemente, Denzin e Lincon sostengono che la ricerca qualitativa si caratterizza per un'epistemologia che accetta un punto di vista postmoderno e costruttivista, per cui «i ricercatori cercano metodi alternativi per valutare il loro lavoro, includendo la verosimiglianza, l'emozionalità, la responsabilità personale [...] un impegno politico [...] e il dialogo con i soggetti della ricerca» [Denzin e Lincon 2000, 10]. Un modo diffuso [Hammersley 1999] per delineare una diversità sul piano epistemologico è quello di contrapporre «realismo» a «idealismo». Questa posizione è chiaramente espressa in Smith e Heshusius [1986], secondo cui la ricerca quantitativa sarebbe legata a una prospettiva realista per cui i risultati corrispondono a come le cose sono realmente nel mondo, mentre la ricerca qualitativa rimanda a una visione idealista, che sostiene che non esiste un'unica realtà ma «mondi» diversi per persone diverse. In effetti, sul versante della ricerca qualitativa esistono certamente esempi di noti ricercatori che potrebbero essere considerati realisti. Hammersley [1989] evi-
1 8 CAPITOLO 1
denzia come Herbert Blumer, il coniatore dell'espressione «interazionismo simbolico» concepisce la ricerca come un'attività che, strappando il velo delle nostre preconcezioni, è impegnata nella scoperta della realtà sociale. Miles e Huberman [1994] nel loro libro interamente dedicato all'analisi di dati qualitativi si autodefiniscono realisti: «riteniamo che i fenomeni sociali non esistano soltanto nella mente ma anche nel mondo oggettivo». D'altra parte, lo stesso Hammersley [1999] fa notare come esistano dei brillanti esempi di ricercatori quantitativi che non sono affatto «realisti». Ad esempio Lundberg parlando della teoria copernicana dell'universo che subentra a quella tolemaica asserisce: Dire che non è cambiato l'universo, ma la nostra concezione di esso è semplicemente un trucco linguistico escogitato per condurre gli sprovveduti nelle paludi del realismo platonico, perché ovviamente l'unico universo con cui la scienza può rapportarsi è la nostra concezione di esso [Lundberg 1933,309, citato in ibidem, 79]. È riconosciuto inoltre, all'interno della ricerca qualitativa [Denzin e Lincon 2000], che essa è stata ed è ampiamente influenzata dall'epistemologia positivista e postpositivista (attribuita tradizionalmente alla ricerca quantitativa) partendo dalle sue origini e passando per la concezione di ricerca qualitativa più rigorosa sostenuta da Strauss e Corbin, due degli autori più citati in questo ambito. Bryman [1999] evidenzia come l'identificazione dei due approcci con due epistemologie diverse può portare alcuni autori ad affermazioni che sono contraddittorie. Ad esempio, all'interno della ricerca qualitativa, esistono teorici [Filstead 1979; Bodgan e Biklen 1982] che sostengono da una parte come i due approcci costituiscano due cornici, due paradigmi, due «mondi» diversi, ma, contemporaneamente, evidenziano i vantaggi di utilizzare simultaneamente metodi quantitativi e metodi qualitativi. Da quanto riportato sembra di poter concludere che non possano essere identificate connessioni a carattere necessario, fra la ricerca qualitativa ed una particolare posizione epistemologica. Un punto di vista esclusivamente epistemologico sembra quindi inutilizzabile per distinguere pienamente tra ricerca qualitativa e quantitativa, riportando il problema, per entrambe, a se
TRA RICERCA QUANTITATIVA E QUALITATIVA 1 9
accettare o meno una qualche confutabilità empirica dei propri asserti. Non è questo il contesto per affrontare tale discorso se non accennando che, se non si accetta questo criterio, ci si scontra con il problema della validità dei risultati e delle conclusioni prodotte da un ricercatore a fronte di altri risultati, alternativi, prodotti da altri ricercatori [Agodi 1996].
2. DIVERSITÀ NELL'OGGETTO DI STUDIO DELLA RICERCA Le definizioni che prevedono per la ricerca qualitativa un oggetto di studio diverso da quello dalla ricerca quantitativa sono frequentemente riconducibili a due tipologie. Mentre l'oggetto di studio delle ricerche quantitative potrebbe essere, seppur semplicisticamente, definito nei termini della misura di un fenomeno, la definizione dell'oggetto di studio delle ricerche qualitative ha assunto almeno due direzioni. Nella prima, lo studio della qualità è inteso come indagine sulla natura o essenza delle cose. Nella seconda, l'analisi della qualità è stata riferita allo studio del «significato» di un fenomeno. La ricerca qualitativa come studio dell'essenza delle cose. In un manuale pubblicato recentemente Berg [2007] sostiene che la nozione di quantità consiste nella misura di qualcosa, mentre la qualità attiene alla natura delle cose, si riferisce «al che cosa, al come, al quando e al dove di una cosa, alla sua essenza e al suo ambiente» [ibidem, 3]. Questa visione riprende in realtà la classica posizione aristotelica secondo la quale la qualità è l'essenza di una cosa, la sua natura ultima, mentre la quantità non è che un accidente. Molti pensatori e scienziati dopo Aristotele si sono chiesti se esistono veramente le essenze, se esiste una «vera» natura di un qualunque fenomeno. La risposta a questa domanda riveste effettivamente un qualche interesse, se affermativa, avremmo una possibilità di conoscenza della realtà dei fenomeni che potremmo considerare definitiva e stabilita una volta per tutte. Permetterebbe un bel sospiro di sollievo e rappresenterebbe un oggetto di studio nobile e molto affascinante per la ricerca qualitativa. Sfortunatamente la scienza moderna, a partire da Galilei, ha scelto di abbandonare questa prospettiva. Scriveva Galileo Galilei
20 CAPITOLO i
Perché, o noi vogliamo specolando tentar di penetrar l'essenza vera ed intrinseca delle sustanze naturali; o noi vogliamo contentarci di venire in notizia d'alcune loro affezioni. Il tentar l'essenza, l'ho per impresa non meno impossibile e per fatica non meno vana nelle prossime sustanze elementari che nelle remotissime e celesti [Galilei 1929-1936, 187]. Sebbene non sia questa la sede per approfondire l'argomento, è opportuno notare che il concetto di essenza come qualità, se considerato con attenzione, si rivela illusorio. L'immagine che ci restituisce la scienza contemporanea è che ogni oggetto presenta moltissimi aspetti o proprietà, che sono collegati alla molteplicità dei punti di vista da cui possiamo esaminarlo. Considerare uno di questi aspetti essenziale significa elevare al di sopra degli altri, arbitrariamente, il punto di vista che abbiamo scelto in quel momento. Si tratta, in buona misura, di un atteggiamento dogmatico che induce a pensare che esista un punto di vista (magari proprio il nostro) capace di cogliere l'essenza delle cose, o, in altri termini, la verità. Considerare la ricerca qualitativa come lo studio della qualità di un qualcosa, nei termini della sua essenza è certamente affascinante ma illusorio e vagamente oscurantista: il maggior impedimento al progresso della conoscenza è la convinzione di averla raggiunta in via definitiva. Se vogliamo rimanere nell'ambito della ricerca empirica, anche quella qualitativa, bisognerà essere più umili e rinunciare alla qualità-essenza. La ricerca qualitativa come studio del significato. Un secondo modo per porre il problema della diversità nei fenomeni studiati dalla ricerca qualitativa rispetto alla ricerca quantitativa è quello di affermare che la prima studia i «significati», cosa che la seconda trascura. Ad esempio Fischer, in un manuale dedicato alla ricerca qualitativa in psicologia, sostiene che i metodi qualitativi si occupano di quegli aspetti dell'essere umani per cui i metodi sperimentali e statistici non sono adatti, di quegli aspetti che la ricerca quantitativa non è adatta a studiare, vale a dire, il mondo dei significati e delle azioni vissuti [Fischer 2006, 16].
TRA RICERCA QUANTITATIVA E QUALITATIVA 21
Sulla stessa linea, Denzin e Lincon [2000] affermano che i ricercatori qualitativi, attraverso interviste dettagliate e osservazione, si avvicinano maggiormente alla prospettiva dell'attore sociale, ai significati, catturando meglio il punto di vista dell'individuo. Spesso con significato s'intende [Hammersley 1999] il significato per il soggetto studiato, il suo punto di vista, contrapposto a quello del ricercatore. Hammersley fa però notare come sia raro che la ricerca qualitativa si riduca a fare questo, anche perché non se ne vedrebbe l'utilità. I soggetti studiati, infatti, potrebbero testimoniare la loro particolare prospettiva anche da soli e si potrebbe dire che la persona più titolata a interpretare un particolare punto di vista sia proprio chi lo esprime. In realtà la maggior parte delle ricerche qualitative non si propone solo di descrivere la prospettiva dei soggetti studiati, ma anche di analizzarne la struttura in modo da ricavarne un senso più generale. Hammersley [ibidem] evidenzia come i risultati di tale lavoro potrebbero, paradossalmente, risultare estranei e incomprensibili ai soggetti stessi. Occorre inoltre notare che lo studio dei significati non è certamente appannaggio esclusivo della ricerca qualitativa: infatti, molti ricercatori quantitativi potrebbero affermare che essi studiano continuamente i significati. Bastano come esempio le grandi inchieste campionarie che riguardano gli atteggiamenti soggettivi, i valori personali, le intenzioni, e in generale, le percezioni dei soggetti. In conclusione non appare sostenibile nemmeno la posizione secondo la quale le differenze fra la ricerca qualitativa e quantitativa risiedano nello studiare, o meno, i significati.
3. DIVERSITÀ NEGLI OBIETTIVI GENERALI DELLA RICERCA In questo paragrafo vengono discusse le definizioni di ricerca qualitativa che sono centrate sulla diversità dei suoi obiettivi generali da quelli della ricerca quantitativa. Secondo questo punto di vista la ricerca qualitativa è esclusivamente esplorativa. L'ambito dei suoi risultati è prevalentemente di tipo idiografico e non nomotetico. Nei casi in cui si fa riferimento ad una teoria essa emerge a posteriori, in altri termini la ricerca qualitativa è orientata alla costruzione di una teoria non alla sua conferma.
22 CAPITOLO 1
La ricerca qualitativa è esplorativa. È abbastanza comune che i ricercatori qualitativi sottolineino come il loro approccio sia esplorativo, di tipo induttivo rispetto a quello confermativo deduttivo o ipotetico-deduttivo della ricerca quantitativa [Taylor e Bogdan 1998]. Bryman [1999] evidenzia come spesso i ricercatori quantitativi vedono la ricerca qualitativa come una fase preparatoria di un progetto di ricerca utile per generare ipotesi che possono essere controllate più rigorosamente dalla ricerca quantitativa. L'autore sostiene che mentre nella ricerca quantitativa le teorie e i concetti sono il punto di partenza di un'indagine, i ricercatori qualitativi generalmente rifiutano l'idea di effettuare uno studio all'interno di una cornice teorica. Secondo questo punto di vista la differenza fra i due tipi di ricerca risiederebbe quindi negli obiettivi generali, nell'essere diversamente e specificamente adatte a diversi tipi di scopi: la ricerca qualitativa è il tipo d'indagine che si utilizza quando un dominio è poco conosciuto, quando non esistono ancora delle ipotesi chiaramente delineate e si è in una fase esplorativa. Stebbins definisce l'esplorazione nelle scienze sociali come «un'impresa di tipo volontario, ad ampio spettro, sistematica, progettata per massimizzare la scoperta di generalizzazioni che conducono alla descrizione e alla comprensione di un'area della vita sociale o psicologica» [Stebbins 2001, 3]. La ricerca esplorativa consente quindi di allargare il campo del conosciuto con una modalità volontaria e sistematica particolarmente utile quando non si abbia una conoscenza scientifica del processo o dell'attività che si vuole conoscere, ma si abbia ragione di ritenere che siano presenti elementi che valga la pena conoscere. In questo tipo d'impresa l'esplorazione è nomotetica poiché cerca di produrre generalizzazioni valide rispetto a un tipo di processo, di attività o di situazione. La ricerca idiografica dove nessuna generalizzazione al di là dell'oggetto di studio è ricercata non appartiene alla tradizione della ricerca esplorativa [ibidem]. L'opposto dell'esplorazione è la ricerca ipotetico-deduttiva, in cui vengono derivate delle ipotesi da una teoria di riferimento, per testarle successivamente sulla base dei dati raccolti. Dal punto di vista dei procedimenti logici, spesso la ricerca esplorativa è assimilata al ragionamento induttivo in cui, partendo da dati empirici tra loro uniformi, si arriva alla formulazione di una regola universale, mentre la ricerca ipotetico-deduttiva viene, come suggerisce il nome, identificata con il procedimento deduttivo in cui, date delle premesse generali vengono
TRA RICERCA QUANTITATIVA E QUALITATIVA 23
da esse ricavate conclusioni logicamente necessarie. Il ragionamento induttivo è fondamentale nella scienza in quanto il ragionamento deduttivo da solo, occupandosi di tirare fuori quanto è contenuto implicitamente nelle sue premesse, non può scoprire cose nuove. Senza l'induzione, il trovare elementi nuovi nelle scienze sociali è affidato esclusivamente alla serendipity, la scoperta casuale o occasionale di risultati a cui non si era pensato [Merton 1949]. Chiarite le caratteristiche della ricerca esplorativa, torniamo al nostro problema di partenza: è possibile rimandare la distinzione tra ricerca qualitativa e quantitativa a quella tra esplorazione e conferma? Stebbins afferma chiaramente che «esplorazione non è un sinonimo di ricerca qualitativa» [Stebbins 2001, 5], in quanto essa è abbondantemente presente in molta ricerca considerata quantitativa. Rispetto a questo, si pensi a come moltissime inchieste condotte tramite questionari con risposte chiuse, in cuí le risposte fornite vengono poi trasformate in numeri, siano eminentemente descrittive, impegnate, come scopo esplicito, ad esplorare un fenomeno poco conosciuto. Sempre nell'ambito della ricerca quantitativa, è sufficiente poi dare uno sguardo sommario a un qualunque software di analisi statistica dei dati per accorgersi che esiste una sempre più nutrita schiera di tecniche eminentemente esplorative e orientate alla scoperta di relazioni fra variabili, piuttosto che a testare nessi ipotizzati a priori. Sul versante della ricerca qualitativa diversi autori consigliano di esplicitare le idee pregresse che si hanno su un fenomeno da studiare per testarle durante lo studio. Ad esempio Strauss e Corbin [1990], due eminenti rappresentanti della Grounded Theory, consigliano di leggere la letteratura tecnica su un fenomeno studiato per avere a disposizione concetti e relazioni che sono messi alla prova sui dati raccolti. Mayring [2000] in un articolo intitolato Analisi del contenuto qualitativa, apparso su un noto forum di ricerca qualitativa, parla esplicitamente della possibilità di utilizzare un metodo deduttivo per identificare le categorie di analisi dei dati qualitativi. Da quanto riportato sembra quindi insostenibile l'identificazione tout court della ricerca qualitativa con l'esplorazione e della ricerca quantitativa con il metodo ipotetico deduttivo, poiché si fa abitualmente esplorazione in entrambi gli approcci e talvolta si hanno delle ipotesi a priori da testare anche nella ricerca qualitativa. Inoltre, dal punto di vista di ragionamento
24 CAPITOLO 1
logico, come evidenzia Hammersley [1999], qualunque tipo di ricerca utilizza continuamente entrambi i metodi, facendo delle deduzioni, nel senso che si va dalle idee ai dati, e facendo delle induzioni, vale a dire, passando dai dati alle idee. Ciononostante, secondo Stebbins [2001] permangono alcune differenze rispetto all'uso dell'esplorazione nelle due tipologie di ricerca. In particolare l'autore fa notare come negli approcci quantitativi l'esplorazione sia presente soprattutto all'inizio per fenomeni poco conosciuti, lasciando il posto alla deduzione quanto meglio è conosciuto l'oggetto di studio. Negli approcci qualitativi invece l'esplorazione è presente anche nel caso dí fenomeni parzialmente conosciuti. Quindi quello che cambierebbe nei due approcci sono i tempi e il tempo dedicato all'utilizzo del metodo esplorativo: nella ricerca qualitativa è più utilizzato, come rappresentato nella figura 1.1. Ad un esame attento, comunque, rimangono delle diversità importanti anche rispetto al come viene attuata l'esplorazione. Negli approcci quantitativi essa è affidata a risposte a domande standardizzate oppure, in sede di analisi dati, ad approcci induttivi, ma di tipo formalizzato (ad esempio analisi delle componenti principali, analisi delle corrispondenze, e in generale tutte le procedure di data mining senza un apprendimento supervisionato). Negli approcci qualitativi l'esplorazione comincia con l'individuazione delle unità di significato, di quelli che sono i concetti o le categorie in cui è possibile classificare i dati raccolti [Strauss e Corbin 1990] ed è affidata al ragionamento del ricercatore che non ha a disposizione procedure standardizzate per arrivare dai dati alle idee. La ricerca qualitativa ha un obiettivo idiografico. Si dice idiografico uno studio o una ricerca che ha per oggetto casi particolari e che evita quindi le generalizzazioni. La distinzione fra scienze idiografiche e scienze nomotetiche, in cui l'obiettivo della ricerca è la determinazione di leggi generali, si deve a Windelband che nel 1894 proponeva una differenziazione delle diverse scienze su criteri metodologici. Secondo questa divisione, il prototipo delle scienze idiografiche è la storia, in cui si cercano di trovare le singolarità irripetibili negli eventi, mentre quello delle scienze nomotetiche la fisica. Diversi autori propongono di identificare per la ricerca qualitativa un ambito di risultati di tipo idiografico. Denzin e Lincon [2000], ad esempio,
o o o
lL
2
a, -2
<à" 2 -c, 5 F'''9 E a, t, . =
g
g o -. R
.0 N = 7,
4
g
—= -o •-- E . t.,- C
= 3
8
n
a, o 22
• g a' 9-, ku i71 t: ,9,,
.
o z 1.
e
' 2
2
§) FA
2 e
l2
-2 -3
o W :S.'
a c 2
-g., .e
-2 .2
.2
"2, .5 -,,E. 2 , o
= "2 .
72 'à 2
o a., .r., {2' e2
z, O .9 9
2o
-0
c2
"--., = O . . 12
0„, .R: a, 1...1 . e
.2 o
N :5 LY; L
o
TRA RICERCA QUANTITATIVA E QUALITATIVA 27
26 CAPITOLO 1
evidenziano come nella ricerca qualitativa vengano presi in considerazione i vincoli e i problemi della vita di tutti i giorni e si diriga l'attenzione sullo specifico caso oggetto di studio, con una posizione idiografica. Per ragionare su questo punto si consideri il celebre studio di Thomas e Znaniecki, Il contadino polacco in Europa e in America (1918-1920), spesso citato come esempio paradigmatico e storico di ricerca qualitativa. Si faccia attenzione al titolo dell'opera: a cosa serve l'utilizzo dell'articolo determinativo il, se non a generalizzare i risultati relativi ad alcune situazioni singolari e irripetibili dei contadini polacchi studiati ad altri contadini polacchi? In altri termini l'articolo è qui utilizzato per trasformare un nome generale – inteso come insieme di caratteristiche – nella classe corrispondente ed estendere ai componenti di tale classe i risultati. Se rimanesse poi qualche dubbio sull'intenzione nomotetica dello studio dei due celebri sociologi è sufficiente leggere questo passaggio dalle loro conclusioni: [il nostro lavoro] può dare suggerimenti per lo studio di altri gruppi, più particolareggiati e metodologicamente più perfetti, aiutando così l'analisi delle società moderne a elevarsi al di sopra dello stadio presente di impressionismo giornalistico, e preparando il terreno per la determinazione di leggi generali realmente esatte del comportamento umano. Le analogie alle quali abbiamo accennato sono sotto questo aspetto incoraggianti, in quanto ci permettono di presumere che queste leggi siano possibili e che la loro determinazione non richiederà difficoltà insormontabili [Thomas e Znaniecki 1927; trad. it. 1968, 525, corsivo aggiunto]. Il discorso di Thomas e Znaniecki risulta comprensibile, in quanto, descrizioni e risultati relativi a irripetibili situazioni e vissuti di alcuni contadini polacchi servirebbero a molto poco dal punto di vista conoscitivo o di orientamento dell'azione. Nel discorso scientifico, gli asserti di una qualche rilevanza esplicativa non si riferiscono mai ad individualità concrete e irripetibili, ma sempre ad individui tipizzati, ad attori sociali anonimi [Campelli 1994]. Quello che al massimo si può fare è proporre qualche articolata e approfondita descrizione di un particolare caso o situazione, confidando che sia il lettore a generalizzare. Ma qualcuno lo deve pur fare. A che cosa serve
una ricca presentazione di un caso singolo se non pensiamo che essa possa essere generalizzata, almeno parzialmente, ad altri casi? Se queste argomentazioni non dovessero risultare sufficienti risulterà estremamente semplice smentire l'equazione tra ricerca quantitativa e approccio nomotetico. È evidentemente frequentissimo l'uso di strumenti di natura altamente metrica per la definizione del punteggio del singolo soggetto, si pensi ad esempio all'uso dei test standardizzati nelle valutazioni di tipo clinico. In conclusione, come afferma Bryman, «dovrebbe essere utilizzata cautela nel trattare le due tradizioni di ricerca (qualitativa e quantitativa) come strettamente associate con risultati nomotetici e idiografici». Una certa generalizzazione è necessaria in qualunque spiegazione o in qualunque descrizione che voglia avere una qualche utilità applicativa. Si capisce allora perché «i ricercatori qualitativi stiano ideando delle strategie per aumentare la generalizzabilità della loro ricerca» [Bryman 1999, 42].
4. DIFFERENZE NELLE TECNICHE DI INDAGINE
E NELLA TIPOLOGIA DEI DATI Diversi autori sostengono che ricerca quantitativa e qualitativa differiscano rispetto alla tipologia dei dati studiati e al modo con cui essi sono raccolti. Ad esempio Bryman e Burgess [1999] considerano lo studio di dati che occorrono in modo «naturale» rispetto a quello di dati che provengono da setting artificiali, che, in qualche modo, sono «creati» dal ricercatore, un elemento importante nella distinzione qualitativo/quantitativo. Inoltre, secondo Bryman [1999] i dati nella ricerca qualitativa, a differenza di quelli della ricerca quantitativa, sono ricchi perché hanno un'attenzione a dettagli di un certo avvenimento che sono spesso intricati e perché descrivono la vita sociale nella lingua e nello stile dei soggetti studiati. Silverman sottolinea questo punto sostenendo che la vera forza della ricerca qualitativa è che «può utilizzare dati che occorrono in modo naturale per individuare le sequenze interattive in cui i significati delle persone coinvolte sono sviluppati» [Silverman 2005, 12]. Le affermazioni di questi autori sembrano condivisibili se identifichiamo la ricerca quantitativa con le indagini sperimentali in cui c'è un disegno
TRA RICERCA QUANTITATIVA E QUALITATIVA 29
28 CAPITOLO 1
mirato a cogliere le differenze dell'impatto di una variabile indipendente su una o più variabili dipendenti controllando gli altri possibili fattori intervenienti. In questo caso la diversità risulta immediatamente evidente con situazioni in cui non c'è un intervento così forte da parte del ricercatore, che si limita a osservare una situazione già esistente o a intervistare delle persone. La situazione appare più sfumata se includiamo nella ricerca quantitativa anche la ricerca basata sull'inchiesta, in cui le variabili vengono misurate e non manipolate. Una differenza che sembra comunque permanere è che la ricerca tramite questionario si basa normalmente su domande chiuse, con alternative di risposta predeterminate dal ricercatore e quindi, in questo senso, più artificiali. Quello che appare quindi sostenibile è che nella ricerca qualitativa il ricercatore raccoglie informazioni nel modo più aperto possibile, attraverso l'osservazione, interviste o strumenti con domande aperte, testi e documenti preesistenti all'indagine, in cui la funzione dello stimolo è quella di provocare un flusso il quanto più possibile libero, con minore intromissione da parte del ricercatore. La diversità sembra dunque risiedere nel modo in cui il ricercatore costruisce i dati: nella ricerca quantitativa si utilizzano dati costruiti secondo regole standardizzate ed espressi in forma numerica e possiamo parlare quindi di dati strutturati. Nella ricerca qualitativa, invece, non esiste un percorso completamente standardizzato per arrivare a delle unità di significato, a quelle che nella ricerca quantitativa sono le variabili. I dati sono in forma di testi, immagini, sequenze audio, riprese e parliamo di dati non strutturati. Sebbene quindi non sia corretto affermare che esistono dati che per loro natura sono quantitativi o qualitativi, visto che la scelta di come considerare un dato è sempre un'operazione di costruzione da parte del ricercatore, è pur vero che quello che si trova di fronte il ricercatore come materiale di partenza è profondamente diverso. Da una parte c'è una matrice [Ricolfi 1998] piena di cifre costruita assegnando numeri alle risposte dei soggetti secondo regole largamente condivise, dall'altra testi, documenti, osservazioni o, più raramente, immagini fotografiche, registrazioni video, registrazioni audio. In questo senso appare corretto affermare che la ricerca quantitativa si basa su dati quantitativi (nel senso di dati strutturati come numeri), mentre la ricerca qualitativa su dati qualitativi (nel senso di dati non strutturati). Può sembrare tautologico ma quella appena definita è la prima, indiscutibile, differenza tra le due forme di ricerca.
5. DIFFERENZE NELLEANALISI DEI DATI E NELL'ESPOSIZIONE
DEI RISULTATI In questo paragrafo vengono discusse le definizioni di ricerca qualitativa che prevedono che essa utilizzi metodi di analisi e di esposizione dei risultati che non facciano riferimento, o lo facciano il meno possibile, ai numeri e/o alla statistica. È piuttosto facile trovare affermazioni di questo tipo, ad esempio, Strauss e Corbin [1990] sostengono che una componente fondamentale della ricerca qualitativa è l'utilizzo di rapporti che raccontano i risultati in forma verbale e Miles e Hubermas [1994] evidenziano che la distinzione fra ricerca qualitativa e ricerca quantitativa si basa sul fatto che la prima utilizza le parole e la seconda i numeri. Su questa linea anche Denzin e Lincon [2000], che sottolineano che la ricerca qualitativa è caratterizzata dall'attenzione ai fenomeni in termini di processi e di significati e non alla loro misurazione in termini di quantità, di intensità o di frequenza. Effettivamente appare semplice constatare che le ricerche quantitative contengano molte tabelle piene di cifre e analisi statistiche, mentre gli studi qualitativi sono ricchi di descrizioni verbali. Contrapporre l'uso dei numeri a quello delle parole è dunque un criterio efficace per distinguere la ricerca qualitativa da quella quantitativa? Questa domanda non è particolarmente recente. Affermava George Lundberg, un famoso sociologo americano, negli anni '60: L'idea corrente è che [...] se si utilizzano simboli numerici, specialmente utilizzando la notazione araba, si stiano utilizzando metodi quantitativi. Se invece si discute di masse di dati con concetti di «più» e di «meno» invece che numeri formali, allora non si stanno utilizzando metodi quantitativi. Un'impressionante illustrazione da un libro recente di un importante sociologo renderà chiaro il punto. Dopo una discussione delle deplorevoli limitazioni dei metodi statistici, l'autore aggiunge questa pregevole nota: «Dovunque i metodi statistici avranno la predominanza, il numero degli studenti di elevato livello intellettuale che sono attratti dalla sociologia tenderà a diminuire considerevolmente» [Znaniecki 1934, 235]. In breve questo autore, alla fine, torna ad una prova statistica dei deplorevoli effetti delle statistiche [Lundberg 1964, citato in Hammersley 1999, 72].
30 CAPITOLO 1
Il dubbio che insinua Lundberg è quindi che ricercatori qualitativi e quantitativi facciano gli stessi ragionamenti, utilizzando semplicemente un linguaggio diverso. Rispetto a questo Hammersley [1999] nota come i ricercatori qualitativi facciano ampio ricorso ad affermazioni quantitative utilizzando forme verbali come «regolarmente», «frequentemente», «spesso», «tipicamente», «principalmente» ecc. La conclusione dell'autore è che la forma in cui sono fatte tali affermazioni non fa alcuna differenza rispetto alla loro sostanza: si sta parlando sempre di quantità. In altri termini se per descrivere la presenza di un certo elemento nell'ambito di un gruppo d'interviste effettuate utilizzo parole come «mai», «qualche volta» o «sempre», sto comunque quantificando un fenomeno, seppure non in forma metrica (che comunque non è certo l'unico livello di misura considerato nella ricerca quantitativa). Come afferma Leonardi [1991], non sembra che esista un linguaggio (asserti o tipologie di asserti) che sia intrinsecamente qualitativo o quantitativo, in quanto è spesso possibile una traducibilità reciproca che lascia la dimensione semantica invariata. In conclusione l'utilizzo di avverbi piuttosto che di numeri non appare essere un criterio solido per distinguere ricerca qualitativa e quantitativa: basare una disciplina scientifica sulla scelta di parole invece che di numeri quando si parla di quantità, è fondarla sul fatto che per fare i conti si ricorre a un abaco piuttosto che a un computer.
6. DIFFERENZE METODOLOGICHE FRA RICERCA QUALITATIVA E RICERCA QUANTITATIVA RICONSIDERATE
Torniamo alle differenze discusse sopra e riesaminiamole velocemente per trarre alcune conclusioni più generali. Abbiamo visto che esiste ampia sovrapposizione nell'orizzonte epistemologico tipico della ricerca qualitativa e di quella quantitativa, almeno finché si rimane all'interno della ricerca empirica dove le affermazioni che fa il ricercatore vengono accettate o rifiutate sulla base dei dati costruiti e raccolti dal ricercatore stesso. Successivamente si è notato che se non si vuole cadere in affascinanti ma illusori essenzialismi, le due tipologie di ricerca non studiano necessariamente cose diverse e, in ogni caso, prendono in considerazione solo alcuni dei moltis-
TRA RICERCA QUANTITATIVA E QUALITATIVA 31
simi aspetti possibili di un fenomeno. Nell'ambito delle possibili differenze riguardanti l'obiettivo della ricerca abbiamo visto come il definire l'ambito dell'indagine qualitativa come idiografico possa sembrare una soluzione ad alcuni problemi, ma come contemporaneamente significhi rinunciare a qualunque possibile generalizzazione. È questa una cosa che, come abbiamo visto, risulta troppo limitante agli stessi ricercatori qualitativi, e comunque la ricerca quantitativa non è solo nomotetica. Sempre rispetto agli obiettivi della ricerca abbiamo evidenziato come l'esplorazione venga effettuata in entrambi gli approcci, sebbene esistano delle differenze importanti rispetto al come essa viene attuata: da una parte l'esplorazione è mirata alla descrizione delle cose o alle relazioni fra le cose che abbiamo cercato (ricerca quantitativa), dall'altra alla descrizione delle cose e delle relazioni che abbiamo trovato (ricerca qualitativa). Esaminando poi le tecniche d'indagine e alla tipologia dei dati abbiamo visto come i dati della ricerca qualitativa siano in forma non strutturata, in quanto frutto di una raccolta con strumenti aperti e/o disponibili in modo naturale, senza che il ricercatore abbia creato una struttura prima della loro raccolta, come invece avviene nella ricerca quantitativa. Infine, riguardo ai metodi di analisi, il basare una differenziazione sull'utilizzo o meno dei numeri e della statistica e in generale dell'analisi dei dati formalizzata sembrerebbe la via più semplice, ma è una strada che è praticabile solo se si rimane a un livello molto superficiale, che non tocca la sostanza dei ragionamenti che vengono fatti. In entrambe le tipologie di ricerca è infatti inevitabile il ricorso alla quantificazione e quindi all'utilizzo delle tecniche formali e/o statistiche di analisi che vanno scelte in funzione dello specifico problema oggetto di studio e non dell'utilizzo di un particolare approccio. Per comodità di lettura, nella tabella 1.2 viene riportato un quadro riassuntivo di quelle che, a nostro parere, sono le differenze fra ricerca quantitativa e ricerca qualitativa riconsiderate alla luce della nostra analisi. La tabella evidenzia che esiste un elemento forte, di carattere metodologico, che distingue la ricerca qualitativa da quella quantitativa ed esso attiene alla dicotomia aperto/chiuso. La ricerca quantitativa è chiusa, essa esplora un ambito o testa delle ipotesi sulla base di dati strutturati che hanno dei valori predeterminati sulla base delle definizioni operative dei concetti che studia. La ricerca quantitativa utilizza tecniche d'indagine che definiscono a priori
32 CAPITOLO 1
TRA RICERCA QUANTITATIVA E QUALITATIVA 33
TAB.1.2. Una rilettura delle differenze tra ricerca qualitativa e quantitativa Amavo o ►tt animar
tuata» Riq,CMKIIIWORIVA
Di olmo!~
rtidatA*10111Valkit4 Misti
Misti
RIFERIMENTI EPISTEMOLOGICI OGGETTO DI STUDIO DELLA RICERCA
Significati e/o comportamenti
Significati e/o comportamenti
OBIETTIVO GENERALE DELLA RICERCA
• Esplorazione non vincolata • Test d'ipotesi sulla base di dati non strutturati • Possibilità di scoperta di proprietà sulla base dei dati
• Esplorazione vincolata • Test d'ipotesi sulla base di dati strutturati • Possibilità di scoperta di relazioni fra proprietà che sono state definite operativamente prima della raccolta dei dati
TECNICHE D'INDAGINE
• Tecniche di raccolta aperte • Dati non strutturati I dati provengono da situazioni in cui il ricercatore utilizza metodi d'indagine aperti (osservazione, interviste o strumenti con domande aperte, testi e documenti preesistenti all'indagine)
• Tecniche di raccolta chiuse • Dati strutturati I dati provengono da situazioni in cui gli stimoli sono standardizzati (setting sperimentali o strumenti con domande chiuse)
• Codifica • Statistica testuale
• Statistica parametrica • Statistica non parametrica
E TIPOLOGIA DEI DATI
ANALISI DEI DATI
• Text mining
Statistica non parametrica (dopo la codifica)
• Data mining
Con una ricerca di standardizzazione nella fase iniziale della costruzione dei dati. Nella maggior parte dei Data mining casi poggia su una matrice (dopo la codifica) Non necessariamente poggia su soggetti per variabili, dove i una matrice soggetti per variabili soggetti sono di numero largamente maggiore alle variabili e spesso i soggetti sono di numero inferiore alle variabili
lo spazio delle possibili risposte che si potranno ottenere, raccoglie quindi dati strutturati e utilizza tecniche di analisi che riguardano unità di significato, le variabili, che hanno valori determinati completamente dal ricercatore a priori. La ricerca quantitativa è orientata alla misurazione di proprietà conosciute a priori che vengono definite operativamente [Ricolfi 1998] e trasformate in variabili prima di raccogliere i dati. La ricerca qualitativa è aperta, esplora un ambito o testa delle ipotesi sulla base di dati non strutturati, senza avere il vincolo di definire operativamente i concetti che studia e di trasformarli in variabili prima della raccolta dei dati. La ricerca qualitativa utilizza tecniche d'indagine che non defi-
niscono a priori lo spazio delle possibili risposte che si potranno ottenere, raccoglie quindi dati non strutturati e utilizza tecniche di analisi che conducono, almeno in parte, all'identificazione di proprietà/concetti nuovi, che non stava cercando. In entrambi gli approcci si cerca qualcosa, nella ricerca quantitativa si sa il dove, il come e il che cosa in tutti i dettagli. Nella ricerca qualitativa si sa il dove, si conosce (o si dovrebbe conoscere) il come, ma si conosce il che cosa solo in termini molto generali, il resto va scoperto attraverso i dati. La ricerca quantitativa trova quello che cerca e non sappiamo niente di tutto quello che non ha cercato. La ricerca qualitativa trova quello che trova e non sappiamo niente di tutto quello che non ha trovato. In termini generali, per qualità s'intende «la proprietà o l'insieme di proprietà, di caratteristiche che determinano un aspetto di qualcosa» [De Mauro 2000]. In questo senso, la ricerca qualitativa è finalizzata alla scoperta e giustificazione su base empirica delle proprietà/caratteristiche e delle relazioni fra proprietà/caratteristiche di uno specifico aspetto di un determinato oggetto di analisi. Le ricerche reali si collocano lungo il continuum chiuso/aperto. Più una ricerca è aperta maggiore è la possibilità che scopra proprietà non previste a priori nei dati, maggiori sono i problemi che deve affrontare sul piano della validità e dell'attendibilità. La possibilità di scoprire nuove proprietà in un fenomeno oggetto di studio comporta un prezzo che può essere attribuito alle ampie difficoltà che un ricercatore deve affrontare per garantire sistematicità e precisione nella raccolta e nell'analisi dei dati. Avere maggiori difficoltà non vuol dire poter pensare di rinunciare a questo obiettivo, visto che, come abbiamo definito, ci muoviamo comunque entro i paradigmi della ricerca empirica, ma cercare delle strategie che permettono comunque un rigore metodologico. Il come si fa ricerca qualitativa, le metodologie, servono appunto a porre le basi per affrontare questi problemi. Fare una buona ricerca qualitativa richiede di compiere un numero estremamente ampio di scelte metodologiche. Il resto di questo libro verte sul come affrontare tali scelte.
34 CAPITOLO 1
RIEPILOGO Il capitolo si è posto come scopo principale quello di inquadrare le caratteristiche principali della ricerca qualitativa. Molti autori, per definire le peculiarità della ricerca qualitativa, l'hanno messa a confronto con la ricerca quantitativa, proponendo alcuni ambiti di differenziazione. Sono stati illustrati punti di vista che enfatizzano delle differenze nelle cornici epistemologiche, nell'oggetto di studio, negli obiettivi della ricerca, nelle tecniche di indagine e nella tipologia dei dati raccolti, nelle modalità di analisi dei dati e di esposizione dei risultati. Queste aree di potenziale definizione della ricerca qualitativa «per differenza» sono state discusse criticamente e riconsiderate alla luce di un dibattito metodologico che è ancora attuale, ma che chiarisce alcune caratteristiche della ricerca qualitativa, che è aperta, esplora un ambito o testa delle ipotesi sulla base di dati non strutturati, senza il vincolo di dover definire operativamente i costrutti oggetto di studio identificando indicatori declinati già prima della raccolta dei dati. Le tecniche d'indagine usate non definiscono a priori lo spazio delle possibili risposte aumentando la probabilità di identificazione di proprietà/concetti o relazioni tra di essi inattese dal ricercatore stesso.
Il problema della validità e dell'attendibilità
1. LA VALIDITÀ
Sebbene il problema della validità sia un problema cruciale nella ricerca qualitativa come in qualunque altro tipo di studio empirico, sí tratta di una questione che è spesso trascurata. Già nel 1979 Mehan notava come gli studi qualitativi fossero aneddotici, come molto raramente esplicitassero i criteri di scelta dei casi oggetto di studio e, infine, come non dessero la possibilità di accedere ai dati grezzi su cui sono state fatte le interpretazioni del ricercatore. Bryman pone il problema nel modo seguente: Nella ricerca qualitativa per quanto riguarda l'uso dei dati in relazione alle conclusioni o alle spiegazioni c'è una tendenza verso un approccio aneddotico. Si usano brevi conversazioni, pezzetti di interviste non strutturate [...] al fine di fornire le prove di una determinata controversia. Ci sono motivi per inquietarsi poiché raramente ci si preoccupa della rappresentatività o generalità di questi frammenti [Bryman 1988, 77].
Nel corso del tempo sono state proposte diverse monografie dedicate all'attendibilità e alla validità nella ricerca qualitativa e quella di Kirk e Miller [1986] è attualmente la più citata, cercando le parole vali dity e qualitative research su Google scholar. Gli autori affermano:
IL PROBLEMA DELLA VALIDITÀ E DELL'ATTENDIBILITÀ 37
36 CAPITOLO 2
La conoscenza scientifica derivata dalla [...] ricerca qualitativa è in gran parte legata a sofisticate tecniche utilizzate da professionisti, avventurieri, detective, giornalisti e spie per scoprire delle cose sulle persone. Necessariamente questo aspetto formale si accompagna ad alcuni aspetti distintivi. La ricerca qualitativa è impegnata socialmente, è cosmopolita e, più di tutto, oggettiva [ibidem, 10, corsivo aggiunto]. Oggettivo significa secondo Kirk e Miller che, nonostante sia vero che i dati empirici si possano leggere in molti modi, non tutte le interpretazioni rendono conto allo stesso modo di quello che è possibile osservare. In altri termini il modo in cui percepiamo il mondo dipende in gran parte da noi, ma non tutti i punti di vista possono essere ugualmente considerati: «chi crede di essere in grado di fermare un treno in corsa a mani nude potrebbe essere punito dal mondo per questa sua idea» [ibidem, 11]. Nel discutere i problemi legati alla validità nell'ambito della ricerca qualitativa Kirk e Miller [ibidem] fanno riferimento a criteri largamente utilizzati quando si sviluppano test o strumenti nell'ambito della ricerca psicologica ed educativa. La codificazione più condivisa di tali criteri è quella dall'American Psychological Association, secondo la quale:
I problemi della validità sono problemi riguardo cosa può essere propriamente inferito dal punteggio di un test; la validità si riferisce all'appropriatezza delle inferenze dal punteggio del test o da altre forme di valutazione [...] è importante notare che la validità è inferita e non misurata direttamente [...]. Essa è quindi qualcosa che viene giudicato adeguato, marginale, oppure non soddisfacente [APA 1974, 25]. Molti dei concetti elaborati per giudicare la qualità di test in ambito psicologico ed educativo sono importanti anche nell'ambito della ricerca qualitativa, ma esistono tuttavia delle fondamentali differenze che richiedono una loro espansione e diversa caratterizzazione. Tali diversità derivano da due elementi che Krippendorf [2004] discute nell'ambito delle problematiche nell'analisi di dati testuali, ma che a nostro parere sono applicabili più in generale. Il primo elemento è legato al fatto che la ricerca qualitativa tratta dati destrutturati, che assumono un significato sia in rapporto al contesto da
VALIDITÀ
TEORICA II grado in cui le ipotesi iniziali o sviluppate nel corso dello studio sono coerenti con i dati e i risultati
SEMANTICA
STRUMENTALE Il grado in cui procedure diverse di raccolta o di analisi dei dati giungono agli stessi risultati
La corrispondenza fra le categorie di analisi e i significati nel contesto studiato
fig.2.1. Categorie di validità nella ricerca qualitativa.
cui sono tratti, sia rispetto alle analisi effettuate dal ricercatore, mentre nella costruzione di test e questionari si cerca la standardizzazione del significato degli stimoli proposti. La seconda diversità riguarda il fatto che i dati e i risultati nella ricerca qualitativa non si riferiscono sempre ad un'unità di analisi omogenea (gli individui, i gruppi ecc.), ma si tratta di testi, filmati, immagini ecc., che possono riferirsi a individui, gruppi e oggetti in maniera spesso intricata e disomogenea. Seguendo la classificazione di Kirk e Miller [1986] distingueremo tre diverse tipologie di validità che sono collegate fra loro: la validità semantica, la validità strumentale, la validità teorica (cfr. fig. 2.1). Validità semantica. Kirk e Miller [ibidem], parlando di questo tipo di
validità, fanno un parallelo con quella che, nella ricerca quantitativa, è chiamata validità di contenuto ed indica il grado in cui uno strumento contiene tutte le caratteristiche che definiscono il concetto che si intende misurare. In termini generali, la validità di contenuto indica semplicemente se lo stru-
38 CAPITOLO 2
mento, ad un esame da parte di uno o più esperti, risulta che valuti le qualità che dice di voler misurare. Secondo una definizione più specifica, ad esempio Boncori [1993, 121], «un test ha buona validità di contenuto quando gli elementi stimolo di cui si compone [...] producono risposte che siano un campione rappresentativo dell'universo di contenuti che il test si propone di misurare». Nell'ambito della ricerca qualitativa il contenuto di uno strumento o di una ricerca non è mai completamente identificabile a priori e, come abbiamo notato sopra, esso assume una forma e un significato in rapporto al contesto da cui è tratto e quindi appare più opportuno parlare di validità semantica. Con questa espressione Krippendorff [2004] indica la corrispondenza fra le categorie con cui viene analizzato un testo (o frutto dell'analisi di un testo) e i significati che ha quel testo nell'ambito studiato. In senso più esteso, considereremo la validità semantica nella ricerca qualitativa il grado di coerenza fra le categorie frutto dell'analisi (o alla base dell'analisi) e il significato che esse hanno rispetto all'uso che ne viene fatto dai soggetti studiati o, comunque, in un determinato codice linguistico. Come fa notare Krippendorf, la preferenza nell'ambito degli studi etnografici per costrutti di analisi derivati da quelli in uso presso gli indigeni e l'abitudine di discutere i risultati di una ricerca con i soggetti coinvolti, sono esempi di attenzione alla validità semantica. Quest'ultima procedura, detta convalida del rispondente [Silvermann 2000], è secondo Lincoln e Guba [1985] la tecnica più importante per stabilire la credibilità di una ricerca qualitativa. L'idea per cui le opinioni e le valutazioni dei soggetti partecipanti a uno studio possano costituire una forma di validazione dei risultati della ricerca stessa appare espressa nel postulato di adeguatezza di Scultz: un modello scientifico dell'azione umana deve essere costruito in modo tale che un comportamento agito nel mondo reale da un attore individuale risulti comprensibile, così come è indicato dal costrutto rappresentativo, sia dall'attore stesso, sia dai suoi compagni nei termini di un'interpretazione basata su senso comune della vita quotidiana [Schultz 1970, 17].
IL PROBLEMA DELLA VALIDITA E DELL'ATTENDIBILITA 39
Seale [1999] evidenzia come nel corso del tempo la procedura di convalida del rispondente abbia avuto diverse formulazioni, ma come la pratica più utilizzata nella ricerca qualitativa sia stata quella di chiedere l'opinione dei soggetti coinvolti su una parte o sulla globalità dei risultati di uno studio. Un esempio in questo senso è costituito da uno studio di Rosaldo [1993] condotto nelle Filippine dove, in un passaggio in cui l'autore cerca di capire che cosa spingesse i suoi informatori Ilongot a cacciare teste, racconta: Un giorno nel 1974 spiegai il modello antropologico dello scambio a un vecchio Ilongot chiamato Insan. Chiesi cosa pensasse dell'idea che l'andare a caccia dí teste derivasse dal fatto che una morte (quella della vittima decapitata) ne cancellasse un'altra (quella di un parente prossimo). Sembrò disorientato, così continuai, dicendo che la vittima di una decapitazione veniva scambiata con la morte di un proprio parente [...]. Insan rifletté un momento e rispose che poteva anche immaginare che qualcuno potesse pensare una cosa del genere (una scommessa sicura, giacché io lo avevo appena fatto), ma che lui e gli altri Ilongots non pensavano nulla del genere [Rosaldo 1993, citato in Seale 1999]. Nel passaggio appena citato, Rosaldo chiede l'opinione di un soggetto coinvolto nella ricerca rispetto a una possibile interpretazione e spiegazione di alcuni fatti classificati secondo alcune categorie descrittive come morte di un proprio parente prossimo e morte di una vittima per decapitazione. Non sempre però l'opinione del soggetto agente risulta essere decisiva per giudicare un concetto esterno al suo mondo, introdotto dal ricercatore su un piano di astrazione teorica. Si pensi ad esempio a tutte le astrazioni o spiegazioni teoriche di un comportamento basate sulle dimensioni inconsapevoli a chi agisce. Rispetto a questo problema Fielding e Fielding si esprimono così: Non c'è alcuna ragione per supporre che gli attori sociali abbiano uno status privilegiato in quanto commentatori delle loro azioni [...] questo feedback non si può ritenere una convalida o una smentita diretta delle inferenze dell'osservatore [Fielding e Fielding 1986, 43].
40 CAPITOLO 2
In conclusione la validità semantica riguarda quelle che Seale [1999] chiama descrizioni con basso tasso d'inferenza, le categorie con cui i soggetti classificano la loro realtà quotidiana e non le categorie interpretative legate a un significato teorico specifico che ha un senso all'interno di una determinata comunità scientifica. Validità strumentale. Kirk e Miller [1986] sostengono che la validità strumentale consiste nella concordanza fra i risultati trovati utilizzando una determinata procedura con quelli ottenuti utilizzando modalità alternative considerate valide. Gli autori fanno un esplicito parallelo con quella che nello sviluppo di un test è chiamata validità di criterio, che è normalmente espressa dalla correlazione dello strumento con precedenti e valide misure della stessa cosa (un tratto, un comportamento, un atteggiamento, un disturbo ecc.) che si sta studiando. In termini ideali si tratterebbe di avere un gold standard con cui confrontare la nostra misura, uno strumento di cui si sappia con certezza che rilevi la cosa che ci interessa. Questo nelle scienze sociali accade con un certa difficoltà e ci si accontenta di misure che sono gold standard nel senso che sono in uso da più tempo rispetto ad altre e la cui validità è documentata da studi replicati più volte da autori diversi. Nell'ambito della ricerca qualitativa, dove gli strumenti di rilevazione sono scarsamente standardizzati, è ancora più complicato sostenere che un certo tipo di rilevazione possa costituire un punto di riferimento condiviso e accettato. La validità strumentale nella ricerca qualitativa è stata tradizionalmente interpretata in termini di concordanza fra i risultati di metodi diversi di raccogliere i dati e di analizzarli attraverso la triangolazione, parola mutuata dalla navigazione dove indica il modo in cui calcolare la propria posizione su una mappa utilizzando due punti di riferimento. Il termine triangolazione compare nella letteratura della ricerca quantitativa nelle scienze sociali con il noto articolo di Campbell e Fiske [1959] sulla validazione convergente e discriminante, ed in questo ambito raggiunge punti elevati nell'uso delle cosiddette «matrici multitratto-multimetodo», mentre il primo a utilizzarlo nell'ambito della ricerca qualitativa è stato Denzin [1970]. L'idea alla base di questa procedura è che se alcuni aspetti di fenomeni e/o relazioni tra fenomeni sono evidenziati da più metodi, questi siano più validi. Ad esempio, ipotizziamo d'indagare il rapporto di una scuola con le famiglie degli alunni
IL PROBLEMA DELLA VALIDITA E DELL'ATTENDIBILITA 41
con i seguenti strumenti: intervista al dirigente scolastico, intervista ai docenti, interviste ai genitori, osservazione su campo e analisi dei documenti della scuola. Se la maggior parte degli strumenti evidenziasse una forte partecipazione delle famiglie alle attività scolastiche potremmo concludere con maggiore sicurezza che questa sia realmente presente. Il termine triangolazione è stato esteso [Janesick 2000] all'utilizzo di diverse fonti di dati, di diversi ricercatori, di diversi metodi per analizzare i dati e alla concordanza fra i risultati ottenuti con queste diverse procedure. Esistono comunque alcuni limiti a questo tipo di metodo per stabilire la validità in quanto può risultare difficile comparare i dati ottenuti con diversi metodi e, soprattutto, se un risultato non viene replicato con una metodologia diversa, questo non significa che esso non debba essere considerato. Come affermano Hammersley e Atkinson «differenti insiemi e tipi di risultati possono essere ugualmente importanti e illuminanti» [Hammersley e Atkinson 1995,200]. In conclusione considereremo la validità strumentale come il grado di concordanza, stabilita attraverso la triangolazione, fra i risultati di strumenti diversi per raccogliere e/o analizzare i dati rispetto a uno stesso oggetto di studio. Validità teorica. Kirk e Miller [1986] definiscono questo tipo di validità come il grado di corrispondenza fra quello che è previsto dalla teoria o da un'ipotesi e i risultati ottenuti. Secondo gli autori la validità teorica è simile a quella che nell'ambito della costruzione dei test viene chiamata validità di costrutto. Messick descrive quest'ultima come un processo di raccolta di prove per sostenere l'inferenza per cui una costanza di risposta osservata in un test ha un particolare significato; cosa fatta principalmente valutando il grado fino a cui relazioni empiriche con altre misure, oppure la loro mancanza, è in accordo con quel significato [Messick 1980, 1015]. Un costrutto può essere pensato come una miniteoria utilizzata per spiegare le relazioni fra i vari fenomeni studiati, utilizzando le parole di Cronbach «i costrutti sono scelti o creati al fine di organizzare l'esperienza in asserzioni simili a leggi» [Cronbach 1971, 462].
42 CAPITOLO 2
Nella ricerca qualitativa, spesso, non è disponibile a priori una teoria e l'attenzione alla validità teorica si manifesta nel cercare di mettere alla prova le ipotesi che progressivamente vengono fatte sulla base delle relazioni empiriche rintracciabili nei dati. Silvermann [2000] parla a tale proposito di principio della confutazione, vale a dire dell'esigenza di sottoporre i nostri risultati a tutti i possibili controlli considerando anche quelle informazioni che non supportano le nostre ipotesi per «superare la tentazione di saltare a facili conclusioni solo perché c'è qualche caso che sembra portare in una direzione interessante» [ibidem, 252]. Secondo l'autore tale principio si attua principalmente attraverso tre tecniche. La prima è quella della comparazione continua per cui il ricercatore dovrebbe controllare un'ipotesi sulla base di un caso diverso da quello su cui è stata sviluppata l'ipotesi stessa. Se questo non è possibile, almeno dovrebbe analizzare e valutare la coerenza di tutti i dati che si presentano in uno stesso caso [Glaser e Strauss 1967]. La comparazione continua è legata anche alla seconda tecnica, che è quella dell'analisi globale dei dati, per cui le ipotesi sviluppate analizzando una porzione dei dati più o meno piccola devono essere generalizzabili a tutti i dati disponibili per la ricerca. La terza tecnica, l'analisi dei casi devianti è descritta da Mehan così: la tecnica parte con una piccola quantità di dati. Si produce uno schema analitico provvisorio. Poi si confronta lo schema con altri dati e, se necessario, si apportano modifiche allo schema. Lo schema analitico provvisorio va confrontato costantemente con i casi «negativi» o «discrepanti» finché il ricercatore non ha ottenuto un piccolo insieme di regole ricorrenti che incorporano tutti i dati sotto esame [Mehan 1979, citato in Silvermann 2000]. In termini generali, le tecniche suggerite da Silvermann vanno nella direzione di un controllo continuo delle ipotesi che vengono sviluppate nel corso di una ricerca, con tutti i possibili elementi a disposizione, tenendo in particolare conto, ricercandoli attivamente, quelli che potrebbero contraddirle. Ad esempio se stiamo effettuando uno studio di caso in una scuola e, dalle prime analisi sui dati raccolti ipotizziamo che ci sia un forte problema riguardante l'organizzazione del lavoro, cercheremo, analizzando altri dati (intervistan-
IL PROBLEMA DELLA VALIDITA E DELL'ATTENDIBILITA 43
do il dirigente, intervistando i docenti, leggendo i documenti della scuola, sottoponendo un questionario ai genitori ecc.) di evidenziare una normale o addirittura un buon andamento in questo ambito. In un altro ambito, ad esempio nell'analisi qualitativa di un colloquio clinico potremmo ipotizzare, dopo la codifica di un certo numero di dialoghi fra paziente e terapeuta, che le affermazioni del cliente vadano nella direzione di un certo disturbo e potremmo vedere quante sono le frasi che invece non sono coerenti con questa nostra interpretazione. Ancora, se sulla base dell'analisi di alcune interviste aperte costruiamo una tipologia di un cliente soddisfatto di un certo prodotto potremmo controllare, successivamente nel tempo, se i clienti che hanno le caratteristiche individuate ricomprano di più il prodotto rispetto agli altri. In conclusione qualunque ipotesi testabile può essere utilizzata per indagare questo tipo di validità: essa consiste in un processo continuo, fatto di conoscenza progressivamente maggiore rispetto al fenomeno studiato, di congetture ulteriori e della loro messa alla prova. Considereremo quindi la validità teorica il grado di concordanza fra i dati da una parte e le ipotesi e le teorie dall'altra, tenendo presente che queste ultime possono essere già presenti (del tutto o in parte) all'inizio di una ricerca qualitativa, oppure essere sviluppate nel suo corso.
2. LAGENERALIZZAZIONE NELLA RICERCA QUALITATIVA Bryman [1999] afferma che la ricerca qualitativa, se vuole avere una qualunque utilità applicativa, ha l'esigenza di generalizzare le descrizioni o le spiegazioni che fa di un certo fenomeno. Questa posizione non è univocamente condivisa, ma spesso si pone un'esigenza di generalizzabilità. Ad esempio, immaginiamo di aver fatto delle interviste ad una classe di alunni di una scuola superiore rispetto alle loro condizioni di vita scolastica. Una domanda lecita, sebbene non sempre necessaria, è: i risultati di queste interviste sono estensibili a tutta la scuola o ad altre scuole? Nell'ambito della ricerca qualitativa sono stati proposti diversi metodi per dimostrare che i risultati di uno studio sono validi al di fuori della condizione contingente in cui sono stati ottenuti e, in particolare, che sono generalizzabili ad altri casi oltre a quelli esaminati. Nell'affrontare il problema,
44 CAPITOLO 2
Znaniecki [1934] ha proposto una distinzione fra la generalizzazione basata sulla frequenza e quella basata sull'induzione analitica. La prima si basa sullo studio di casi collegati a un certo fenomeno, per vedere se condividono determinate caratteristiche. La seconda, l'induzione analitica, procede invece selezionando casi che chiariscono aspetti di una teoria generale e la generalizzabilità è legata alla solidità del ragionamento teorico. Il criterio di generalizzazione è costituito da un qualche tipo di ragionamento logico anche nel concetto di generalizzazione teorica per cui «inferiamo che le caratteristiche presenti in un caso siano riferibili a una popolazione più ampia non a causa del fatto che il caso sia rappresentativo, ma perché le nostre analisi sono inattaccabili» [Mitchell 1983, 200]. Seale [1999] mette in guardia contro l'utilizzo esclusivo di criteri logici per generalizzare ed evidenzia come le conclusioni generate da un singolo caso, per quanto possa sembrare ferrea la logica che le lega al contesto in cui sono generate, dovrebbero essere sempre accompagnate dallo studio di diversi casi che hanno caratteristiche comuni. L'autore sostiene come, anche nella ricerca qualitativa, vada riconosciuta l'importanza della generalizzazione basata sulla frequenza sfruttando il potenziale dei numeri. Su questa linea Bryman [1988] descrive diversi modi in cui il tenere in conto la presenza di una certa caratteristica può aiutare i ricercatori qualitativi a stabilire la generalizzabilità dei loro risultati, ponendo particolare attenzione alla combinazione e all'integrazione di studi qualitativi con inchieste di tipo campionario. In conclusione, il modo più solido per stabilire la validità esterna dei risultati di una ricerca appare quello di unire le considerazioni teoriche all'evidenza basata sulla frequenza, rilevata empiricamente, delle caratteristiche in altri casi e, possibilmente, alla ripetizione dello studio su soggetti, in tempi e situazioni diverse.
3. L'ATTENDIBILITÀ
Kirk e Miller cominciano così la loro discussione sul problema dell'attendibilità nella ricerca qualitativa: «La comparazione dei risultati è un processo fondamentale nella ricerca scientifica così come nella vita quotidiana
IL PROBLEMA DELLA VALIDITA E DELL'ATTENDIBILITA 45
[...]. L'attendibilità dipende essenzialmente dalla descrizione esplicita delle procedure osservazionali» [Kirk e Miller 1986, 41]. Seale [1999], riprendendo una classificazione di LeCompte e Goetz [1982], effettua una distinzione fra attendibilità interna e attendibilità esterna di una ricerca qualitativa. La prima si riferisce al grado in cui applicando le stesse categorie di analisi ricercatori diversi giungerebbero alle stesse conclusioni ed è molto simile a quella che nell'analisi del contenuto viene chiamata attendibilità fra codificatori. La seconda, l'attendibilità esterna, si riferisce invece alla possibilità di replicare l'intera ricerca o suoi segmenti. Attendibilità interna. Definiamo l'attendibilità interna come il grado in cui ricercatori diversi da quelli originari giungerebbero alle stesse conclusioni originarie analizzando i dati di una stessa ricerca. Un primo aspetto da curare per migliorare questo tipo di attendibilità è legato al riportare i dati, tenendoli il più possibile distinti dalle interpretazioni del ricercatore. A questo proposito, Seale [1999] evidenzia come molti libri di ricerca etnografica contengano la raccomandazione di tenere separate le osservazioni dalle spiegazioni. Naturalmente nessuna osservazione può essere completamente libera da assunzioni che la guidano, ma esistono diversi tipi d'interpretazione e, come afferma Seale, possiamo parlare di descrizioni con un basso tasso d'inferenza. Ad esempio, se stiamo osservando un bambino che sta giocando con un oggetto e lo abbandona, una cosa è dire: «ha abbandonato quel giocattolo dopo averci giocato 5 minuti e si è messo a fare altro», un'altra che «il bambino si è arrabbiato con il padre che gli ha regalato il giocattolo» e un'altra ancora «il bambino ha avuto avversione per l'oggetto (il giocattolo), cosa dovuta alla paura d'essere perseguitato in quanto il giocattolo è divenuto vendicativo e pericoloso». Potremmo considerare la prima una descrizione con un basso tasso d'inferenza, la seconda un'interpretazione sulla base di una personale teoria del ricercatore e la terza un'interpretazione alla luce della teoria psicanalitica del gioco di Melanie Klein. Nel resoconto di una ricerca empirica qualitativa il lettore dovrebbe sempre avere la possibilità di capire quando il ricercatore sta riportando dati grezzi, quando descrizioni con un basso contenuto d'inferenza e quando invece sta facen-
46 CAPITOLO 2
do interpretazioni. Purtroppo questo spesso non accade e Hammersley e Atkinson riportano, a questo proposito, un esempio di cattiva pratica: L'insegnante raccontò ai suoi colleghi nella sala docenti le meraviglie di una scuola progressista che aveva visitato il giorno precedente e venne attaccato da tutti [...]. Raggiungemmo la sua classe [...] entrò e cominciò immediatamente ad urlare agli alunni perché loro non erano come gli alunni dell'altra scuola [Hammersley e Atkinson 1995]. Scale [1999] fa notare come, nella prima e nella seconda frase, dobbiamo fidarci dell'interpretazione dell'autore di dialoghi non riportati. Quello che a qualcuno può sembrare un attacco, ad altri potrebbe apparire un normale scambio. Inoltre l'ultima affermazione presenta un'interpretazione dei motivi del comportamento dell'insegnante come un fatto. Come esempio di resoconto che tiene i dati più separati dalle interpretazioni Hammersley e Atkinson suggeriscono di riportare in modo letterale, e il più possibile fedele, lo scambio a cui il ricercatore assiste in sala professori: Collega 1: i progetti non sono l'educazione, è solo un ritagliare via cose. Insegnante: Oh no, non comportano questo, c'è un rigoroso controllo sui progressi. Collega 2: Più sento parlare di queste cose, più mi sembrano insulse. Collega 1: Come può un bambino immaturo di quella età fare un progetto? Insegnante: Quei bambini erano autocontrollati e beneducati [Hammersley e Atkinson 1995, 181-182]. Il resoconto verbatim può essere poi accompagnato, secondo gli autori, da note in cui la prima è a carattere maggiormente osservativa, mentre le successive possono essere più interpretative: Nota 1: «L'insegnante entrò nella sua stanza e cominciò a gridare». Nota 2: «Mi attraversò la mente l'idea che il contrasto fra gli alunni nel posto X che stava descrivendo e difendendo con i suoi colleghi e il compor-
IL PROBLEMA DELLA VALIDITA E DELL'ATTENDIBILITA 47
tamento dei suoi alunni potesse essere una ragione per il suo strillare alla classe [ibidem, 182]». In questo esempio di resoconto e annotazioni fornite da Hammersley e Atkinson è evidente lo sforzo di offrire al lettore la possibilità di avere accesso, almeno parzialmente, a dati frutto dell'osservazione tenendoli distinti dai tentativi di spiegazione del ricercatore. I moderni software di analisi qualitativa offrono, in questo senso, diverse possibilità di tenere distinti i dati sotto forma di trascrizioni verbatim, registrazioni audio, filmati ecc., dalle codifiche interpretative. Il tenere separati i dati dalle interpretazioni è solo un primo passo verso l'attendibilità interna, poiché è necessario che le codifiche (quando vengono considerate definitive nello studio) vengano fatte in modo coerente da uno stesso ricercatore nel tempo e in modo simile da ricercatori diversi. In termini generali una codifica non è attendibile se può essere fatta solo una volta dalla stessa persona o solo da una particolare persona. Sulla base di come viene valutata l'attendibilità è possibile distinguerne tre tipi: la stabilità, la riproducibilità e l'accuratezza. La stabilità si riferisce al grado in cui una codifica porta, quando viene ripetuta, agli stessi risultati. Lo stesso osservatore rianalizza lo stesso materiale a distanza di tempo, e viene valutata la coerenza con la codifica effettuata precedentemente. Le variazioni nelle codifiche effettuate in due momenti nel tempo sono una misura dell'inattendibilità della codifica e vengono definite disaccordo intraosservatore o incoerenza individuale [Krippendorff 2004]. La stabilità è la forma di attendibilità più semplice da calcolare, visto che non richiede codificatori multipli. D'altra parte essa non rappresenta un criterio forte, proprio perché riflette esclusivamente la coerenza di un unico codificatore nel tempo. Essa è comunque importante poiché, se bassa, le altre due forme di attendibilità non possono, per definizione, essere soddisfacenti. La stabilità viene considerata un criterio troppo debole, in quanto sensibile ai valori, ai pregiudizi e alle idiosincrasie individuali, per servire come valutazione dell'attendibilità nell'analisi del contenuto [ibidem]. L'attenzione a questo tipo di attendibilità dovrebbe evitare di trovarsi nell'analisi di dati qualitativi in una situazione in cui, per dirlo con una battuta di una celebre vignetta di Francesco Tullio Altan, «mi vengono in mente opinioni che non condivido».
48 CAPITOLO 2
IL PROBLEMA DELLA VALIDITA E DELL'ATTENDIBILITA 49
La riproducibilità è il grado in cui la stessa operazione di interpretazione/codifica viene effettuata allo stesso modo da diversi analisti. Il modo in cui viene misurata consiste nel far codificare lo stesso materiale, sulla base di un medesimo codebook, a due o più analisti indipendenti. Questo tipo di attendibilità viene definita attendibilità intercodificatore, e viene considerata più rilevante dí quella intracodificatore [ibidem]. L'accuratezza è il grado in cui il processo di codifica viene effettuato allo stesso modo, rispetto a un dato standard da diversi analisti: le differenze interosservatori sono deviazioni da un golden standard. Nell'analisi del contenuto essa si utilizza quando si conoscono le performance di un gruppo di esperti su un dato materiale per valutare il grado di apprendimento di nuovi codificatori. Coefficienti di attendibilità intercodificatori. Uno dei più diffusi coefficienti di attendibilità fra codificatori [Hughes e Garrett 1990] è quello di accordo. Come dice il nome, il coefficiente esprime quanto i codificatori sono d'accordo nell'assegnare le unità di analisi a una certa categoria ed è una misura appropriata quando il livello di misura della categoria è nominale (la categoria è presente o assente). Il metodo classico per misurarlo prevede che due codificatori analizzino le stesso materiale, per cui ogni elemento è un accordo (quando entrambi lo codificano allo stesso modo) o un disaccordo (quando l'elemento ha ricevuto due codifiche diverse) [Neuendorf 2002]. La percentuale di accordo è semplicemente calcolabile dividendo il numero degli accordi per il numero totale degli elementi codificati e moltiplicando per 100 il risultato. In termini formali: PAL = A/n x 100 dove PA0 sta per «percentuale di accordo osservato», A è il numero di accordi fra i due codificatori e n è il numero totale di unità che sono state codificate. Sebbene sia molto utilizzata, la percentuale di accordo non tiene conto della possibilità che ci sia accordo per effetto del caso. Nel corso del tempo sono stati proposti diversi coefficienti che tengono in considerazione questo
problema [per una presentazione più dettagliata cfr. Neuendorf 2002]; qui ci limitiamo a segnalare che la misura più generale di accordo che prende in considerazione l'accordo dovuto al caso, il numero dei disaccordi e il livello di misurazione della variabile codificata è l'alfa (a) di Krippendorff. La formula per calcolarla è la seguente: a = – Do / D, dove D, corrisponde al disaccordo osservato e D E al disaccordo atteso. I passaggi per calcolarla sono piuttosto lunghi e non vengono riportati qui [i calcoli in dettaglio sono riportati in Krippendorff 2004]; fortunatamente esiste la possibilità di computarla in modo automatizzato attraverso software di analisi quantitativa dei dati come SPSS («Statistical package for the social sciences») o SAS («Statistical analysis system»), utilizzando apposite macro [Hayes e Krippendorff 2007]1. Attendibilità esterna. Seale [1999] evidenzia come lo studio di replicazione che ha avuto più risonanza sia stato quello di Freeman [1983] su Samoa, che voleva ripercorrere la ricerca di Margaret Mead pubblicata nel 1928 con il titolo Coming of age in Samoa, uno dei testi di antropologia più letti di tutti i tempi. Nell'estate del 1925 la Mead era andata nelle isole Samoa, nell'oceano Pacifico meridionale, con l'obiettivo di studiare quanto i turbamenti e l'instabilità psicoemotiva osservabili durante l'adolescenza nella società americana del tempo fossero presenti anche in una società culturalmente molto diversa e geograficamente distante. I risultati della ricerca della Mead fecero molto scalpore, in quanto mettevano in evidenza che le inquietudini e i turbamenti degli adolescenti americani non si manifestavano nei coetanei che vivevano a Samoa, in particolare nelle femmine. La conclusione fu che l'instabilità psicoemotiva connessa all'adolescenza, osservabile nella società occidentale, appariva avere un'origine di tipo socioculturale e non biologica. Freeman [ibidem] tornò negli stessi luoghi in cui soggiornò la Mead, e raccolse nell'arco di quarant'anni un'enorme quantità di dati che portaI Le macro sono scaricabili attualmente dall'indirizzo internet: www.comm.ohio-state.edu/ ahayes/sPss%20programillcalpha.htm.
IL PROBLEMA DELLA VALIDITÀ E DELL'ATTENDIBILITÀ 51
50 CAPITOLO 2
vano a risultati in netta contrapposizione con quelli ottenuti dalla famosa antropologa. L'idea alla base dello studio di Freeman era quella di replicare la ricerca della Mead per confutarne le conclusioni sulla base dei dati empirici raccolti. In un numero speciale dell'«American Anthropologist» [Brady 1983] diversi antropologi discussero dei due studi: se ne può trarre la conclusione che la ricerca di Freeman non è una vera replicazione in quanto i samoani sono stati studiati molti anni dopo, in un'isola differente. Inoltre, l'autore, per il fatto che era un uomo e non una donna, aveva possibilità di accesso a membri della comunità molto diversi da quelli della Mead. Al di là di queste evidenti differenze, Seale [1999] fa notare come entrambi gli autori abbiano fallito nel fornire un resoconto esaustivo che desse la possibilità di replicare le stesse procedure. Se replicare completamente una ricerca qualitativa può risultare impossibile per motivi insormontabili come la diversità nel periodo storico, un'esplicitazione delle procedure utilizzate che sia esaustiva e un'organizzazione sistematica dei dati raccolti rappresenta una condizione, sebbene non sufficiente, comunque necessaria per offrire questa possibilità. Un aiuto in questa direzione è offerto dall'utilizzo delle note su campo che possono diventare uno strumento importante per favorire l'attendibilità di una ricerca [Kirk e Miller 1986] in quanto consentono al lettore di comprendere meglio la prospettiva teorica del ricercatore e il contesto delle osservazioni effettuate. Kirk e Miller sostengono che una ragione per cui le note su campo sono raramente pubblicate consiste nel fatto che esse tendono ad essere incomprensibili a chiunque non sia il ricercatore su campo. Diversi sforzi sono stati fatti per stabilire delle convenzioni per rendere più trasparenti e comprensibili le annotazioni; ad esemplo Spradley [1979] raccomanda di separare quattro tipi di note: il resoconto letterale, un resoconto ampliato fatto il più vicino possibile ad ogni ricerca su campo, un «diario su campo» che contiene le esperienze, le idee, gli errori, i progressi conoscitivi e infine le analisi dei dati provvisorie. In termini generali, suggeriscono Kirk e Miller [1986], le note su campo dovrebbero uniformarsi a dei requisiti minimi: • essere leggibili; • essere ordinate cronologicamente;
• essere distinte per tipologia (ad esempio quello che le persone letteralmente dicono, parafrasi, ipotesi sulla situazione ecc.). Le convenzioni proposte dagli autori per raggiungere questo obiettivo sono riportate nella tabella 2.1. TAB. 2.1. Convenzioni per le note su campo proposte da Kirk e Miller [1986] (adattato) SEGNO issnemvo « »
Uso Contiene citazioni letterali Contiene parafrasi Contiene dati contestuali e/o interpretazioni del ricercatore su campo
< >
Contiene elementi lessicali che hanno un valore funzionale nella cultura studiata Distingue il tempo
RIEPILOGO Nel capitolo sono stati descritti gli approcci teorici e alcuni aspetti procedurali alla base della valutazione dell'attendibilità e della validità nell'ambito della ricerca qualitativa. La validità è stata declinata nei termini della validità semantica, della validità strumentale e della validità teorica. È stato enfatizzato il fatto che le tre tipologie sono collegate fra loro: nessuna di esse, singolarmente, garantisce la validità complessiva della ricerca. È stato inoltre discusso l'aspetto della generalizzabilità delle ricerche qualitative. Questo aspetto non è necessariamente ricercato negli studi qualitativi ma, quando questa esigenza si pone, è necessario ricorrere ad evidenze legate alla ripetizione dello studio su soggetti, tempi e situazioni diversi. Il tema dell'attendibilità è stato invece messo in relazione alle caratteristiche di replicabilità dello studio. L'attendibilità interna rappresenta il grado in cui ricercatori diversi da quelli originari giungerebbero alle stesse conclusioni analizzando i dati di una stessa ricerca, l'attendibilità esterna corrisponde alla garanzia che vengano fornite le condizioni perché altri ricercatori possano replicare le procedure di un determinato studio.
Le differenti strategie di raccolta dati
1. L'OSSERVAZIONE L'osservazione è un metodo fondamentale nella ricerca qualitativa in quanto consente lo studio dei comportamenti delle persone in contesti naturali. Si tratta di una tipologia di raccolta dei dati che può procurare delle difficoltà al ricercatore, il quale deve avere nella situazione che sta osservando un ruolo relativamente non intrusivo [Marshall e Rossman 1995], ponendolo talvolta di fronte a problemi di tipo etico. In termini generali, Marshall e Rossman [ibidem] definiscono l'osservazione come la sistematica registrazione di eventi, comportamenti e artefatti in un particolare setting sociale studiato. Si potrebbe pensare che osservare significhi andare sul campo e, semplicemente, guardare e ascoltare attentamente. Questo è certamente vero, ma è altrettanto fondamentale porre dei filtri ai propri oggetti di osservazione. Non è ovviamente possibile vedere e ascoltare tutto. In qualunque contesto sociale le potenziali informazioni si presentano come un flusso continuo e inarrestabile: sono virtualmente infinite. Il ricercatore si trova, volontariamente o meno, a fare delle scelte e registrare solo alcuni aspetti, alcune parti, di tutto quello che accade in una determinata finestra temporale. Si tratta dunque si stabilire, almeno con un certo grado di approssimazione, che cosa osservare, quello che si vuole conoscere dell'oggetto di studio. Questo si traduce [Berg 2007] nello scegliere specifici oggetti all'interno di un gruppo più ampio, nell'osservarli in momenti particolari, per un certo periodo di tempo, durante certi tipi di
54 CAPITOLO 3
eventi e/o di routine. In alcuni casi questa scelta iniziale relativa alla segmentazione del campo di osservazione può essere ridefinita oppure, dopo una prima raccolta dei dati, suggerire altre situazioni e attività sui cui concentrare l'attenzione. Nella fase iniziale di una ricerca su campo è opportuno che il ricercatore acquisisca una certa familiarità con il contesto osservativo. Berg [ibidem] distingue in questa fase quattro obiettivi generali da porsi: 1. Comprendere e conoscere il contesto osservativo. 2. Sviluppare relazioni con le persone osservate (individuare persone di riferimento e informatori). 3. Seguire una pista, osservare, ascoltare e fare domande. 4. Identificare sottogruppi e personaggi centrali nella vita dei gruppi. Questi obiettivi verranno descritti di seguito.
1.1. Comprendere e conoscere il contesto osservativo
All'inizio dello studio è utile fare un sopralluogo per conoscere meglio e farsi un'idea generale di come è strutturata la situazione da osservare, arrivando a una sorta di mappa concettuale o fisica. Se il contesto è un ambiente fisico, questo si concretízza nell'andare in giro curiosando tra gli ambienti in cui verrà effettuata l'indagine: si può trattare di luoghi pubblici, di edifici, di stanze o zone all'interno di una certa struttura in cui si sviluppa un fenomeno. Il delineare una mappa del posto in cui avverrà lo studio consente al ricercatore di valutare come coprire l'area nel modo più efficace possibile, stimare quante ore di osservazione potrebbero essere necessarie e individuare quali sono i momenti del giorno o della notte più adatti per la ricerca. Inoltre, cosa non meno importante, frequentare il luogo dell'osservazione consente di entrare in contatto con chi lo frequenta abitualmente e di stabilire rapporti amichevoli, favorendo così la prosecuzione dello studio. Infine, come sottolinea Berg [ibidem], fare un sopralluogo su campo, guardandosi in giro e ascoltando quello che la gente dice, fornisce al ricercatore l'opportunità di farsi una prima impressione sul suo oggetto di studio, cosa che,
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 55
sebbene potrebbe non rivelarsi accurata, costituisce comunque un importante punto di riferimento per le analisi successive.
1.2. Sviluppare relazioni con le persone osservate
Durante la fase iniziale della ricerca nel campo generalmente il ricercatore fa molto affidamento su alcune persone «del luogo» che svolgono la funzione di guida nel contesto osservato. Affinché possa essere instaurata una relazione di fiducia, è importante che le guide abbiano la possibilità di accertarsi degli effettivi obiettivi del ricercatore. A questo scopo può essere utilizzata una semplice lettera di presentazione, un documento identificativo, oppure potrebbe rivelarsi necessario dare la possibilità alla guida di telefonare per controllare le credenziali del ricercatore. Infine, ma non meno importante, il ricercatore dovrebbe sottolineare l'importanza dei dati che potrebbe raccogliere e, soprattutto, il fatto che qualunque informazione possa danneggiare le persone coinvolte nello studio verrà mantenuta segreta. Dopo aver stabilito una relazione di fiducia con una o più guide il ricercatore può cominciare a stabilire contatti aggiuntivi con altri soggetti presenti sul campo.
1.3. Seguire una pista, osservare, ascoltare e fare domande Seguire una pista significa letteralmente «pedinare» [ibidem] le guide nelle loro routine quotidiane, osservando le attività svolte e le persone con cui interagiscono. In questo tipo di situazione diventa possibile per il ricercatore ascoltare parti di conversazioni e raccogliere informazioni che possono risultare molto importanti per la ricerca. In alcune situazioni, durante questo «pedinamento» può succedere che non si riescano a comprende termini, discorsi e attività. In questo caso il ricercatore ha l'occasione di fare delle domande, di chiedere dei chiarimenti su quello che ha ascoltato o osservato chiarendo alcuni elementi del suo quadro osservativo.
56 CAPITOLO 3
1.4. Identificare sottogruppi e personaggi centrali
Nel corso del suo affiancamento alla guida il ricercatore può riuscire a identificare alcune persone che tendono a passare più tempo insieme. Questi gruppi suggeriscono una rete sociale dove è possibile identificare ruoli e personaggi centrali. I personaggi centrali, quelli che Berg [ibidem] definisce le stars possono costituire una chiave importante per accedere ad informazioni preziose per lo studio.
1.5. Strumenti di supporto all'osservazione
Per tenere traccia delle informazioni che si raccolgono sul campo il ricercatore ha a disposizione una molteplicità di strumenti per registrare ciò che sta osservando: le note (cfr. cap. 2), la registrazione audio, le fotografie, la videoregistrazione. Attualmente c'è la disponibilità di sofisticate tecnologie a prezzi accessibili, e la disponibilità di software che consentono registrazione, organizzazione e analisi di materiali multimediali (testi, video, foto, audio) in modo integrato. Nella ricerca qualitativa una procedura di raccolta e di analisi ipermediale non è più una frontiera dell'etnografia come Mason e Dicks [1999] suggerivano, ma il territorio in cui abita quotidianamente il ricercatore.
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 57
avvenga in altre forme di interazione sociale faccia a faccia. In particolare, il comportamento di chi formula le domande è guidato da un set specifico di linee guida implicite ed esplicite, mentre chi risponde non ha particolari vincoli. La maggior parte dei manuali discute in dettaglio le regole di comportamento e le modalità che l'intervistatore deve seguire nello svolgimento dell'intervista e a tali manuali [ad esempio, ibidem] si rimanda per approfondimenti in tale direzione. In questo volume ci concentreremo invece sulle differenti tipologie di intervista. Alcuni autori [Fitzgerald e Cox 2002], in riferimento al livello di rigidità della struttura dell'intervista, distinguono tra interviste «formali» e «informali» mentre altri, fra cui gli autori di questo volume, preferiscono adottare una distinzione a tre livelli che considera interviste standardizzate (formali o direttive), interviste semistandardizzate (semistrutturate o focalizzate) e non standardizzate (informali o non direttive), come riportato nella tabella 3.1. In sostanza, l'intervista standardizzata rappresenta un sistema di domande-stimolo predeterminate e costruite allo scopo di far esprimere ai diversi rispondenti le proprie opinioni, convinzioni, atteggiamenti relativi all'oggetto di studio. Queste domande sono formulate con il medesimo fraseggio TAB. 3.1. Tipologie di intervista e livello di standardizzazione INTERVISTA STANDARDIZZATA
• Ogni domanda deve essere fraseggiata esattamente nel modo in cui essa è stata originariamente formulata e non può essere previsto alcun livello di adattamento linguistico da parte dell'intervistatore • L'ordine con cui le domande vanno poste è prefissato e non può essere alterato • L'intervistatore non può fornire alcun chiarimento circa il significato delle domande • Nessuna domanda può essere aggiunta durante l'intervista
2. LE INTERVISTE L'intervista può essere definita come una conversazione con uno specifico scopo [Berg 2007]. In essa, a differenza degli usuali modelli conversazionali, solo uno degli interlocutori ha il compito di porre le domande ed è interessato alle risposte, mentre l'altro, pur non avendo obblighi o interessi specifici di sostenere la conversazione, ha il compito di ascoltare le domande, capirne il significato e, in relazione a questo, decidere se e come rispondere. Risulterà evidente che i meccanismi sottostanti a questo specifico modello conversazionale sono meno elastici e adattabili di quanto usualmente non
INTERVISTA SEMISTANDARDIZZATA
• Il fraseggio delle domande è più flessibile e l'intervistatore può adattarlo all'interlocutore che si trova di fronte. L'intervistatore può anche fornire delle indicazioni per aiutare il rispondente a rispondere alla domanda (probing, quadro 3.1) • L'ordine delle domande può essere alterato durante lo svolgimento dell'intervista • L'intervistatore può rispondere a tutte le richieste di chiarimento sulle domande o sugli scopi dell'intervista INTERVISTA NON STANDARDIZZATA
• Gli obiettivi dell'intervista sono definiti a priori, ma non esiste un fraseggio standard per le domande • Non esiste alcun ordine prefissato di domande da porre • Il livello linguistico viene definito liberamente dall'intervistatore, che è libero di rispondere a sua volta a eventuali domande e fornire chiarificazioni
58 CAPITOLO 3
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 59
e nella medesima sequenza a tutti i rispondenti, partendo dal presupposto che esse assumano per tutti loro lo stesso significato e che, per questo, le risposte possano essere considerate comparabili. Ovviamente, l'assunzione dell'identità del significato attribuito da diversi rispondenti alla medesima domanda è sempre oggetto di ampio dibattito. Nell'intervista semistandardizzata l'intervistatore è vincolato ad affrontare un numero di argomenti che è predeterminato; egli, però, è anche chiamato, nel proporle, a cercare di assumere il punto di vista del rispondente, cercando quindi di adattare il fraseggio al vocabolario e al sistema di conoscenze pregresse di chi risponde. L'intervistatore è anche autorizzato a fornire spiegazioni circa l'oggetto o il significato della domanda e a proporre delle domande di specificazione che possano aiutare il rispondente a fornire il suo punto di vista (probing, cfr. quadro 3.1).
QUADRO 11.
Il «probing» Con il termine probing ci si riferisce a una serie di tecniche che possono essere usate nei seguenti casi: 1. La risposta dell'intervistato risulta non utilizzabile ai fini dell'inchiesta. 2. L'intervistato è incerto e, pur avendo qualcosa da dire, non riesce a fornire alcuna risposta. In questi casi l'intervistatore può svolgere ulteriori domande mirate a mettere a fuoco gli obiettivi della domanda originaria. Tali domande non devono però in nessun modo indirizzare la risposta. In questi casi si dice che l'intervistatore sta usando una tecnica di «probing non direttivo». Esistono diversi modi di svolgere correttamente il probing non direttivo. Tra questi: 1. modello dell'integrazione. Si tratta di stimolare la conversazione attraverso segni di assenso, pause collocate al momento giusto e seguite da richieste di maggiore informazione (ad esempio, «Capisco, non vorrebbe anche spiegarmi perché?» oppure «Mmm, ci sono altre cose che vorrebbe aggiungere?»); 2. modello del riepilogo. L'intervistatore si limita a sintetizzare fatti, concetti e opinioni espressi dal rispondente, chiedendogli di valutare se la sintesi è cor-
retta e di trarre delle conclusioni da essa oppure di approfondire la discussione riguardo ai propri atteggiamenti (ad esempio, «Se capisco bene, lei direbbe che..., vorrebbe trarre qualche ulteriore conclusione?» oppure «Vorrebbe illustrare meglio questo punto?»). In generale, il probing è uno dei compiti più delicati e rischiosi dell'intervistatore, perché c'è sempre la possibilità che, anche inavvertitamente, egli lasci trapelare le sue opinioni nel discorso. Tra l'altro, in questo caso, nemmeno una lunga esperienza pone l'intervistatore al riparo dai rischi, perché egli potrebbe avere strutturato negli anni dei modelli scorretti che saranno a quel punto molto difficili da cambiare. Chi svolge un'intervista non standardizzata parte dall'assunto che, stante il livello delle informazioni disponibili sull'oggetto di studio, non sia possibile costruire una lista predeterminata degli argomenti da affrontare. Egli inoltre enfatizza la rilevanza delle differenze nel vocabolario tra i rispondenti, che potrebbero portare ad attribuire significati diversi alla medesima domanda. Per questo, l'intervistatore, partendo da un oggetto di interesse, dovrà costruire le domande appropriate nel corso dell'interazione sociale con l'intervistato. Negli ultimi anni si è assistito alla sempre maggiore differenziazione dei metodi per la raccolta dei dati, grazie anche alla diffusione delle nuove tecnologie, dei computer (sistemi CAN e CATI) e della rete internet (inchieste elettroniche). Attualmente chi volesse svolgere un'intervista potrebbe scegliere tra un ventaglio di metodi differenti, che sono schematicamente rappresentati nella tabella 3.2. Ciascuno di questi metodi presenta vantaggi e svantaggi e dovrebbe essere scelto in funzione dell'oggetto e degli scopi dello studio, e delle risorse disponibili. L'intervista faccia a faccia rappresenta un tipo particolare di conversazione. Infatti, i meccanismi che sottostanno ad una normale conversazione sono (o dovrebbero essere) imperniati a principi di informalità e interattività, che rendono la conversazione flessibile ed adattabile alle circostanze e agli interlocutori. Al contrario, durante una raccolta-dati ci si trova di fronte a una pseudoconversazione, all'interno della quale un interlocutore ha il compito di porre le domande ed è interessato alle risposte, mentre l'altro,
60 CAPITOLO 3
TAB. 3.2. Metodi disponibili per lo svolgimento di un'intervista
• Intervista faccia a faccia • Intervista faccia a faccia + computer (CAPI, CASI) • Intervista telefonica • Intervista telefonica + computer (cAn) • Intervista elettronica (cAwI)
pur non avendo obblighi o interessi specifici di sostenere la conversazione, ha il compito di ascoltare le domande, capirne il significato e, in relazione a questo, decidere se e come rispondere. Risulterà evidente che i meccanismi sottostanti a questo secondo modello conversazionale sono meno elastici ed adattabili. Anche nei casi in cui l'intervista è di tipo standardizzato, l'intervistatore ha l'opportunità (e il compito) di cercare di sviluppare un contatto diretto con il rispondente, e generare in lui interesse per l'oggetto di indagine e fiducia, ottenendo così una maggiore disponibilità alla risposta. Inoltre l'intervistatore può osservare il comportamento non verbale dell'intervistato e ricavare informazioni di contesto circa il momento e il luogo dove l'intervista si svolge. Nei casi in cui l'intervista è semistandardizzata o non standardizzata, l'intervistatore può chiedere precisazioni in caso di risposte poco chiare o chiarire la domanda se il rispondente non ha capito. In generale, egli può usare tecniche di probing dove necessario. D'altra parte, l'uso di interviste faccia a faccia prevede la presenza di una diffusa e addestrata rete di intervistatori, che devono essere disponibili a spostamenti anche rilevanti, di supervisori, di personale amministrativo. I costi e i tempi dello studio aumentano. Rispetto ai secondi è necessario considerare i tempi necessari per il primo contatto con l'intervistato, il tempo che intercorre fino al momento in cui viene fissato un appuntamento, la possibilità che l'intervistato non si renda reperibile. Il rischio associato allo scorrere del tempo è che possa avvenire qualche evento tra le prime interviste e le ultime, sufficientemente rilevante da renderle non più confrontabili. L'intervistatore può usare un computer sul cui schermo appaiono le domande, in questo caso si parla di «Computer assisted personal interviewing» (CAPI). I sistemi CAPI consistono nella rilevazione faccia a faccia mediante computer di minime dimensioni utilizzati dal rilevatore per leggervi le domande
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 61
e memorizzarvi all'istante le risposte. È un sistema completamente decentrato, essendo i computer consegnati ai rilevatori, talvolta per svolgervi una pluralità d'indagini. I metodi CAPI hanno cominciato a diffondersi verso la fine degli anni '80, quando lo sviluppo dei computer portatili ha reso economicamente e praticamente pensabile la sostituzione del questionario tradizionale con quello elettronico installato su un computer. I sistemi CAPI consistono nella rilevazione faccia a faccia mediante computer portatili di minime dimensioni utilizzati dal rilevatore per leggervi le domande e memorizzarvi all'istante le risposte fornite dall'intervistato [Bates 1996]. La dimensione del computer è minima, tanto da poter stare sul palmo della mano del rilevatore («computer palmare» o anche detti PDA, Personal digital assistant) e questo permette l'uso del sistema anche in contesti inusuali (ad esempio in strada, su un mezzo di trasporto ecc.). Il sistema visualizza sullo schermo le domande, scegliendole in funzione delle risposte date alle domande precedenti (nei casi di domande condizionate) fornisce online le istruzioni per l'intervistatore, che si limita a leggere le domande dallo schermo e registrare le risposte. Il sistema può presentare immediatamente all'intervistatore eventuali errori o incompatibilità nelle risposte registrate, può «personalizzare» la formulazione della domanda in funzione di alcuni elementi noti del rispondente (ad esempio il nome), può fornire formulazioni alternative della domanda laddove richiesto, guidando anche la gestione del probing. L'intervistatore può trascrivere le risposte su foglio elettronico oppure esse possono essere registrate attraverso sistemi di registrazione vocale. Un particolare sviluppo del CAPI è il cosiddetto «audio CAPI». In questo caso l'intervistatore fornisce una cuffia all'intervistato che ascolta le domande da un sintetizzatore vocale e risponde usando una tastiera, o un altro mezzo, per la registrazione informatica dei dati; dopo che l'ultima risposta è stata fornita, l'intervistato può spegnere il computer. I rilevatori possono inviare periodicamente al centro le informazioni raccolte. Un metodo alternativo, che si avvicina all'autosomministrazione, è rappresentato dai sistemi «Computer assisted self administered interviewing» (cAsi). In questo caso è il rispondente ad interagire direttamente con il computer, sullo schermo del quale appaiono le domande. Sia con i sistemi CAPI sia CASI si pongono alcuni problemi che riguardano l'accettazione dello strumento da parte del-
62 CAPITOLO 3
l'intervistato. A causa di questi, i sistemi CAPI e CASI sono meno usati dei sistemi CATI, di cui si tratterà a breve. Le interviste telefoniche sono certamente divenute, negli ultimi venti anni, uno dei metodi più usati per raccogliere dati di natura quantitativa. Il loro uso è meno frequente nella ricerca qualitativa, per l'ovvia ragione che in esse vengono perdute quelle informazioni di tipo non verbale che possono, specialmente nel caso di interviste non strutturate, guidare la direzione della raccolta dei dati. Ciononostante le interviste telefoniche possono rappresentare un'importante opportunità se lo schema dell'intervista è predeterminato (quindi nelle interviste quantomeno semistrutturate). Esse, infatti, facilitano il monitoraggio del lavoro degli intervistatori, che spesso lavorano in un unico call center. Il metodo CATI («Computer assisted telephone interviewing») è basato su un sistema di intervista interattiva mediata dall'uso del telefono. Il computer, grazie ad un apposito software, effettua le chiamate, il rilevatore legge le domande, che appaiono sullo schermo, e le registra direttamente nella memoria elettronica. È stato il primo metodo proposto per la rilevazione automatica di dati statistici. Attualmente, la rilevazione cATI I è il modo comune di rilevare dati mediante intervista telefonica nelle rilevazioni di tipo commerciale, nelle quali la rapidità d'esecuzione è connaturata con gli obiettivi della ricerca e si desiderano stime per grandi domini di studio; negli Stati Uniti, le rilevazioni con sistemi CATI rappresentano oltre 1'85% del totale delle indagini svolte sulla popolazione e sulle imprese [Conn 2002]. Le modalità organizzative della rilevazione CATI sono due: a) un sistema centralizzato, formato da un gran numero di postazioni interconnesse e sottoponibili a controllo e supervisione2 (Centralized cATI); b) un sistema decentrato, composto da un certo numero di postazioni collegate attraverso la rete con il centro (Home cATI).I1Centralized CATI è certamente il sistema più diffuso ed è rappresentato nella figura 3.1. Il sistema sí basa su un computer 1 Secondo i dati dell'Associazione tra istituti di ricerche di mercato, sondaggi di opinione, ricerca sociale (Assnsn), il 34% degli investimenti in ricerca è destinato alle indagini telefoniche CATI (dati riferiti al 2001). Il controllo del supervisore si attua nel collegamento con le postazioni dei rilevatori e nel seguire le interviste senza che i rilevatori siano consapevoli di essere controllati. In alcuni paesi, tra cui l'Italia, il controllo non può avvenire senza che l'operatore ne sia consapevole.
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 63
Visualizzazione intervista e immissione dati
Archivio dati
MASTER
Versione del questionario «Controllo» degli intervistatori MANAGER
Assegnazione dei numeri telefonici in base al campionamento INTERVISTATORI
fig. 3.1. La gestione di un sistema can centralizzato.
manager che gestisce l'intervista e permette a un supervisore di controllare il lavoro degli intervistatori. Inoltre, il computer manager gestisce l'archivio con i numeri di telefono da contattare. Il manager trasferisce queste informazioni a ciascuno dei computer degli intervistatori che, dopo aver contattato il numero telefonico dell'intervistato, gli propongono le domande che appaiono loro sullo schermo e digitano le risposte. Queste ultime vengono automaticamente trasferite ad un computer che gestisce il database. I sistemi CATI permettono una più efficiente gestione del lavoro sul campo tramite la programmazione (scheduling) delle telefonate e dei nuovi tentativi di chiamata quando il primo è andato a vuoto. La programmazione delle chiamate ha raggiunto alti livelli di sofisticazione, definendo algoritmi che comprendono il giorno e l'ora più opportuni per il contatto, nonché l'ordinamento delle chiamate per orario, in funzione della probabilità di contattare l'unità designata in un dato istante e di ottenere risposta dalle unità contattate. Un altro risultato delle rilevazioni CATI è quello di ridurre le distorsioni generate dalla soggettività che i singoli rilevatori pongono nello svolgimento del proprio compito, che si traduce ín una perdita di stabilità delle stime aggiuntiva rispetto a quella di tipo campionario, alle distorsioni
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 65
64 CAPITOLO 3
sistematiche legate agli stili di risposta e agli errori di memoria che commettono inevitabilmente coloro che collaborano ad un'intervista. Come si sarà potuto notare, le tecniche tradizionali hanno ricevuto nuovi impulsi e ausili dalle opportunità fornite dai computer. Le tecniche «assistite dal computer» descritte finora vanno tutte insieme sotto il nome di CASIC («Computer assisted survey information collection») e sono sintetizzate nella figura 3.2. Più recentemente, le tecniche di indagine hanno visto l'affermarsi di metodologie che si rendono fruibili grazie alla rete internet. Le interviste elettroniche (CAWI, Computer assisted web interviewing) offrono enormi opportunità così come enormi sfide nell'ambito delle ricerche quantitative e qualitative. Fra queste la tempestività della raccolta dei dati è considerata uno dei vantaggi più rilevanti di internet. La crescente importanza dei collegamenti in rete nel campo delle indagini è illustrata da un vivace dibattito nella letteratura corrente che affronta i vari aspetti del disegno delle indagini web distinguendo le indagini cosiddette «in tempo reale» o «sincrone»,
CATI Computer assisted telephone interviewing
Centralized CATI Home CATI
CAPI CASIC Computer assisted survey information collection
CAPI Computer assisted personal interviewing
SA-CAPI Self-administered
CAPI
PDE/CSAQ Prepared data entry CASI Computer assisted self-administered interviewing
svolte in internet, da quelle cosiddette «offline», o «asincrone», basate su liste di indirizzi di posta elettronica (e-interview). Le interviste «in tempo reale» usano le chat, i protocolli instant manager, la comunicazione multimedia attraverso internet per cercare di ricreare tra l'intervistatore e l'intervistato un'atmosfera prossima a quella che si genera in un'intervista faccia a faccia. Ad esempio, in casi di interviste semistandardizzate vi è la possibilità di svolgere probing o, nelle interviste non standardizzate, di modificare la direzione delle domande in funzione delle risposte precedenti. Le interviste asincrone (non in tempo reale) usano prevalentemente remai' come strumento di comunicazione. Si tratta sostanzialmente di una replica della modalità cartacea su formato digitale [Dillon 2001]. L'intervistato riceve un messaggio elettronico che contiene allegate le domande oggetto dell'indagine a cui deve rispondere; a questo punto l'intervistato risponde alle informazioni richieste ed invia il messaggio di risposta analogamente a quanto farebbe in modalità cartacea. Il vantaggio rispetto al classico questionario postale è la forte riduzione dei tempi di risposta e dei costi correlati. D'altra parte, questa tipologia d'indagine è di utilizzo non troppo frequente, in parte perché non è molto adatta ad indagini con un'articolazione complessa [Schaefer e Dillman 1998]. Inoltre, bisogna che le interviste che vengono inviate al potenziale rispondente come allegati siano modificabili dal destinatario in modo totalmente destrutturato per cui è possibile che venga modificato anche il testo originale inviato dal rilevatore. Questa criticità viene risolta da questionari in PDF (Portable document format). Il PDF è in grado di accettare e visualizzare qualsiasi formato di rappresentazione dell'informazione oltre al normale testo (immagini, filmati, disegni, audio); ciò significa che è possibile arricchire il questionario di ulteriori elementi descrittivi complementari alle domande testuali per facilitare il compito dell'intervistato e centrare meglio la risposta sulla reale richiesta informativa.
TDE Touchtone data entry
3. I FOCUS GROUP VRE Voice recognition entry
fig. 3.2. Le diverse tecniche CASIC.
I focus group rappresentano la modalità tipica per raccogliere dati su un piccolo gruppo di persone. Un tipico focus group consiste di un numero di
66 CAPITOLO 3
partecipanti che abitualmente non supera le sette unità [Krueger 1994] e di un moderatore. Il lavoro del moderatore è quello di raccogliere informazioni circa un determinato oggetto di studio o interesse, creando un'atmosfera informale capace di incoraggiare i membri del gruppo a parlare liberamente dei propri atteggiamenti, comportamenti, opinioni ecc. La natura informale della discussione rende questo strumento adatto per raccogliere informazioni sui bambini, sugli adolescenti o anche sugli anziani. Quando un focus group è gestito correttamente, esso permette di determinare una discussione estremamente dinamica capace di elicitare idee, problemi e soluzioni derivate dal confronto tra i membri del gruppo stesso e non solo dai singoli partecipanti. Un'intervista deve sempre essere letta come un'interazione sociale, il focus group deve essere considerato come l'espressione di una dinamica di gruppo. Sebbene la tecnica dei focus group sia stata introdotta già all'inizio della seconda guerra mondiale (essa veniva usata per valutare l'efficacia delle trasmissioni radiofoniche mirate a migliorare il morale delle truppe), il suo uso è stato per molto tempo confinato alle ricerche di mercato. A partire dagli anni '90 le scienze sociali hanno dedicato una rinnovata attenzione alle interviste di gruppo, pur enfatizzando alcuni aspetti critici che debbono essere considerati. I focus infatti non dovrebbero essere considerati uno strumento idoneo alla raccolta di opinioni individuali, ma dí un sentire comune che emerge dalla discussione di gruppo. Inoltre, se il moderatore non è abbastanza attento o preparato esiste il forte rischio che qualche singolo membro tenda ad imporre la propria posizione o a sovrarappresentarla all'interno della discussione. In generale, la qualità delle informazioni raccolte è molto legata alla capacità del moderatore di condurre i lavori, alla sua abilità nel motivare il gruppo ma anche nell'orientarlo a discutere su un numero limitato di questioni inerenti all'oggetto dí studio. Il focus group ideale dovrebbe prevedere un moderatore capace di partire da una prima domanda adatta a catturare l'attenzione dei partecipanti, a loro volta motivati a esplorare e discutere le differenti sfaccettature della domanda. Il moderatore dovrebbe saper cogliere gli eventuali momenti di «stanchezza» nella discussione e svolgere probing in quei momenti. Egli dovrebbe anche saper cogliere il momento in cui la discussione si esaurisce e passare a quel punto a una seconda domanda. Idealmente, un focus non dovrebbe eccede-
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 67
re la durata orientativa di un'ora. Infine c'è bisogno di grande attenzione nel generalizzare i dati ottenuti e al momento delle analisi è sempre opportuno cercare di evitare quantificazioni o di offrire risultati in termini di ampiezze metriche: il fatto che tre persone su sei partecipanti facciano un'affermazione non può essere tradotto come «il 50% dei rispondenti dichiara di essere d'accordo con l'affermazione», visto che essa non è stata formulata in un contesto individuale. Alcuni studi mostrano, ad esempio, che nei focus le persone tendono a prendere posizioni più estreme di quanto non facciano nei contesti di un'intervista faccia a faccia [ Sussman et al. 1991]. Al contrario, l'affermazione dovrebbe essere riportata, sviluppata come indicazione proveniente dalla discussione collettiva, pur considerando le caratteristiche individuali di chi l'ha formulata. Quando si ha l'accortezza di considerare questi aspetti, i focus group rappresentano un'opportunità di svolgere ricerca qualitativa perché permettono di ricavare informazioni da un numero potenzialmente ampio di persone in un tempo relativamente breve. Inoltre, essi non solo forniscono delle indicazioni sulle opinioni o le idee dei partecipanti, ma anche sul modo in cui esse, in un contesto di interazione, si generano e/o si modificano. Anche nell'uso delle tecniche di focus group si stanno cominciando a sperimentare gli ausili che provengono dalle nuove tecnologie e dalla rete internet. A partire dall'inizio del nuovo millennio alcuni ricercatori, soprattutto nell'ambito del marketing stanno sperimentando l'utilizzo delle chat o delle video conferenze per la conduzione di quelli che sono stati definiti come «online focus group» [Clarke 2000].
4. LA RACCOLTA DOCUMENTARIA Per documento intendiamo qui qualunque materiale che può essere utilizzato a scopo di studio, generalmente sotto forma di testo, ma che può essere anche sotto forma di video, d'immagini, di audio, o altra ancora. Un punto di forza di questa tecnica di raccolta è che utilizza dati completamente naturali che, quindi, non risentono generalmente delle possibili distorsioni generate dall'azione del ricercatore [Corbetta 2003].
68 CAPITOLO 3
LE DIFFERENTI STRATEGIE DI RACCOLTA DATI 69
Nell'ambito della raccolta documentaria, una distinzione tradizionalmente utilizzata [Denzin 1978] è quella fra documenti pubblici e documenti privati. I primi hanno la caratteristica di essere scritti in una maniera che tende a essere standardizzata, di utilizzare un linguaggio abbastanza formale con un lessico che, normalmente, è quello che si può trovare raccolto in un vocabolario della lingua. I documenti privati, invece, hanno spesso un carattere informale, non standardizzato, e un lessico che può avere un'alta specificità d'uso.
fra polacchi che erano emigrati negli Stati Uniti e i loro parenti che erano rimasti in Polonia per analizzare, fra le altre cose, tradizioni, cambiamenti e riorganizzazioni legate all'inserimento degli emigranti nel contesto sociale americano. Un altro materiale privato molto utilizzato nella ricerca qualitativa è stato quello delle autobiografie. Giuseppe Tomasi di Lampedusa, l'autore del Gattopardo, rispetto alla possibile utilità di questo tipo di documenti si esprimeva in questo modo:
Documenti pubblici. Rientrano in questa categoria i giornali, le riviste, la documentazione presente negli archivi pubblici, nelle aziende, nelle scuole, negli ospedali o in qualunque altro tipo di organizzazione. Berg [2007] propone di distinguere fra tre tipi di documenti pubblici. I primi riguardano i prodotti dei mezzi di comunicazione di massa come i quotidiani, le registrazioni di programmi Tv o radio ecc. Un esempio di utilizzo di questo tipo di materiali è rappresentato da uno studio di Schmalleger [1996] mirato all'analisi degli scambi fra difesa e accusa nel processo O.J. Simpson. La seconda tipologia è rappresentata dalla documentazione che è normalmente prodotta per un gruppo molto ristretto, ma che di fatto può essere disponibile al pubblico. Si tratta di atti giudiziari, documentazione politica, certificati di nascita, di matrimonio e di morte. Un celebre e originale esempio in questo senso è costituito dalla ricerca di Warner [1959], che ha utilizzato il materiale ufficiale presente nei documenti funebri per fare una storia delle morti e indagare la struttura sociale di una città, così come è rappresentata in un cimitero. La terza tipologia infine è costituita dalla documentazione ufficiale di organizzazioni come le scuole, le aziende, gli ospedali ecc. Un esempio dettagliato dell'utilizzo di questo tipo di documentazione in ambito scolastico verrà presentato nel prossimo capitolo, all'interno degli studi di caso.
Quello di tenere un diario o di scrivere a una certa età le proprie memorie dovrebbe essere un dovere imposto dallo stato; il materiale che si sarebbe accumulato dopo tre o quattro generazioni avrebbe un valore inestimabile [Tomasi di Lampedusa 1993,25-26].
Documenti privati. I documenti privati includono diari, lettere, autobiografie, foto, video ecc. prodotti per uso personale. Un esempio storico dell'uso di questo tipo di documentazione è il già citato (cfr. cap. 1) studio di Thomas e Znaniecki sul contadino polacco in Europa e in America (1918-1920). In questa ricerca infatti gli autori utilizzarono lettere scambiate
Le autobiografie possono essere di tipo onnicomprensivo, considerando quindi un periodo che spazia dalla nascita fino al momento in cui si sta scrivendo, oppure concentrarsi su una parte specifica della vita di una persona, caratterizzata da un determinato tema o evento. Un esempio di questo ultimo tipo è costituito dallo studio di Bodgan [1974] su una prostituta chiamata con lo pseudonimo Jane Fry, che descrive la sua esperienza di donna transessuale. L'autore analizzò la biografia di Jane Fry e studiò le diverse modalità dell'«essere e sentirsi diversi» che caratterizzano la vita di un transessuale. Documenti e internet. Con la diffusione del formato digitale e di internet i documenti, qualunque sia la loro natura, sono diventati la tipologia di dati qualitativi più diffusa e facilmente reperibile. Si tratta di una vera e propria miniera di informazioni a cui il ricercatore può accedere e che è ancora largamente sottoutilizzata nella ricerca qualitativa. Se ai tempi di Thomas e Znaniecki era necessario mettere un annuncio su un giornale per raccogliere i carteggi di una piccola comunità locale, oggi è sufficiente collegarsi ad internet per accedere, su scala mondiale, a migliaia di documenti su qualunque tema sotto forma di blog, forum di discussione, siti internet, e-mail ecc. Questa possibilità comporta l'uso di metodologie di analisi che tengano conto e consentano la scoperta e l'individuazione di significati an-
70 CAPITOLO 3
che in questa tipologia di dati qualitativi. Nella sezione dedicata alle metodologie di analisi saranno esposte tecniche utili ad affrontare anche queste nuove sfide. È del tutto evidente che nessuno dei metodi illustrati esclude il contemporaneo utilizzo degli altri o anche di metodi tipici della ricerca quantitativa. Questo verrà illustrato in modo chiaro nel prossimo capitolo, dedicato allo studio di caso.
C.APEMIA
Lo studio di caso
RIEPILOGO In questo capitolo sono stati descritti brevemente alcuni tra i principali metodi di raccolta dei dati che possono essere utilizzati nella ricerca qualitativa. Tra questi, l'osservazione è stata definita come la sistematica registrazione di eventi, comportamenti e artefatti in un particolare setting sociale studiato. La sistematicità è ricercata attraverso una griglia di obiettivi e di prassi che il ricercatore deve porsi, aiutato ín questo anche attraverso l'uso di ausili tecnologici attualmente disponibili. Le interviste rappresentano ancora oggi uno dei principali metodi di raccolta dei dati nelle scienze sociali. Sono state descritte diverse tipologie d'intervista in funzione del livello di standardizzazione delle medesime; inoltre sono stati descritti diversi metodi di svolgimento dell'intervista con riferimento all'utilizzo di specifici supporti al lavoro degli intervistatori. Particolare attenzione è stata dedicata all'utilizzo delle nuove tecnologie informatiche che consentono la conduzione d'interviste online e offline. Tali tecnologie sono state sperimentate con successo anche nell'esecuzione d'interviste di gruppo, o focus group, ai quali è stato dedicato un paragrafo specifico. Infine, l'analisi documentaria è stata delineata differenziando l'uso di documenti pubblici o privati. Anche in questo caso è stato fatto uno specifico riferimento alle nuove possibilità offerte dall'uso di internet.
In termini generali possiamo pensare allo studio di caso come ad un esame dettagliato di un singolo esempio di una classe di fenomeni [Abercrombie, Hill e Turner 1984], in cui tutte le modalità di raccolta dati descritte nel capitolo precedente possono trovare contemporanea applicazione. L'enfasi della definizione non è orientata sulla prototipicità dell'esempio, ma sul dettaglio con cui esso viene descritto nella sua unicità. Il fatto che poi esso possa essere rappresentativo di altre unità all'interno della singola classe è considerato, nello studio di caso, come un aspetto secondario ma non da escludersi. Si tratta quindi di un tipo di ricerca orientata alla conoscenza di individui, gruppi e organizzazioni. Essa è stata utilizzata trasversalmente in diversi domini delle scienze umane [Yin 2003], in psicologia, in sociologia, in economia e nella ricerca in ambito educativo. In quello che è attualmente il libro più citato sull'argomento, Case study research di Robert K. Yin [ibi dem], lo studio di caso viene definito come una strategia di ricerca che investiga un fenomeno nel suo contesto reale (quando i confini tra il fenomeno e il contesto non sono chiari), utilizzando fonti multiple di evidenza empirica attraverso la triangolazione (cfr. cap. 2). Robert E. Stake [1995], nel suo manuale The art of case study research, afferma rispetto allo studio di caso: Ci si aspetta dallo studio di caso che colga la complessità di un singolo caso. Una singola foglia, persino un singolo stuzzicadenti, ha la sua unica complessità – ma raramente ce ne preoccupiamo al punto di sotto-
72 CAPITOLO 4
porlo a uno studio di caso. Studiamo un caso, quando esso è di interesse molto particolare. Lo studio di caso è lo studio della particolarità e complessità di un singolo caso, per arrivare a capire le diverse modalità che lo caratterizzano nelle diverse circostanze che possono presentarsi. È evidente che la prima domanda che deve essere proposta è quali casi siano meritevoli di uno studio tanto approfondito. In altri termini il ricercatore non può e non deve assumere la metodologia dello studio di caso a prescindere, ma porsi il problema di stabilire quando sia opportuno utilizzare tale approccio. Yin dà delle indicazioni che non sono particolarmente restrittive: gli studi di caso sono la strategia di ricerca preferita quando vengono poste domande sul come e il perché, quando il ricercatore ha poco controllo sugli eventi e quando il focus è su un fenomeno contemporaneo all'interno di un contesto di vita reale [Yin 2003, 1]. Lo studio di caso offre indubbiamente dei vantaggi, legati soprattutto alla possibilità di indagare un grande numero di caratteristiche di un fenomeno o di un contesto. L'interesse è rivolto a quel caso in una prospettiva olistica ed ecologica [ibidem], lo sforzo è quello di raccogliere informazioni su di esso facendo ricorso a fonti multiple di evidenza. D'altra parte, questo comporta dei problemi che vanno attentamente considerati, in primo luogo l'impiego di molte risorse in termini di tempo e di soldi, e conduce a raccogliere dati che richiedono competenze particolari da parte del ricercatore per essere efficacemente gestiti e analizzati. Inoltre, sebbene l'approfondimento di un singolo caso abbia un enorme potenziale euristico, non è sempre facile sostenere la generalizzabilità dei risultati ottenuti. Il tema della generalizzabilità nell'ambito dello studio di caso merita di essere declinato in modo più chiaro, riprendendo alcuni aspetti discussi nel capitolo 2. Esso non è necessariamente un obiettivo, ma non si può necessariamente escludere che divenga un esito. Questa duplice prospettiva diverrà più chiara se si considerano le diverse modalità che lo studio di caso può assumere. Esso può essere di tipo esplorativo e preparatorio rispetto a un successivo studio, di tipo descrittivo rispetto a un particolare fenomeno, oppure di tipo espli-
Lo STUDIO DI CASO 73
cativo. A questo proposito Yin [ibidem] riporta, come esempio, due famosi studi: Street corner society di William E Whyte [1943] e Essence of decision making: Explaining the Cuban missile crisis di Graham Allison [1971]. Il primo è, secondo Yin, un classico esempio di studio di caso descrittivo, dove si traccia la sequenza di eventi interpersonali nel tempo, in un degradato quartiere italoamericano, chiamato Cornerville e situato alla periferia di Boston. Nella ricerca vengono illustrati fenomeni come la struttura dei gruppi sociali, gli avanzamenti nella carriera dei giovani con un basso reddito e la capacità degli stessi giovani di rompere i legami con la propria zona di provenienza. La descrizione di tali aspetti prescinde dalla necessità di trarne delle generalizzazioni o dall'interpretare dei fenomeni. Essa è autosufficiente. Invece il secondo studio costituisce, secondo Yin [2003], un classico esempio di studio di caso orientato alla spiegazione di un fenomeno, nella fattispecie del comportamento degli Stati Uniti e dell'Unione Sovietica nel piazzamento di missili offensivi a Cuba. In questa ricerca Allison mette a confronto e testa empiricamente teorie diverse per cercare di spiegare perché: 1. l'Unione Sovietica piazzò a Cuba missili nucleari capaci di raggiungere il territorio americano; 2. gli Stati Uniti risposero con un blocco navale; 3. l'Unione Sovietica ritirò i missili. L'obiettivo in questo caso è quello di spiegare una sequenza decisionale che, laddove il fenomeno dovesse riproporsi con le medesime modalità, potrebbe essere nuovamente applicabile. Nonostante sia possibile distinguere diverse tipologie di studi di caso, moltissime ricerche sono spesso di tipo misto e uniscono intenti di tipo esplorativo e descrittivo a propositi di tipo esplicativo [ibidem]. Il disegno della ricerca in uno studio di caso può prevedere un singolo caso o casi multipli. Come afferma Yin [ibidem], se si hanno le risorse a disposizione, è sempre preferibile prendere in considerazione almeno due casi, per avere un termine di paragone e una possibilità di replicare i risultati. Qualunque sia il carattere dello studio di caso, sia esso esplorativo, descrittivo o esplicativo, singolo o multiplo, nel disegno della ricerca, secondo Yin [ibidem], sono particolarmente importanti i seguenti aspetti, che verranno largamente ripresi all'interno delle successive discussioni sulle diverse strategie di analisi:
74 CAPITOLO 4
1. le domande di ricerca; 2. le asserzioni dello studio; 3. l'unità di analisi; 4. la logica che collega i dati alle ipotesi e i criteri per interpretare i risultati. Di seguito analizzeremo e descriveremo ciascun aspetto riportando in quadri, di volta in volta, un esempio tratto da uno studio di caso multiplo sulla qualità della scuola dell'infanzia a carattere prevalentemente descrittivo, effettuato dall'Istituto nazionale di valutazione del sistema educativo di istruzione e di formazione, con l'obiettivo di effettuare uno studio empirico approfondito sulla qualità di sistema nella scuola dell'infanzia'.
1. LE DOMANDE DI RICERCA
In uno studio di carattere descrittivo la domanda è più legata al tema del «come» e del «quando» si manifestino dei fenomeni all'interno del caso considerato, nel caso degli studi di carattere esplicativo si è più centrati sul «perché» e sul «dove» analizzare una data teoria formulata a priori. In altri termini, se negli studi descrittivi l'interesse nasce, oltre che dall'esigenza di studiare un certo ambito, anche dal caso specifico che vuole essere descritto, negli studi esplicativi l'interesse deriva da una teoria specifica implicita o esplicita, rispetto alla quale ricercare il caso prototipico che permette di metterla alla prova. Qualunque sia l'obiettivo generale, l'analisi puntuale della domanda di ricerca fornisce un'importante traccia riguardo la strategia di ricerca da adottare [Yin 2003]. La sua corretta identificazione infatti orienta le successive scelte del ricercatore, riguardo l'obiettivo specifico dello studio, la scelte del materiale da esaminare e l'individuazione di un'unità di analisi. Nello studio di caso, dove si ricorre a fonti multiple di evidenza empirica è possibile raccogliere una quantità infinita di dati e l'esame delle domande di ricerca consente di delimitare almeno parzialmente il campo per garantire i parametri di fattibilità della Lo studio a cui si ispirano gli esempi ha riguardato due scuole della Liguria ed è stato condotto da Fabio Alivernini con il supporto di Donatella Poliandri nell'ambito di un più ampio progetto di ricerca, il progetto QUASI (Qualità di sistema nella scuola dell'infanzia), coordinato presso l'iNvALsi da Luciano Cecconi.
Lo STUDIO DI CASO 75
ricerca. Nel quadro 4.1 viene illustrato parzialmente il percorso di analisi delle domande di ricerca nell'esempio utilizzato.
QUADRO 41.
Le domande di ricerca L'ambito generale d'interesse del progetto QUASI riguardava la qualità nella scuola dell'infanzia, un settore di ricerca vastissimo, dove è possibile osservare il fenomeno da innumerevoli punti di vista. Per dare una prima delimitazione e un orientamento iniziale all'indagine, un gruppo di esperti e testimoni privilegiati ha fornito un vasto insieme di elementi e di aree ritenute rilevanti per la qualità della scuola per l'infanzia. Il contributo dei partecipanti a questo lavoro, concretizzatosi in una discussione ricca ed articolata, si poneva l'obiettivo di aiutare i ricercatori sul campo ad orientare, in termini generali, il focus delle loro osservazioni su delle aree di attenzione. L'analisi del contenuto (cfr. cap. 5) dei contributi degli esperti ha portato a raggruppare le domande connesse a processi di qualità nelle macroaree di attenzione qui sotto riportate: 1. qualità delle interazioni sociali; 2. qualità del contesto educativo e delle relazioni; 3. qualità dell'organizzazione; 4. professionalità degli operatori. Sono stati successivamente identificati quattro quesiti generali, uno per ciascuna delle aree individuate: Quesito 1. In che modo una scuola dell'infanzia di elevata qualità si pone in relazione con i soggetti esterni (in particolar modo con le famiglie, ma anche con istituzioni locali, associazioni territoriali ecc.)? Quesito 2. In che modo una scuola dell'infanzia di elevata qualità progetta, attua, valuta, documenta le azioni educative tese a sviluppare le potenzialità del bambino? Quesito 3. Qual è il clima organizzativo presente in una scuola dell'infanzia di elevata qualità e quali sono i criteri e le modalità pratiche di organizzazione del lavoro? Quesito 4. In che modo una scuola dell'infanzia di elevata qualità intraprende attività per migliorare la professionalità degli operatori e la loro formazione/ aggiornamento?
Lo STUDIO DI CASO 77
76 CAPITOLO 4
2. LE ASSERZIONI DELLO STUDIO Le domande legate al problema oggetto di studio definiscono l'ambito generale, ma non indicano con chiarezza ciò che si dovrebbe studiare. Come sostiene Yin [2003], solamente se si è costretti a fare delle asserzioni specifiche su quello che è importante nell'ambito studiato ci si può incominciare a muovere nella giusta direzione e non cadere nella tentazione di indagare tutto, cosa che è ovviamente impossibile fare. Ogni affermazione sulla rilevanza di un certo elemento orienta l'attenzione verso qualcosa che dovrebbe essere esaminato nell'ambito della ricerca. In uno studio di carattere descrittivo si parte da una serie di asserzioni che vengono giudicate «vere» per una data categoria semantica o concettuale e sí valuta se esse si verificano anche nel caso esaminato. La descrizione risulta qui dall'insieme di quelle asserzioni che sono risultate corroborate dai dati raccolti su campo. In uno studio di caso orientato alla spiegazione, le asserzioni sono più classicamente organizzate sotto forma di teorie da mettere alla prova: il caso serve per poter falsificare o meno la teoria. Il caso rappresenta dunque un banco di prova per tali teorie. Se la teoria si manifesta nel caso in oggetto, non può essere falsificata e viene quindi accettata. Nel quadro 4.2 vengono riportate alcune delle asserzioni descrittive dello studio utilizzato come esempio.
QUADRO 4.2.
Alcune asserzioni per una scuola di qualità Area qualità delle interazioni sociali • Si opera una lettura dei bisogni delle famiglie e una loro soddisfazione • Le famiglie intervengono nello sviluppo della qualità del servizio • Viene progettata e favorita la presenza e il ruolo delle famiglie nel processo educativo • Viene promossa la partecipazione delle famiglie alla riflessione comune sull'educazione del bambino • Viene stimolata la riflessione delle famiglie sulla qualità del servizio • Viene promossa la responsabilizzazione delle famiglie nella valutazione delle attività • Sono possibili processi di negoziazione dí regole tra la scuola e le famiglie • Viene promossa la condivisione delle regole presso le famiglie Area qualità dell'organizzazione • È presente un'efficace comunicazione tra docenti e dirigenti • I compiti, le funzioni e le responsabilità vengono negoziati tra gli attori del processo educativo • Vi è buon passaggio di informazioni fra i vari operatori • Sono presenti criteri espliciti e sostanzialmente condivisi nel formare ed organizzare i gruppi di docenti • Vengono pianificati, valutati e documentati gli utilizzi delle risorse interne ed esterne • Viene promossa la collaborazione, la condivisione, la corresponsabilità tra í diversi attori del processo • Sono espliciti e condivisi i criteri delle scelte più importanti riguardanti l'organizzazione del lavoro
Le asserzioni dello studio 3. L'UNITÀ DI ANALISI
Anche al termine delle fasi dell'analisi delle domande di ricerca e dell'individuazione di quattro aree d'indagine il livello di specificazione raggiunto risultava ancora troppo generale per poter funzionare da guida al ricercatore nello studio sul campo. Sono state quindi formulate delle asserzioni più specifiche su quelle che fossero le caratteristiche associate a una scuola di qualità. Di seguito vengono riportate alcune delle asserzioni attinenti due delle aree d'indagine tra le quattro individuate nella fase iniziale.
L'intero disegno della ricerca nello studio di caso è pesantemente condizionato dal modo in cui l'unità di analisi viene definita. «Qual è il mio caso?» è la domanda a cui il ricercatore dovrebbe sempre poter rispondere. Nelle situazioni più chiaramente definite, come nelle ricerche di tipo clinico, il caso coincide con un individuo. In altri ambiti si può trattare di un gruppo, di un'organizzazione, o di un evento. La definizione dell'unità di
Lo STUDIO DI CASO 79
78 CAPITOLO 4
analisi è strettamente collegata al modo in cui le domande di ricerca iniziali e le ipotesi dello studio sono state definite. Yin [1993] individua due vantaggi nella chiara definizione di che cosa sia un caso in una ricerca: il primo riguarda l'aiuto nel capire da quale prospettiva raccogliere i dati. Il secondo vantaggio riguarda la possibilità di poter poi generalizzare i risultati a casi con caratteristiche simili. Come andrebbe selezionato un caso? Secondo Stake [1995] il criterio più importante dovrebbe esse di massimizzare quello che possiamo imparare dal caso stesso. Partendo dall'analisi delle domande di ricerca e delle ipotesi dello studio, si tratta di capire quali casi hanno maggiore probabilità di essere più informativi. Può essere utile allo scopo selezionare casi che sono tipici o rappresentativi di altri casi, ma la selezione di un caso non avviene sulla base di un campionamento statistico, come afferma Stake: «Primariamente non studiamo un caso per capire altri casi. Il nostro primo dovere è capire quel caso specifico» [ibidem, 4]. Scelta l'unità di analisi, il rapporto di ricerca dovrebbe contenere il maggior numero di dettagli possibili rispetto al caso o ai casi scelti, sia per contestualizzare i successivi risultati, sia per favorire l'attendibilità esterna dello studio, la possibilità della sua replicazione (cfr. cap. 2). Quando vengono studiate unità complesse, come le organizzazioni, il caso è da intendersi come il centro di aggregazione finale dei dati raccolti su campo, il livello a cui si valuteranno le asserzioni descrittive o le teorie formulate. In altri termini, se nello studio su campo si raccolgono dati rispetto a individui che stanno all'interno dell'organizzazione, i risultati andranno comunque considerati rispetto all'organizzazione stessa e non al livello dei singoli individui. Nel quadro 4.3 vengono riportati i criteri di scelta dei casi del nostro esempio e una parziale descrizione dei casi stessi.
QUADRO 4.3
L'unità di analisi Le domande di ricerca e le ipotesi riguardanti la qualità della scuola dell'infanzia riportate nei precedenti quadri hanno un denominatore comune: riguardano tutte la singola scuola. È stato quindi naturale assumere l'istituto scolastico come unità di analisi. Il criterio che ha guidato la scelta dei casi è stato quello dell'esemplarità rispetto al costrutto oggetto di studio: le scuole che avessero le maggiori caratteristiche di una scuola di qualità, quelle più informative rispetto alle domande dell'indagine. Operativamente, sono state selezionate quelle scuole dell'infanzia che, oltre a rispondere a criteri di disponibilità e di accessibilità, avessero da tempo avviato, attraverso la partecipazione a più progetti nazionali e/o regionali, percorsi innovativi di azione/riflessione sul proprio lavoro e avessero, a giudizio di esperti, una chiara fama di scuole di qualità. Sono state così selezionate, insieme alle altre partecipanti al progetto di ricerca più ampio, due scuole dell'infanzia in Liguria, una collocata in una grande città (Genova) e l'altra in una zona montana dell'entroterra. La scuola in città. L'istituto scolastico è composto da tre plessi di scuola primaria situati in tre quartieri diversi, e da una scuola dell'infanzia che, sebbene sia un'unica struttura organizzativa, è però ospitata in due edifici diversi dello stesso quartiere. Siamo in un quartiere di Genova che vede sul suo territorio la presenza di realtà differenti: uno dei più grandi ospedali d'Europa, la sede della RAI regionale e alcune facoltà universitarie. I piani sfalsati degli edifici genovesi, arroccati come sono gli uni sugli altri, possono risultare di difficile comprensione ad un osservatore poco attento che non può quindi spiegarsi lo snodarsi controintuitivo delle strade d'accesso. Una volta individuata la strada giusta l'edificio scolastico si è presentato come un grande palazzo a più piani, con intorno un cortile di colata d'asfalto. La scuola dell'infanzia oggetto del nostro studio di caso, a cui si accede entrando dentro una grande faccia di clown, occupa principalmente parte del piano terra e parte dei locali del Polo Gravi (per bambini con gravi handicap) al piano inferiore; attorno ad uno spazio centrale si affacciano quattro aule ed i bagni. Nella tabella 4.1 viene riportato il numero dei bambini e delle bambine che frequentavano la scuola rispetto alla loro età. Gli insegnanti sono complessivamente dodici (dieci su sezione, uno su sostegno, uno su progetto). Otto insegnanti (quattro per ogni sede) sono stabili e lavorano per tutto l'anno nella stessa sede. Due docenti, definiti «rotanti»
80
CAPITOLO
4
Lo STUDIO
DI CASO
81
ruotano nelle due sedi della scuola dell'infanzia, secondo modalità educative programmate, cercando di abituare i bambini ad una pluralità di esperienze.
4. LA LOGICA CHE COLLEGA I DATI ALLE IPOTESI E I CRITERI
TAB.4.1. L'età dei bambini della prima scuola
Come ammette lo stesso Yin [2003], la logica che collega i dati alle ipotesi e i criteri per interpretare i risultati sono gli ambiti meno sviluppati della metodologia dello studio di caso. Sebbene ci sia scarsa standardizzazione, il criterio generale [Yin 2000] che deve guidare l'analisi dei dati e l'interpretazione dei risultati, è la triangolazione. Nello studio di caso la triangolazione è intesa nel suo senso più ampio [Janesick 2000], come ricerca della concordanza fra risultati derivanti da diverse fonti di dati, da più strumenti e, se possibile, da diversi ricercatori sul campo. Il piano delle osservazioni e di raccolta dati dovrà quindi essere articolato in modo da consentire l'utilizzo dei diversi strumenti previsti, anche tenendo conto dei particolari vincoli di tempi e risorse presenti nella particolare situazione oggetto di studio. Inoltre, l'utilizzo di fonti multiple di evidenza empirica fa sì che il ricercatore si trovi di fronte a dati molto eterogenei derivanti dall'osservazione, dalle interviste, dal materiale documentario ecc., che vanno analizzati e resi comparabili. Lo scopo finale è comunque quello di giungere, per ciascuna delle ipotesi alla base dello studio, a una conclusione il più possibile chiara, fatta sulla base della concordanza fra le varie fonti di evidenza empirica, i diversi strumenti e, se si sta studiando più di un caso, anche fra i diversi casi. Nella fase d'interpretazione dei risultati può essere utile a questo scopo fare una tabella in cui, per ciascun caso oggetto di studio, viene evidenziata l'avvenuta o mancata corroborazione di un'ipotesi rispetto a quanto evidenziato dallo strumento utilizzato con una specifica fonte (cfr. tab. 4.3).
Ama
PERCENTUALE
FREQUENZA
3 4
11
5
11
26,2 31,0 26,2
13
6
Totale
16,7
7 42
100,0
La scuola in montagna. L'istituto scolastico composto da scuola dell'infanzia, scuola primaria e scuola secondaria di primo grado è articolato su dodici plessi, collocati su un territorio montano di 110 km 2, facente riferimento a sette diversi comuni. L'oggetto dello studio su campo è stata una scuola dell'infanzia con un'unica sezione, collocata presso una comunità montana che presenta un piccolo centro costituito dal municipio e dalla piazza dove si affaccia la chiesa e una serie di case sparse sul territorio circostante. La monosezione era appunto una di queste abitazioni sparse, una casa di campagna su un unico piano, con il giardino, due locali molto ampi, un ingresso, la cucina, il bagno, il divano e i tavolini. Di fronte soltanto i boschi. Trattandosi di una sezione unica il numero dei bambini e delle bambine era molto ridotto (tab. 4.2). TAB. 4.2. L'età dei bambini della seconda scuola
MI«
FREQUENZA
PERCENTUALE
3 4 5
6
Totale
2 4 12 1
10,5 21,1 63,2
19
5,3 100,0
Le insegnanti erano soltanto due che, fatti salvi alcuni tempi di copresenza, si davano il cambio.
PER INTERPRETARE I RISULTATI
TAB.4.3. Un esempio di sintesi dei risultati Smumorto 1 Srauswero T STitumertro 3 — IPOTESI
caso 1 caso
2
Legenda: «+» = lo strumento corrobora l'ipotesi; «-» = lo strumento non corrobora ipotesi. N.B. La casella vuota indica che lo strumento non è applicabile o che non ha evidenziato nulla rispetto all'ipotesi specifica.
82 CAPITOLO 4
Lo STUDIO DI CASO 83
Nel quadro 4.4, per l'esempio utilizzato, vengono illustrati gli strumenti utilizzati per la triangolazione delle fonti di evidenza empirica, la struttura del piano di studio su campo e una modalità di valutazione dei risultati rispetto alle ipotesi.
QUADRO 4.4. La logica che collega i dati alle ipotesi e i criteri per interpretare i risultati Gli strumenti d'indagine Nel progetto QUASI sono stati utilizzati diversi strumenti con l'obiettivo di esplorare le aree di attenzione e le ipotesi emerse dal panel sulla base di fonti multiple di evidenza empirica. Le principali metodologie di raccolta dati utilizzate sono state: • Intervista a scuola (un'intervista relativa al funzionamento della scuola fatta al dirigente scolastico e agli insegnanti con funzioni di coordinamento di particolari attività e/o servizi) • Osservazione strutturata della giornata scolastica dei bambini • Osservazione partecipante da parte dei ricercatori • Raccolta documentaria (il piano dell'offerta formativa – POF — della scuola e altri documenti) • Questionario docenti (con domande aperte e chiuse) • Questionario genitori (con domande aperte e chiuse) • Narrazione scritta a tema sulla propria scuola (da parte del dirigente scolastico) • Laboratorio esperienziale con gli insegnanti • Focus group con i genitori • Interviste a testimoni privilegiati indicati dalla scuola (persone esterne con cui la scuola ha però un contatto stabile) Lo studio su campo Lo studio su campo è stato condotto da coppie di ricercatori al fine di poter avere oltre che strumenti diversi che indagassero lo stesso oggetto d'indagine anche punti di vista soggettivi diversi. La struttura dell'osservazione e raccolta dati sul campo riportata di seguito è stata definita sulla base delle informazioni necessarie per l'utilizzo dei diversi strumenti e tenendo presente quella che era l'organizzazione dell'orario scolastico. Ad esempio, l'intervista ai testimoni
privilegiati esterni alla scuola è stata posta alla fine perché solo dopo l'intervista iniziale era possibile sapere chi fossero e accordarsi con loro per un incontro. Piano dell'osservazione e della raccolta dati sul campo 1° giorno • Incontro con il coordinatore e il dirigente • Intervista a scuola semistrutturata al coordinatore • Definizione/categorizzazione spazi per osservazione strutturata • Scelta 2 sezioni per osservazione della giornata • Raccolta documenti (PoF ecc.) • Incontro pomeridiano con gli insegnanti • Laboratorio sulle metafore di scuola con gli insegnanti • Somministrazione questionario insegnanti 2° giorno • Osservazione accoglienza • Interazione con adulti e bambini con l'obiettivo di familiarizzare con l'oggetto telecamera • Documentazione audiovisiva degli spazi e dei prodotti visibili • Raccolta documenti • Intervallo di circa 20 giorni fra una visita e l'altra 3° giorno
• Consegna questionario genitori • Osservazione strutturata attività di sezione 1 • Documentazione audiovisiva spazi e prodotti 4° giorno • Ritiro questionari genitori • Documentazione filmata attività sezione 2 • Documentazione audiovisiva spazi e prodotti 5° giorno • Ritiro questionario genitori • Interviste a testimoni privilegiati «territorio» (assistente sociale, referenti istituzionali, comitato di quartiere) • Focus group genitori • Commiato
84
CAPITOLO
4
Lo STUDIO DI CASO 85
I criteri per interpretare i risultati La metodologia dello studio di caso prevede che un fenomeno sia meglio descritto dalla concordanza di elementi provenienti da diverse fonti, indagate con specifici strumenti. Il piano delle analisi sarà, quindi, incentrato sugli elementi di concordanza emersi all'interno della singola scuola e sugli elementi di concordanza emersi tra le diverse scuole. Di seguito è riportato un esempio riguardante due ipotesi specifiche sulla qualità delle interazioni sociali, la prima riguarda il fatto che una scuola dell'infanzia di qualità operi una lettura dei bisogni delle famiglie e della loro soddisfazione; la seconda, che l'istituto coinvolga le famiglie facendole intervenire nello sviluppo della qualità del servizio.
zione. Come dice il sindaco di quel piccolo comune, intervistato in qualità di testimone privilegiato: «c'è un impegno di tutta l'amministrazione per tenere la scuola aperta, per rendere un servizio al cittadino». La lettura dei bisogni ha tenuto conto della relativa situazione di isolamento dei bambini e delle bambine (Fonte: intervista a scuola). In un'ottica di continuità orizzontale, la scuola e i suoi operatori cercano di dare soluzione a questi problemi attraverso il «Progetto incontro» per attivare modalità di aggregazione fra i plessi delle diverse comunità montane (Fonte: documentazione). Nell'organizzazione delle attività scolastiche viene data particolare attenzione alle esigenze delle famiglie (Fonte: intervista a scuola):
Ipotesi 1: lettura dei bisogni delle famiglie e loro soddisfazione La scuola in città. Dall'intervista a scuola emerge che la lettura dei bisogni delle famiglie operata da parte della scuola ha portato a concludere che ci sia una forte presenza di genitori che lavorano in un grande ospedale vicino, con un'esigenza di un orario di apertura della scuola molto differenziato. In realtà le risposte del questionario genitori evidenziano che le professioni chiaramente legate all'ambito ospedaliero sono una minoranza (2,5 % per i padri e 7,1% per le madri). In quest'area appare evidente da parte della scuola un desiderio di interpretare i bisogni delle famiglie, a prescindere da una loro lettura, per non cadere nell'assistenzialismo. Questa idea è illustrata nel seguente passaggio dell'intervista a scuola:
abbiamo dei genitori che per motivi di lavoro devono portare i bambini nella prima settimana e allora noi facciamo un elenco insieme a loro, così le mamme casalinghe che non sono poi tante possono portarli la settimana dopo.
per non rischiare di fare assistenza è stato studiato un orario che è apparentemente macchinoso [...] in maniera tale che noi non abbiamo tutto il personale del mattino concentrato alle sette e mezza E...1 il personale che entra ad orari differenziati, secondo uno studio, in maniera tale da garantire la massima copresenza di personale nella fase di apertura dei laboratori, cioè quando noi cominciamo a fare attività specifiche o per gruppi misti, o per gruppi di età omogenea.
Dal punto di vista dei genitori la soddisfazione per gli orari di apertura e l'organizzazione della scuola in funzione dei loro bisogni è su un livello intermedio (Fonte: questionario genitori e focus group con i genitori). • Sulla base dei dati a disposizione su questo caso non appare corroborata l'ipotesi che un'analisi dei bisogni manifesti delle famiglie nell'organizzazione degli orari sia una condizione sufficiente per definire il raggiungimento dei parametri «di qualità» su questo aspetto. La scuola in montagna. Una delle principali risposte aí bisogni delle famiglie da parte della scuola nella zona montana è la stessa presenza della monose-
Dal punto di vista dei genitori la soddisfazione per gli orari di apertura e l'organizzazione della scuola in funzione dei loro bisogni è su un livello molto elevato (Fonte: questionario genitori e focus group con i genitori). • Sulla base dei dati a disposizione su questo caso l'ipotesi che una lettura dei bisogni manifesti delle famiglie sia una caratteristica di una scuola di qualità appare invece corroborata. Ipotesi 2: le famiglie intervengono nello sviluppo della qualità del servizio La scuola in città. La partecipazione richiesta ai genitori da parte della scuola è forte: ad esempio i genitori sono «intervistati» dai bambini e la cosa viene sfruttata da un punto di vista didattico (Fonte: intervista a scuola): noi abbiamo utilizzato in questi anni tutti i possibili agganci che potevamo trovare, con i genitori per muoverci nella città. Avevamo un genitore che lavorava in aeroporto [...] l'aeroporto era ancora un po' vecchiotto, mi ricordo che siamo partiti con tutti i bambini e lui ci ha fatto vedere come facevano muovere gli aerei, tutti i segnali, è stato una cosa incredibile per i bambini [..1 certo devi avere la fortuna che ti capiti. Io ho conosciuto per la prima volta un papà pescatore e allora abbiamo avuto i contatti con lui e ci ha spiegato tutto su come avviene la pesca.
I genitori offrono il loro concreto aiuto per migliorare la qualità del servizio come, ad esempio, la fornitura e l'installazione gratuita dell'impianto di condizionamento nello spazio adibito al teatro (Fonte: intervista a scuola). I1 40% dei genitori dichiara di aver partecipato attivamente a un'iniziativa durante l'anno
86
CAPITOLO 4
scolastico e il 21% riferisce che la scuola ha chiesto loro dei suggerimenti su attività extradidattiche, sulle abitudini dei bambini, sulla mensa ecc. (Fonte: questionario genitori). • Sulla base dei dati a disposizione su questo caso, appare sostenibile che la possibilità per le famiglie di intervenire nel processo di implementazione del servizio sia una caratteristica di una scuola di qualità. La scuola in montagna. Il coinvolgimento dei genitori si basa sulla possibilità, offerta dal contesto, di un rapporto basato su continui contatti quotidiani di genitori «che capitano nella scuola» (Fonte: osservazione diretta partecipante). Il 78% di coloro che hanno risposto al questionario somministrato ai genitori del plesso dichiara di aver partecipato attivamente ad alcune iniziative della scuola (organizzazione di feste, di recite, particolari progetti) e il 21% riferisce che la scuola ha chiesto loro dei suggerimenti (mensa, abitudini dei bambini ecc.). Esiste un coinvolgimento da parte delle famiglie che si adoperano per intervenire nello sviluppo della qualità del servizio, anche da un punto di vista strettamente operativo e pratico (le panchette degli spazi della sezione scolastica visitata sono state costruite da alcuni genitori dei bambini e delle bambine. Fonte: focus group genitori). Infine non è potuto sfuggire ai ricercatori con quanta cura i genitori intervenuti al focus group abbiano riposto le sedie, tirato giù le serrande e spazzato per terra, in quella che essi stessi definivano la loro scuola. • Anche i dati a disposizione su questo caso corroborano la possibilità che l'intervento delle famiglie nel processo di implementazione del servizio sia una caratteristica di una scuola di qualità.
Valutazione delle ipotesi
Nella tabella 4.4 viene riportata la valutazione delle ipotesi rispetto agli strumenti utilizzati e i casi esaminati. Dalla lettura della tabella si evidenzia che la prima ipotesi «Si opera una lettura dei bisogni dei genitori», trova un chiaro sostegno solo nel caso riguardante la scuola in montagna. Nella scuola in città gli strumenti rivolti ai portatori dei bisogni (i genitori) offrono infatti un riscontro negativo. Per quanto riguarda la seconda ipotesi «Le famiglie intervengono nello sviluppo della qualità del servizio», essa è invece corroborata dai risultati di diversi strumenti in tutti e due i casi.
Lo STUDIO DI CASO 87
TAB.4.4. La valutazione delle ipotesi
I
I n
Si opera una lettura dei bisogni dei genitori (così come vengono esplicitati dall'utenza)
Scuola in città
Le famiglie intervengono nello sviluppo della qualità del servizio
Scuola in città
+ +
Scuola in montagna
+ +
Scuola in montagna
+ +
+
Legenda: «+» = lo strumento corrobora l'ipotesi; «-» = lo strumento non corrobora ipotesi. N.B. la casella vuota indica che lo strumento non è applicabile o che non ha evidenziato nulla rispetto all'ipotesi specifica.
RIEPILOGO In questo capitolo è stata affrontata la strategia di ricerca dello studio di caso. Questa strategia è stata definita nei termini della possibilità di usare diverse tecniche di raccolta dati ai fini dell'esame dettagliato di un singolo esempio di una classe di fenomeni. Sono state descritte le diverse fasi che definiscono tale strategia di ricerca, che è stata illustrata attraverso un esempio nel contesto scolastico. È stato esplicitato che l'unicità del caso studiato non necessariamente si definisce nella negazione della sua comparabilità con altri casi e sono state descritte alcune delle strategie per la descrizione dei dati e per poter trarre adeguate conclusioni.
L'analisi qualitativa del contenuto
Una delle prime definizioni di analisi del contenuto è quella proposta da Berelson nel libro Content analysis in communication research. Secondo questa definizione, si tratta di «una tecnica di ricerca per la descrizione oggettiva, sistematica e quantitativa del contenuto manifesto di una comunicazione» [Berelson 1952,18]. Dopo quello di Berelson sono stati pubblicati molti altri manuali che si sono occupati di questa metodologia e, attualmente, i due più citati a livello internazionale sono Basic content analysis di Robert Philip Weber [1990] e Content analysis: An introduction to its methodology di Klaus Krippendorff [2004]. Secondo Weber [1990, 9]: «l'analisi del contenuto è un metodo di ricerca che utilizza un insieme di procedure per fare delle inferenze valide da un testo». Krippendorff invece definisce l'analisi del contenuto come «una tecnica di ricerca per fare inferenze valide e replicabili dai testi (o di altro materiale dotato di significato) ai contesti del loro utilizzo» [Krippendorff 2004, 18]. Viene così evidenziato come nell'analisi del contenuto i dati debbano essere analizzati tenendo presente che si tratta di testi, immagini o altri significanti che sono stati creati per essere visti, letti, interpretati in funzione del loro significato. In questo senso le definizioni di Weber e di Krippendorff condividono alcuni elementi: in primo luogo entrambe parlano di inferenza, termine che indica un ragionamento in senso molto generale, il trarre conclusioni sulla base di un procedimento che può essere deduttivo, induttivo o abduttivo. Il secondo elemento in comune è che tali inferenze debbano essere replicabili e valide.
90 CAPITOLO 5 1.Analisi domande di ricerca
Questa caratteristica distingue l'analisi del contenuto da altre possibili modalità d'interpretazione, sgombrando il campo dall'idea che tutte le inferenze fatte a partire da un testo siano uguali da un punto di vista scientifico. Naturalmente questo non significa affermare che esiste un'unica lettura possibile di un testo, quella che Berelson [1952] definiva la descrizione oggettiva, ma sono possibili molte analisi diverse che possono essere condotte sulla base del significato linguistico e/o teorico del materiale considerato. Non appare però nemmeno sostenibile che tutte le interpretazioni di un testo siano uguali da un punto di vista scientifico: alcune saranno più attendibili e valide di altre e quindi, in questo ambito, preferibili. Dal punto di vista procedurale, diversi autori [Mayring 2000; Schilling 2006] distinguono due tipologie di analisi del contenuto, una che segue un approccio top-down, dove le categorie di analisi vengono definite a priori per esaminare poi il materiale con la loro guida e un'altra invece di tipo bottom-up, in cui si parte dal basso, dal materiale stesso per arrivare a individuare delle categorie di analisi. L'approccio top-down viene anche chiamato deduttivo [Mayring 2000], per indicare che le categorie sono preesistenti all'analisi stessa, derivando da una specifica teoria o comunque da un insieme di costrutti precedentemente sviluppati. Nell'analisi deduttiva le regole per distinguere le diverse categorie possono essere riviste nel corso dell'analisi, ma la definizione è comunque presente a priori. Si tratta di una logica che, alla luce della discussione fatta nel capitolo 1, segue i dettami della ricerca quantitativa, dove si sa prima di partire nel processo di analisi quale sia il contenuto del materiale e l'oggetto della ricerca: lo scopo è vedere in quale misura tale oggetto sia presente. Al contrario, nell'approccio di tipo bottom-up o induttivo [ibidem] l'obiettivo principale è quello della «scoperta» di nuove categorie di contenuto partendo dal basso, dai dati stessi. L'unico punto di partenza, al di là dei dati, è il punto di vista soggettivamente scelto dal ricercatore. A parere di chi scrive, questo secondo approccio è quello più tipicamente proprio delle metodologie oggetto del presente volume ed è ad esso che verrà dedicato lo spazio che segue. Nell'analisi qualitativa del contenuto esistono alcune questioni di fondo che il ricercatore si trova ad affrontare che, a scopo illustrativo, sono sintetizzabili in dieci passaggi diversi (fig. 5.1). Tali passaggi verranno
2. Scelta dell'unità di analisi
3. Campionamento testi
4. Codifica esplorativa
5. Definizione del «codeboolo> Problemi di attendibilità
Attendibilità ok
7. Campionare?
8.Codifica dei testi
Attendibilità ok
10. Analisi quantitative
fig. 5.1. Il decalogo dell'analisi qualitativa del contenuta Nota:Il processo comincia con l'analisi della domanda di ricerca e la definizione dell'unità di analisi.Viene successivamente selezionato un campione di testi su cui effettuare la codifica esplorativa ed individuare un primo insieme di categorie (i diversi animali rappresentano diverse categorie/significati) che dopo essere state valutate dal ricercatore, vengono definite nel codebook (il libro) e sono soggette a modificazioni fino a quando l'attendibilità formativa non risulta soddisfacente. Successivamente viene effettuata la codifica definitiva (i diversi animali/categorie aumentano di numero), valutata conclusivamente l'attendibilità delle categorie utilizzate ed effettuate le analisi quantitative (il numero accanto al pinguino e al pesce rappresenta il livello più elementare di analisi in termini di frequenza).
92 CAPITOLO 5
di seguito analizzati e descritti e poi illustrati in un esempio di ricerca riportato nel quadro 5.1.
1. L'ANALISI DELLE DOMANDE DI RICERCA Questo primo passaggio è necessario per individuare gli obiettivi dell'analisi delimitando in questo modo l'ambito del lavoro e restringendo il campo delle successive scelte. In questa fase si chiariscono le inferenze che si potranno fare a partire dai risultati, il livello di rappresentatività dei dati, il livello di dettaglio a cui dovrà arrivare l'analisi, i possibili legami tra i costrutti descrittivi del contenuto ecc.
2. LA DEFINIZIONE DELLE UNITÀ DI ANALISI Il materiale si presenta normalmente al ricercatore come un flusso continuo d'informazione che deve essere, in qualche modo, suddiviso in parti che siano più facilmente gestibili. Il ricercatore deve dunque scegliere l'unità di analisi di un testo, che può variare dalla singola parola all'insieme di frasi. Da questa scelta metodologica derivano alcune conseguenze di metodo. Ad esempio, la singola parola in un testo è meglio gestibile attraverso analisi completamente automatizzabili, piuttosto che attraverso un'analisi del contenuto basata sulla codifica umana. Quando il materiale da esaminare è costituito da risposte a un'intervista o a domande aperte in un questionario, la naturale unità di analisi è rappresentata dalla totalità della risposta stessa. Se però le risposte sono molto lunghe o il materiale è costituito da documenti, può essere conveniente considerare come elemento da codificare la frase o il periodo. Qualunque sia la scelta, è necessario che l'unità di analisi sia definita operativamente attraverso la presenza di segni d'interpunzione, o altri criteri come il numero delle parole, che la rendano facilmente riconoscibile e replicabile dai diversi ricercatori. La maggior parte dei software di supporto consente di fare questo. Alcuni programmi lasciano la possibilità di avere un'unità di codifica variabile, cosa che permette di considerare,
L'ANALISI QUALITATIVA DEL CONTENUTO 93
di volta in volta, porzioni di testo diverse come oggetto della codifica. Questo, che in linea generale sembrerebbe attraente, diviene, nello specifico ambito dell'analisi del contenuto, una procedura sconsigliabile poiché rende necessario considerare anche la semplice scelta dell'unità di codifica un elemento di cui valutare l'attendibilità, poiché oggetto d'interpretazione.
3. IL CAMPIONAMENTO Inizialmente è necessario campionare una parte del materiale che servirà per svolgere la prima codifica esplorativa. Esistono diversi tipi possibili di campionamento e considereremo qui, fra quelli applicabili ai testi, solo quelli di tipo casuale, che consentono una possibilità di generalizzare i risultati dal campione alla popolazione di testi oggetto di studio. Campionamento casuale semplice. Nel campionamento casuale il primo passo è quello di fare una lista completa di tutti gli elementi (le unità di analisi) della popolazione oggetto di studio. Se si utilizza un software per l'analisi qualitativa dei dati computer-assistita (Computer assisted quality data analysis, CAQDA), l'esportazione in un file dell'elenco delle unità di analisi è, di norma, un'operazione semplice. Successivamente il ricercatore deve applicare una strategia di randomizzazione che assicuri a ciascuna delle unità presenti nella lista un'uguale probabilità di essere estratta. A questo scopo è possibile utilizzare una tabella di numeri casuali o, in modo molto più veloce, utilizzare un software che effettui l'estrazione sulla base di una algoritmo che genera una sequenza di numeri che si approssima a quella dei numeri casuali. Campionamento casuale sistematico. Nel campionamento sistematico il ricercatore seleziona parti del testo ogni k-esima unità a partire da un determinato punto dall'inizio del flusso delle informazioni. Nell'analisi del contenuto il campionamento sistematico è utile quando il materiale proviene da una fonte di natura ripetitiva come i giornali, le
94 CAPITOLO 5
riviste, le serie televisive, le interazioni personali in specifici setting che prevedono la ripetizione di una stessa sequenza. In questo tipo di campionamento dovrebbe essere posta particolare attenzione al criterio con cui viene stabilito l'intervallo per selezionare le unità, infatti se c'è una qualche regolarità nel flusso di occorrenze del materiale considerato, che è correlata al criterio scelto, questo costituisce una seria minaccia alla rappresentatività del campione. Per meglio spiegare questo rischio è utile usare un esempio proposto da Krippendorff [2004] riportando uno studio di Hatch e Hatch del 1947 sugli annunci matrimoniali apparsi sul «New York Times»: i ricercatori avevano sistematicamente campionato i numeri di giugno dal 1932 al 1942, trovando un'assenza degli annunci riguardanti matrimoni celebrati nelle sinagoghe. Gli autori non avevano però considerato che il criterio scelto li aveva portati a prendere in esame un periodo in cui la tradizione ebraica proibisce i matrimoni. Campionamento casuale stratificato. Nel campionamento stratificato la lista di campionamento è suddivisa sulla base di una o più variabili di particolare interesse per la ricerca. Le unità quindi appartengono ad uno specifico strato e il ricercatore le seziona all'interno degli strati utilizzando il campionamento casuale semplice o il campionamento casuale sistematico. Neuendorf [2002] riporta come esempio uno studio di Smith [1999] sulla rappresentazione del ruolo delle donne nei film degli anni '30 e '40 rispetto all'immagine presentata in film più recenti (anni '90). Per selezionare le unità gu cui condurre la ricerca, la Smith ha considerato una stratificazione rispetto alla decade oggetto di studio, costruendo successivamente una sottopopolazione per ognuna delle diverse decadi, e infine effettuando un campionamento casuale sistematico per ognuna delle decadi. In generale, quando la grandezza dei sottocampioni corrispondenti agli strati è proporzionale alla loro dimensione nella popolazione, il campionamento casuale stratificato assicura un'adeguata rappresentazione dei diversi raggruppamenti. Dimensione del campione. Raramente i teoremi alla base delle procedure campionarie possono essere applicate ai testi, in quanto le unità
L'ANALISI QUALITATIVA DEL CONTENUTO 95
di analisi sono spesso collegate le une alle altre e non sono quindi indipendenti come la teoria richiederebbe. Inoltre spesso le unità testuali non sono ugualmente informative rispetto alle domande di ricerca. Krippendorff sostiene però che una regola può essere comunque mutuata dai teoremi alla base delle procedure campionarie: Quando le unità testuali che potrebbero fare una differenza nel rispondere al problema della ricerca sono rare, la dimensione del campione dovrebbe essere più ampia di quella in cui tali unità sono frequenti [Krippendorff 2004, 122]. Una tecnica che consente un qualche tipo di orientamento pratico è quella split-half [ibidem]. Essa richiede la suddivisione del campione in due parti di uguale dimensione. Se, stabilito un certo criterio, le due parti portano a trarre le stesse conclusioni nei dati, allora il campione intero può essere considerato adeguato. In caso opposto il ricercatore dovrebbe aumentare il numero delle unità di analisi inserite nel campione finché questo risultato non è raggiunto.
4. LA CODIFICA ESPLORATIVA
Una volta definito il numero delle unità di analisi, si dovrà individuare in esse il maggior numero possibile dei temi presenti nel materiale esaminato e di attribuire loro un codice. In questa fase, definita codifica esplorativa, si cerca di non tralasciare niente e l'analista ha molta libertà di decisione. Come in un brain storming si cercano più soluzioni possibili a un problema senza valutarne la realizzabilità, così nella codifica esplorativa si crea una categoria ogni volta che si ritiene di aver incontrato un tema distinto, senza porsi troppi problemi di parsimonia. Per favorire l'identificazione di un maggior numero di categorie è anche utile che più analisti esaminino lo stesso materiale in modo indipendente fra loro. Poiché le prime categorie individuate peseranno necessariamente sul modo in cui il codificatore esaminerà in seguito il materiale, è importante che l'ordine degli elementi analizzati sia il più possibile
96 CAPITOLO 5
casuale. Un consiglio generale in questa fase dell'analisi, in cui si vuole rimanere il più possibile vicini ai testi, è quello di denominare le categorie con le stesse parole presenti in essi. Nella codifica esplorativa la proliferazione di categorie può essere molto rapida, si tratta di un processo in cui ci si trova continuamente a fare scelte riguardanti l'opportunità di costruire nuove categorie e a valutare somiglianze e differenze di significato fra le diverse risposte. Nella codifica esplorativa descrittiva le risposte vanno incluse in una stessa categoria sulla base di inferenze riguardanti l'appartenenza ad uno stesso elemento da un punto di vista semantico, lungo una stessa scala di astrazione [ Sartori 1984]. In altri termini il giudizio del codificatore riguarda il fatto che i due elementi sono approssimativamente intercambiabili, sono sinonimi, oppure che essi appartengono ad uno stesso concetto, ma a livelli di generalità diversi. Bisogna però fare attenzione a non includere nella stessa categoria materiali appartenenti a categorie diverse che, sulla base di una valutazione interpretativa del ricercatore, siano collegate tra di loro da una relazione di tipo causa/effetto o da un modello finalistico. Nella fase di analisi esplorativa i codificatori hanno la libertà di cambiare liberamente i loro codici e le loro definizioni, formulando nuove categorie o sussumendo le vecchie in classi più ampie [ Schilling 2006]. Da un punto di vista operativo, rispetto al problema del grado di generalità da dare a una categoria, è utile denominare di volta in volta i testi entro la categoria più astratta tra quelle rilevate, fino a quando la codifica diventa talmente generica da risultare inutile. Inoltre è opportuno abbozzare una definizione delle categorie individuate, facendo attenzione che in esse siano presenti un numero minimo di elementi. Una regola aurea è stata proposta in questo senso da Locke [2002]: si può proporre una definizione di un codice quando esso contenga almeno sei unità di analisi. Naturalmente, sebbene si stia trattando di un modello di ricerca bottom-up, spesso il ricercatore ha in mente, in modo più o meno chiaro, almeno un abbozzo di categorie [Schilling 2006]. Per migliorare la trasparenza del processo di analisi tali idee andrebbero esplicitate prima di iniziare la codifica.
L'ANALISI QUALITATIVA DEL CONTENUTO 97
5. LA DEFINIZIONE DEL «CODEBOOK» Il codebook è un manuale in cui vengono esplicitati i criteri di assegnazione dei testi alle categorie, rendendoli il più chiari possibili [Neuendorf 2002] in modo da consentire la ripetizione dell'analisi da parte della stessa persona o da persone diverse. L'esistenza di tale strumento costituisce un requisito necessario perché un'analisi del contenuto basata su una codifica umana possa essere attendibile. Il codebook dovrebbe contenere almeno quattro elementi: il nome della categoria, la sua definizione, le regole di codifica e degli esempi di testi che siano, in qualche modo, i prototipi della categoria stessa. Il nome della categoria dovrebbe essere breve, poiché esso dovrà essere successivamente rappresentato, e chiaramente rappresentativo del contenuto. La definizione dovrebbe chiarire il significato della categoria nell'ambito dell'analisi qualitativa effettuata, indicandone le caratteristiche fondamentali e distintive. Le regole di codifica sono affermazioni del tipo se p allora q che hanno il fine di rendere operativa da un punto di vista logico la definizione. Gli esempi sono i testi, che al giudizio dei codificatori sono più rappresentativi della categoria, gli elementi che saturano meglio il suo significato. Essi rappresentano la definizione ostensiva, quello che può essere mostrato della categoria stessa. In sede di costruzione del codebook è necessario scegliere il numero di dimensioni rispetto a cui analizzare il testo (i diversi gruppi di categorie mutualmente escludentisi), il livello di astrazione delle categorie e la loro eventuale articolazione in sottocategorie. Sebbene i diversi software facilitino notevolmente il lavoro dei codificatori, rimane vero che più è complicato il codebook, più è lungo il training dei codificatori e maggiore il rischio per l'attendibilità delle categorie. Il codebook può assumere la forma di descrizioni dettagliate, di tabelle, di schemi grafici, può essere in formato cartaceo o implementato all'interno di un software CAQDA, ma il suo scopo è sempre lo stesso: rendere i criteri di analisi comprensibili e controllabili da altre persone, ponendo le basi per l'attendibilità dell'analisi.
L'ANALISI QUALITATIVA DEL CONTENUTO 99
98 CAPITOLO 5
6. LA VALUTAZIONE FORMATIVA DELL'ATTENDIBILITÀ Definito il codebook, il passo successivo è quello di analizzare un altro campione di risposte su cui fare la valutazione formativa dell'attendibilità, per testare empiricamente se c'è qualche problema nella definizione operativa delle categorie. In questa fase considereremo le difficoltà incontrate nell'applicazione delle regole di codifica, come un indicatore di un problema nei criteri di classificazione e nel training dei codificatori. In linea generale il codebook va cambiato e i codificatori vanno addestrati finché non si raggiunge un buon livello di attendibilità interpersonale. Per raggiungere questo obiettivo, Neuendorf [2002] propone una procedura piuttosto ripetitiva che prevede i seguenti passi: • agli analisti viene illustrato il codebook; • gli analisti codificano insieme il materiale cercando di costruire il consenso su come attribuire i testi alle categorie; • se necessario il codebook viene modificato; • gli analisti codificano una prima parte del materiale e tale codifica viene revisionata; • gli analisti codificano in modo indipendente un numero di unità rappresentative delle diverse categorie; • gli analisti discutono i risultati della codifica indipendente; • se necessario il codebook viene modificato; • gli analisti codificano un campione di testi e si calcola l'attendibilità interpersonale; • se necessario il codebook viene modificato; • gli analisti vengono addestrati sulle revisioni definitive del ricercatore.
forma di testi, di video, di immagini ecc. per l'analisi del contenuto è enorme e diventa facilmente ingestibile. Spesso non è possibile esaminare l'universo dei testi per motivi legati alle risorse a disposizione. In questi casi è necessario allora ricorrere a forme di campionamento che consentono di estrarre casualmente alcuni sottoinsiemi di unità, usati per trarre inferenze sull'intero materiale rilevato. Questa scelta dipende, ovviamente, dalle risorse a disposizione in termini di tempo e di numero di codificatori, tenendo presente che maggiore è il numero dei testi analizzati, maggiore è la possibilità di approfondire le eventuali analisi quantitative. Le procedure di campionamento sono le medesime illustrate in precedenza.
8.
Nella codifica definitiva dei testi l'obiettivo è di attribuire tutto il materiale oggetto di studio a una delle categorie individuate nelle fasi precedenti e definite nel codebook. Nonostante tutti gli accorgimenti, è possibile che alcuni testi non siano attribuibili ad alcuna delle categorie definite e quindi è opportuno avere una classe altro dove codificare questo tipo di materiale. Successivamente, a seconda dell'ampiezza della categoria residuale altro, si deciderà se effettuarvi un'apposita analisi, oppure no. Vale la pena notare che in un'analisi del contenuto, vista la ricchezza dei dati di partenza, l'assenza di una categoria altro, più che un'analisi esaustiva, segnala la volontà del ricercatore di non affrontare il problema.
9. 7. IL CAMPIONAMENTO PER LA CODIFICA DEFINITIVA Una volta che l'attendibilità delle codifiche delle categorie nel codebook ha raggiunto un livello accettabile (cfr. cap. 2), si passa a campionare i testi per la codifica definitiva. La disponibilità di materiale sotto
LA CODIFICA DEFINITIVA DEI TESTI
LA VALUTAZIONE SOMMATIVA DELL'ATTENDIBILITÀ
La valutazione sommativa dell'attendibilità permette di stimare in modo conclusivo l'affidabilità dell'analisi del contenuto effettuata. Le categorie che avessero, a questo punto, una cattiva attendibilità dovrebbero essere segnalate ed interpretate con estrema cautela.
100 CAPITOLO 5
L'ANALISI QUALITATIVA DEL CONTENUTO 101
10. LE ANALISI QUANTITATIVE La prima analisi quantitativa possibile e molto informativa è quella dí calcolare le frequenze delle categorie individuate. La maggior parte dei software CAQDA consente di gestire al loro interno questa operazione e danno anche la possibilità di esportare i dati sotto forma di un file importabile in programmi per analisi di tipo statistico. Spesso si tende a sottostimare la possibilità di effettuare analisi quantitative per approfondire i risultati di una codifica. Krippendorff [2004] afferma che, dopo che sono state applicate le categorie e registrati i risultati in un'analisi del contenuto, sarebbe necessario: le inferenze dai testi così che esse possano esse• poter sintetizzare ~ o re facilmente capite e interpretate; • poter evidenziare i pattern e le relazioni all'interno dei risultati; • comparare i risultati con dati ottenuti in altri modi o da altre situazioni. Le analisi quantitative che è possibile effettuare sui risultati di un'analisi del contenuto sono molte e vanno dal confronto fra due variabili a tecniche multivariate come l'analisi delle corrispondenze multiple, la cluster analysis, la segmentazione con alberi di classificazione ecc. Prima di effettuare elaborazioni più complicate delle frequenze, è però sempre necessario valutare se la nostra codifica ha rispettato le assunzioni alla base delle analisi che si vogliono compiere, prima fra tutte, l'indipendenza dei codici assegnati ai testi [Weber 1990].
QUADRO 5.1. La definizione del «codebook» Per illustrare la metodologia bottom-up svilupperemo qui alcuni passaggi, dall'analisi delle domande di ricerca alla definizione del codebook, nell'ambito di una ricerca sulla motivazione allo studio a scuola [Alivernini et al. 2007]. Questo studio verrà più volte ripreso come esempio nei quadri relativi anche ai successivi capitoli.
In questo studio circa 700 studenti, dal quarto anno della scuola primaria alla fine della scuola secondaria di primo grado, hanno risposto a un breve questionario con risposte aperte, dove si chiedeva agli alunni di spiegare quali fossero i principali motivi per cui essi ritenevano importante studiare, lasciandoli completamente liberi di scrivere quello che volevano. I dati provenienti da domande aperte poste in un'intervista o in un questionario costituiscono la situazione più semplice nell'analisi di dati qualitativi, che ci consente di esaminare alcuni problemi che sono presenti anche nelle indagini molto più complesse. Nella tabella 5.1 vengono riportate alcune delle risposte degli alunni precedute dal numero identificativo del soggetto che le ha date. TAB.5.1. Le risposte degli studenti semino 1
IftirelaAL1A MIKAMDA 411ROMMOt3>w Perché mi piace studiare
2
Per avere un titolo di studio
3
Lo faccio per i miei genitori e un po' anche per me
4
Da grande voglio fare la veterinaria
5
Perché mi piace imparare le cose dai libri
6
Per avere poi un buono stipendio
7
Per fare l'architetto e per fare contenti i miei genitori
8
È utile per me
9 10
Perché studiare è divertente Voglio far felici i miei genitori e voglio diventare una persona importante
11
Per avere in futuro un titolo di studio
12
Perché è una cosa importante
13
Sono obbligato
14
Per essere promosso
15
Per prendere il diploma
16
Per avere un buono stipendio
17
Perché mi piace imparare cose nuove
18
Per avere buoni voti
19
Per fare il medico
20
Lo devo fare per forza, altrimenti mia madre mi ammazza di botte
21
Per avere una migliore occupazione dopo
22
Perché poi voglio fare il veterinario
23
Per fare un lavoro dove si guadagni di più
24 25
Per non essere ignorante Perché da grande voglio fare l'astronomo
102 CAPITOLO 5
Analisi delle domande di ricerca. Il punto di partenza (punto 1) è l'analisi della domanda di ricerca, che, nel nostro caso, è la seguente: quali sono i principali motivi per cui gli studenti studiano, a partire da quello che loro dicono? L'obiettivo è largamente esplorativo, non poggia su una teoria della motivazione allo studio degli alunni e le risposte vengono analizzate solo alla luce del comune significato linguistico di un testo. In altri termini lo scopo è individuare un numero di categorie che sia inferiore al numero delle risposte fornite dagli alunni, ma che ne sintetizzino la maggior parte del significato in un modo valido e attendibile. Siamo di fronte a un'idea che è centrale nell'analisi del contenuto: molte parole di un testo vengono classificate in un numero ridotto di categorie [Weber 1990]. L'esame della domanda di ricerca ha definito quindi uno spazio, dei confini e dei percorsi da seguire nell'analisi. Scelta dell'unità di analisi. Il passo successivo (punto 2) è quello della scelta dell'unità di analisi. Nell'estratto presentato i testi sono molto brevi e spesso centrano un tema, quindi per non porre ulteriori problemi di attendibilità nell'analisi, si è deciso che ad ogni risposta corrispondesse un'unica codifica, indipendentemente dalla sua lunghezza. Nel caso in cui la risposta fosse composta da due frasi coordinate, ad esempio la numero 3 «Lo faccio per i miei genitori e un po' anche per me», si è chiesto ai codificatori di considerare solo la prima proposizione. Questa scelta porta a perdere alcune informazioni nelle risposte 3 e 10, ma semplifica di molto il lavoro dei codificatori. Questa non è sempre la scelta migliore, se la domanda posta fosse stata più generale e le risposte più lunghe sarebbe stato opportuno seguire un'altra strada. Campionamento di una parte dei testi. Definita l'unità di analisi si passa al campionamento iniziale (punto 3), che ha lo scopo di fornire un numero sufficiente di possibili materiali diversi ai codificatori per poter «incrociare» tutti i temi ricorrenti. Rispetto a quanto debba essere ampio il campione Mayring [2000] dà a un'indicazione molto vaga che va dal 10 al 50% dei testi (cfr. quanto detto sopra sul campionamento). Nel nostro caso, vista la numerosità dei soggetti a disposizione, si è scelto di campionare casualmente il 10% delle risposte per proporle a due codificatori indipendenti. Codifica esplorativa. A questo punto (3) i due analisti cominciano a codificare le stesse risposte, indipendentemente, con lo scopo d'individuare un primo gruppo di categorie. La prima risposta che incontreranno (tab. 5.1) è «Perché mi piace studiare» e sulla base delle indicazioni ricevute, ipotizziamo che entrambi creino una categoria perché mi piace rimanendo aderenti al
L'ANALISI QUALITATIVA DEL CONTENUTO 103
lessico dell'alunno. Al punto successivo (il secondo) incontrano «Per avere un titolo di studio» e creano per quest'ultimo una nuova categoria titolo di studio. La terza risposta «Lo faccio per i miei genitori e un po' anche per me» viene giudicata come una nuova categoria per i miei genitori. La quarta «Da grande voglio fare la veterinaria» viene codificata dal primo codificatore nella nuova categoria veterinaria, mentre il secondo analista aggiunge la nuova categoria professione. Alla quinta «Perché mi piace imparare le cose dai libri» il primo analista la considera simile alla prima risposta «Perché mi piace studiare» e la codifica nella stessa categoria. L'altro codificatore invece, considerando il fatto che vengono menzionati i libri, crea una categoria distinta per imparare dai libri. La risposta del sesto alunno «Per avere poi un buono stipendio» viene inserita da entrambi i codificatori nella nuova categoria buono stipendio. L'ottava risposta «È utile per me» viene inclusa dal primo analista nella categoria perché mi piace, mentre l'altro crea una categoria nuova utilità per se stessi. Al termine di questa fase ciascun codificatore si troverà con un elenco dí categorie contenenti una o più risposte e con delle prime definizioni: questo permette di passare alla definizione del codebook. Definizione del «codebook». Quando si costruisce un codebook sulla base dei risultati di una codifica esplorativa, la prima cosa da fare è vedere quando una stessa categoria è stata semplicemente chiamata in modo diverso dai due analisti, e il giudizio va effettuato sulla base delle definizioni provviste durante l'analisi. Il secondo passo riguarda il valutare se la differenza fra le categorie sviluppate dagli analisti riguarda solo il loro livello di generalità. Nel nostro esempio uno dei codificatori si è mantenuto sul livello più astratto definito dalla categoria professione mentre l'altro ha individuato una categoria diversa per ciascuna diversa professione: medico, veterinario ecc. La scelta sul livello di generalità si effettua sulla base degli obiettivi dell'analisi e della frequenza delle categorie. Rimangono poi da considerare le categorie che non appaiono concettualmente equivalenti. Una regola pratica è che se hanno una frequenza maggiore di sei esse vanno esaminate: si potrebbe trattare di un tema sfuggito a uno dei codificatori, oppure di una personale idiosincrasia dell'analista che va resa esplicita. In questa fase vengono discussi i casi oggetto di dubbi, l'ambito e il livello di generalità delle categorie, le sovrapposizioni e vengono formulate le regole per l'assegnazione delle unità testuali all'interno del gruppo di ricerca. Facendo questo lavoro di confronto fra le categorie sviluppate, ragionando sul perché si sia codificata una categoria in un certo modo, rendendo esplicite le scelte e le interpretazioni fatte dai codificatori si costruisce il codebook. Nella tabella 5.2 viene presentato un esempio di codebook.
104 CAPITOLO 5
L'ANALISI QUALITATIVA DEL CONTENUTO 105
RIEPILOGO
TAB. 5.2. Esempio di un «codebook» Dmoselowe
RiiratttE COOIRCA
Perché mi piace
Si studia per il piacere e per la gioia provata nello studiare e/o nell'imparare
Nella risposta deve essere menzionato esplicitamente il piacere o comunque le sensazioni positive legate all'imparare. Se nella risposta il piacere è finalizzato ad un'altra cosa, allora la codifica riguarda quest'ultima
• Perché mi piace • Perché è bello imparare le cose dai libri • Perché studiare è divertente
Per guadagnare meglio dopo
Si studia per ottenere un vantaggio economico successivo legato all'aver studiato
Nella risposta deve essere menzionato esplicitamente il motivo economico che è da solo o con ragioni che sono strumentali a quello economico. Se si menziona il lavoro in termini migliorativi, ma senza un esplicito riferimento economico, allora categoria lavoro migliore
• Per avere un buono stipendio • Per fare più soldi dopo • Per fare un lavoro dove si guadagni di più
Per fare una professione
Si studia per poter fare una specifica professione dopo che viene esplicitata
Nella risposta deve essere presente il nome di una specifica professione. Se presente anche un motivo economico, allora categoria per guadagnare meglio. Se presenti sia una professione, sia motivi economici allora categoria specifico lavoro
• Per fare l'architetto • Per fare il medico • Perché poi voglio fare il veterinario
Nes
In questo capitolo viene discussa l'analisi del contenuto, una tecnica usata per svolgere inferenze valide e replicabili sul significato di testi, immagini o altri significanti che vengono raggruppati in categorie. Tali inferenze possono derivare da un approccio top-down, dove le categorie di analisi vengono definite a priori per esaminare poi il materiale, oppure da un approccio bottom-up, in cui si parte dal materiale stesso per arrivare a individuare delle categorie di analisi. In ogni caso l'analisi segue alcuni passi che non possono prescindere da una serie di scelte riguardanti l'unità di analisi (coerente con la domanda di ricerca), a cui seguono una serie di procedure iterative che permettono di definire un codebook valido e capace di permettere una codifica replicabile dei materiali in categorie di contenuto, su cui poi possono essere svolte le opportune analisi. Un esempio di ricerca viene usato per meglio dettagliare lo svolgersi delle fasi.
CAP1TOW
6
La statistica testuale
La statistica testuale consiste nell'analisi con metodi statistici dei testi, intesi come insieme di elementi distinti che hanno una loro frequenza e che possono essere comparati [Lebart e Salem 1994]. Sotto l'etichetta statistica testuale possono essere attualmente considerati diversi approcci, che vanno dall'analisi puramente formale, in cui i testi non sono sottoposti ad alcun trattamento prima dell'analisi, a situazioni in cui, prima della vera e propria elaborazione statistica, vengono fatte operazioni su un piano linguistico e/ o semantico, per individuare forme testuali dotate di significato [Bolasco 1999]. In questo capitolo, a scopo didattico, limiteremo la presentazione ad un approccio formale in cui c'è un basso o nullo intervento del ricercatore sui dati prima della loro analisi statistica. Si rimanda a Bolasco [2005] per una recente presentazione dei diversi e più ampi paradigmi applicativi della statistica testuale, mentre nel capitolo sul text mining (cfr. cap. 7) viene discusso un approccio che utilizza anche informazioni di tipo linguistico nell'analisi dei dati testuali. Se considerata come analisi formale, la statistica testuale rappresenta un approccio basato sui segni (significanti) e sui loro rapporti, valutati su un piano statistico, per arrivare successivamente ai significati [ibidem]. Le prime proposte metodologiche articolate in questo ambito sono da ricondursi alla scuola francese de l'analyse des données [Amaturo 1989], che negli anni '70 proponeva tecniche statistiche di analisi dei dati di tipo induttivo ed esplorativo, in particolare l'analisi delle corrispondenze, per applicarle a dati di tipo testuale. La statisti-
108 CAPITOLO 6
ca testuale comincia ad avere maggiore diffusione negli anni '80 grazie alla disponibilità del software SPAD («Système portable pour l'analyse des données») che ha avuto, e continua ad avere, un utilizzo a livello internazionale, nonostante fino a poco tempo fa avesse un'interfaccia solo nella lingua francese. In quello che è attualmente il libro più citato in questo ambito, Exploring textual data, Lebart e colleghi fanno notare che «secondo gli statistici, i testi dovrebbero essere analizzati attraverso l'uso di variabili discrete, qualitative [...] piuttosto che con variabili che abbiano una natura continua, quantitativa» [Lebart, Salem e Berry 1998, 10, corsivo aggiunto]. Gli autori sottolineano che, nella maggior parte delle applicazioni statistiche, vengono tipicamente percorse quattro fasi secondo la sequenza: identificazione del problema – definizione dell'unità di analisi – analisi dei dati – interpretazione dei risultati. Queste fasi, tipiche di ogni tecnica di analisi, assumono però un significato specifico in funzione del contesto e della tipologia dei dati a cui sono applicate. Rispetto all'analisi dei dati testuali, in cui l'ottica è eminentemente esplorativa, eseguire la fase di analisi significa riorganizzare i dati allo scopo di scoprire le strutture in essi presenti, e la fase d'interpretazione include una valutazione della validità e della significatività delle strutture osservate [ibidem]. Nell'analisi statistica di un testo sono quindi distinguibili diversi e più numerosi passaggi, normalmente organizzati in sequenza, che vanno dall'individuazione dell'unità di analisi alla possibilità di analisi multivariate degli elementi testuali (fig. 6.1).
LA STATISTICA TESTUALE 109
ANALISI DOMANDE DI RICERCA
SCELTA UNITA DI ANALISI
A = 68 = 20
ANALISI PAROLE
ZFA ZFA = 21 DBA DBA DBA = 18
ANALISI SEGMENTI RIPETUTI
ANALISI CONCORDANZE
1. L'ANALISI DELLE DOMANDE DI RICERCA IDENTIFICAZIONE CONCETTI
Come in altre metodologie di analisi dei dati qualitativi, anche nella statistica testuale l'analisi delle domande di ricerca riveste un ruolo fondamentale. In questa fase si chiarisce, ad esempio, se lo scopo è quello d'identificare semplicemente la frequenza con cui si propone una determinata parola oppure sequenze di parole, cercando da questo di inferire possibili diversi significati fra loro indipendenti, oppure se si è interessati a ricostruire il senso di un testo su un piano più generale attraverso analisi multivariate.
ANALISI DELLE CORRISPONDENZE
fig. 6.1. Le fasi della statistica testuale. Nota: Inizialmente viene scelta l'unità di analisi che può essere costituita da parole singole o da segmenti ripetuti. Successivamente si può cercare d'identificare dei concetti sulla base dell'analisi delle concordanze (i diversi animali sono elementi dotati di significato, mentre gli atri simboli rappresentano elementi formali di cui non è stato possibile ricostruire il significato attraverso l'analisi dei contesti). La strada dell'analisi delle corrispondenze cerca invece di rintracciare dei concetti su un piano più generale (il pesce spada e il pesce rappresentano dei significati individuati attraverso la valutazione della prossimità tra elementi formali - i punti nella figura - su uno spazio bidimensionale).
LA STATISTICA TESTUALE 111
1 1 0 CAPITOLO 6
L'unità di analisi. Partendo da questa premessa il punto di partenza di un'analisi statistica dei testi è la suddivisione del testo in un'unità di analisi, vale a dire in elementi che non sono ulteriormente scomposti. Tale unità è, nel caso più semplice, costituita dalla forma grafica o, utilizzando un linguaggio meno tecnico, dalla parola. Come dice Amleto: Polonio (Forte): Monsignore, posso sapere che state leggendo? Amleto: Parole, parole, parole (Shakespeare, Amleto, atto II, scena I) Per forma grafica o parola s'intende qui una qualunque sequenza di caratteri alfabetici o numerici separati da uno spazio o da un altro carattere distintivo. Possono essere parole madre, gatto, 12, trenta, 00100. Quando una parola compare nel testo che si sta analizzando, si dice che si trova un'occorrenza della parola: se madre compare nel testo 43 volte, si dice che «La parola madre ha 43 occorrenze». Chiameremo la quantità di occorrenze di una parola frequenza e, nell'esempio, la parola madre ha frequenza 43. Il numero totale delle occorrenze di un testo corrisponde alla lunghezza del testo stesso [Lebart, Salem e Berry 1998]. I testi sono spesso ricchi di formattazioni e può essere utile normalizzarli, vale a dire uniformare le parole che hanno formati diversi fra loro, come ad esempio il maiuscolo dal minuscolo. Ad esempio se in un testo troviamo Madre, madre, MADRE, normalizzandolo al carattere minuscolo le tre parole vengono considerate tutte occorrenze della parola madre. La maggior parte dei software di analisi statistica dei testi consente la normalizzazione di un testo, o su richiesta dell'utente o in modo completamente automatico. Un'altra possibile unità di analisi, utile per individuare degli elementi meno ambigui delle singole parole, è quella costituita dai segmenti ripetuti [Salem 1987], sequenze di parole che si ripetono nel testo. Poiché il significato di una parola è anche dato dal modo in cui essa è legata agli elementi che la precedono e la seguono, considerare la frequenza dei diversi tipi di segmenti presenti in un testo è un modo per aggiungere chiarezza ai risultati ottenuti.
2. L'ANALISI DELLE FREQUENZE
Dalla lettura del totale delle forme grafiche si ottiene il vocabolario del testo. Il vocabolario è quindi costituito dall'insieme delle parole diverse di un testo [Bolasco 1999] e viene solitamente rappresentato come una lista in cui ogni elemento ha riportata accanto la sua occorrenza. La conta delle frequenze con cui, in un testo, si presenta ciascuna parola o segmento ripetuto è la prima, e più semplice, statistica testuale che può essere riportata. Essa permette un primo, molto generale, ragionamento rispetto al testo, considerando le diverse frequenze delle parole e/o dei segmenti ripetuti. Rispetto al criterio della frequenza delle parole, è possibile distinguere tra fasce [ibidem]. Partendo dal basso, ossia dalle parole con frequenza pari a 1, si parla di frequenza bassa fino a quando c'è il primo salto nel numero consecutivo di frequenze crescenti; dopo si parla di fascia media fino all'ultima parità nelle frequenze, dove comincia la fascia alta. Nel quadro 6.1 viene riportata l'analisi delle frequenze delle parole e dei segmenti ripetuti rilevati nella stessa ricerca sulla motivazione allo studio a scuola [Alivernini et al. 2007] citata nel precedente capitolo. Su questi dati viene esplicitato un ragionamento rispetto alle classi di frequenza dei diversi elementi.
QUADRO 6.1. Analisi delle frequenze Nella tabella 6.1 viene riportato il vocabolario dell'esempio con l'occorrenza delle diverse parole e la suddivisione in fasce di frequenza. Partendo dal basso, ossia dalle parole con frequenza pari a 1 si parla di frequenza bassa fino a quando c'è il primo salto nel numero consecutivo di frequenze crescenti, nell'esempio fra la parola «andare» e la parola «bene» dove si passa da una frequenza di 26 ad una di 28 senza avere una frequenza 27. Si parla poi di fascia alta subito dopo l'ultima parità nelle frequenze, rispetto all'esempio subito sopra le parole «essere» e «avere» che hanno entrambe frequenze pari a 91.
112 CAPITOLO 6
LA STATISTICA TESTUALE 113
TAB.6.1. Occorrenza delle parole Brado
Prnou — rotaia AWAIIICA
FASOA a
PNEOUIPIZA
1 2 3 4 5 6 7 8 9 10 11
voglio mi per cose è imparare piace non futuro lavoro nuove
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
essere avere importante devo grande fare miei voti genitori vorrei prendere perché lo so mia mio sono sapere imparo diventare studio studiare bei molte più serve trovare scuola posso buon bene
91 91 87 75 67 65 63 62 59 58 51 50 49 47 46 45 44 44 43 42 40 36 36 36 35 35 31 30 30 29 28
MEDIA
43 • 44
andare madre
26 26
BASSA
361 306 247 191 168 147 140 128 112 105 99
ALTA
La parola più frequente è «voglio», che è scarsamente informativa. La seconda parola è «mi»: la provenienza del testo ci permette tendenzialmente di escludere che si tratti della nota musicale, ma che si riferisca al pronome personale in prima persona singolare. Non abbiamo però molte altre informazioni. Al nono posto troviamo «futuro» che non indica di più di una banale utilità per «un domani» dello studio. Al decimo posto troviamo «lavoro» che indica una generica importanza dello studio per un lavoro. L'ultima delle parole di fascia alta «nuove» non aggiunge chiarezza al quadro che si è delineato. Se ci fermassimo a questa analisi potremmo, considerando solo le parole meno ambigue, soltanto concludere (e anche con qualche azzardo) che il primo motivo riguarda il desiderio (voglio) o il piacere legato allo studio, il secondo riguarda l'area del lavoro. TAB. 6.2. Occorrenza dei segmenti ripetuti SiGueten arirnin 1. 2.
mi piace voglio imparare
Fweerunai 140 63
FASOA a IliffatiOak
ALTA
3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28.
è importante voglio essere avere un da grande miei genitori i miei un lavoro un futuro voglio avere i miei genitori imparare cose bei voti imparare cose nuove non voglio molte cose voglio avere un non lo so un buon è un il mio nuove cose voglio prendere mia madre le cose in futuro per imparare
61 61 60 58 51 48 46 44 43 42 37 36 35 34 33 31 30 28 27 27 26 26 25 25 24 24
MEDIA
29. 30.
prendere bei voti voglio diventare
22 22
BASSA
LA STATISTICA TESTUALE 115
114 CAPITOLO 6
I segmenti ripetuti. Nella tabella 6.2 vengono riportati i segmenti ripetuti rispetto all'esempio, suddivisi in fasce di frequenza. I segmenti ripetuti della fascia di frequenza alta sono «mi piace», «cose nuove» e «voglio imparare» e offrono un quadro meno incerto dal punto di vista semantico rispetto a quello ottenuto per le parole singole. Si delineano come primi motivi legati allo studiare il piacere e l'imparare cose nuove. È interessante notare qui che il risultato concorda con quella che è la categoria più frequente individuata attraverso l'analisi induttiva del contenuto. Passando nella fascia media, troviamo «è importante» che sembra segnalare una generica importanza dello studio, ma non chiarisce per cosa. Anche qui si può notare che la seconda categoria dell'analisi del contenuto è etichettata «perché è importante». Proseguendo troviamo dei segmenti che hanno un'alta ambiguità come «voglio essere», «avere un», «da grande» fino ad arrivare a «miei genitori» che appare collegare abbastanza chiaramente il motivo a qualcosa collegato alla famiglia. Tralasciando l'oscuro «i miei», troviamo al nono posto «un lavoro» che segnala una generica utilità per il lavoro e al decimo posto l'ancor più generico «un futuro».
3. L'ANALISI DELLE CONCORDANZE È evidente che giungere a conclusioni su un piano semantico basandosi sulle frequenze delle parole e talvolta dei segmenti ripetuti, può essere un azzardo poiché il significato di una parola, o di un segmento, è anche legato alle parole che li precedono e li seguono, al «contesto locale» [Bolasco 1999]. L'analisi delle concordanze può essere utilizzata per chiarire i diversi significati di un elemento testuale esaminandone i suoi contesti locali. Si può prendere in considerazione un numero fisso di parole che precedono e seguono l'unità studiata, oppure si considera la frase o l'enunciato in cui l'elemento stesso è inserito. L'operazione d'interpretazione viene effettuata dal ricercatore che, esaminando i diversi ambiti riportati, individua delle categorie che corrispondono ai diversi significati della forma grafica esaminata. È importante dunque tenere presente che l'analisi delle concordanze è un'operazione che non è basata su un algoritmo: si tratta a tutti gli effetti di un'operazione di codifica umana, e il fatto che venga effettuata all'interno di un software di analisi statistica dei testi non garantisce, di per se stesso, alcuna attendibilità [Alivernini e Russo 2002].
Tale tipo di analisi è utile se la frequenza dell'unità considerata (e quindi la frequenza dei suoi contesti locali) non è tale da rendere ingestibile l'intero processo. Nel quadro 6.2 viene parzialmente riportata un'analisi delle concordanze relativa all'esempio considerato.
QUADRO 6.2. L'analisi delle concordanze Per le parole molto generiche e ambigue come voglio, che nel vocabolario del testo ha oltre 300 occorrenze, è un'operazione di difficile gestione. Per parole più specifiche e che hanno minori occorrenze, è un'operazione più semplice. Nella tabella 6.3 vengono riportati i primi 20 contesti in cui appare la parola lavoro. L'analisi delle concordanze chiarisce qui che si parla di lavoro sempre nel senso di occupazione retribuita, e più specificamente, rispetto agli ambiti di significato della risposta, sembrerebbe possibile individuare: a) un ambito di utilità dello studio per trovare genericamente lavoro, b) l'utilità dello studio per trovare un lavoro bello o uno buono (ad esempio contesti 2 e 4), e) l'utilità dello studio per trovare un lavoro pagato meglio (ad esempio contesti 1 e 3). TAB. 6.3. Un esempio dì analisi dei contesti linguistici dove appare una singola parola (lavoro) 1. troverò un 2. per avere un bel 3. così da grande potrò fare un 4. voglio cercare con le mie conoscenze un buon 5. voglio trovare un 6. da grande voglio un 7. per avere un 8. voglio trovare 9. voglio avere un 10. mi piacerebbe fare un buon 11. da grande voglio avere un 12. voglio avere un 13. da grande voglio un 14. voglio aver un buon 15. da grande vorrei fare un 16. se no non trovo 17. voglio poter avere un buon 18. vorrei avere un bel 19. voglio fare un 20. per avere in futuro un
lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro lavoro
importante dove guadagnerò tanti soldi dove posso guadagnare molto per tutta la vita ben pagato importante che porta soldi quando sarò adulto nel domani importante preciso a cui serve studiare facendo felici i miei genitori in futuro di maggior livello futuro che mi piaccia pagato bene
116 CAPITOLO 6
L'analisi delle frequenze delle parole e dei segmenti ripetuti è la prima e più semplice possibilità di analisi statistica dei testi. Il fine, nell'ambito da noi considerato, consiste nell'identificare nel testo concetti indipendenti fra loro su una base esclusivamente formale/statistica. Da questo punto di vista si tratta di un approccio che, sulla base di un metodo diverso, ha però lo stesso obiettivo della fase esplorativa dell'analisi del contenuto bottom-up: scoprire possibili categorie di significato diverse fra loro. Sebbene nell'analisi statistica venga fornita la frequenza degli elementi formali, questo tipo di informazione può essere solo considerata orientativa rispetto alla stima della presenza di concetti diversi. Infatti, essi vengono individuati e disambiguati attraverso l'analisi delle concordanze che, come abbiamo visto, è un'operazione basata sull'interpretazione del ricercatore, cosa che rende complicata e poco precisa la valutazione della rispettiva presenza di significati diversi di una stessa unità formale. Qualora si desideri arrivare a una stima più precisa e attendibile, è possibile combinare l'approccio di statistica testuale con quello dell'analisi del contenuto: questo tema verrà affrontato nel capitolo 8 relativo ai metodi di analisi misti. Un diverso utilizzo della statistica testuale è quello che mira ad identificare non dei singoli concetti, ma delle strutture più generali di senso presenti nei dati attraverso analisi multidimensionali. Sono applicabili diversi tipi di tecniche, e l'analisi delle corrispondenze rappresenta fra di esse quella che è stata più utilizzata. Nell'analisi delle corrispondenze con un approccio formale, l'unità di analisi può essere la forma grafica, il segmento ripetuto, o entrambi. Nell'illustrazione esemplificativa fornita dalla tabella 6.3 ci limiteremo al caso più semplice in cui il punto di partenza è la singola parola.
4. L'ANALISI DELLE CORRISPONDENZE DI TABELLE LESSICALI Le tabelle lessicali. L'analisi delle corrispondenze è una tecnica per descrivere sinteticamente le tabelle di contingenza [Lebart, Salem e Berry 1998] con cui si rappresentano le relazioni tra due o più variabili. Nelle tabelle di contingenza lessicali le parole sono solitamente collocate nelle righe, mentre nelle colonne sono presenti le diverse categorie di una variabile oggetto d'interesse rispetto ai testi esaminati, e nelle celle vengono riportate le frequenze congiunte dei diversi elementi incrociati. Nel caso in cui non ci fosse alcuna relazione fra le parole e la variabile studiata, ci si attende che le frequenze congiunte siano semplicemente proporzionali alla numerosità
LA STATISTICA TESTUALE 117
degli elementi analizzati quando sono presi singolarmente. Per leggere una tabella di contingenza lessicale alla ricerca di eventuali relazioni, poiché le frequenze possono variare molto, è utile calcolare le percentuali rispetto al totale di riga e a quello di colonna, a seconda di quale sia l'oggetto d'interesse. Paragonando due profili di riga è possibile capire come le parole rappresentate siano associate con le categorie in colonna. Mettendo invece a confronto due profili di colonna si hanno informazioni su quanto siano simili le categorie in colonna rispetto al vocabolario considerato. Nel quadro 6.3 viene riportata la tabella di contingenza lessicale, in cui le diverse parole dell'esempio utilizzato sono incrociate con la variabile che indica se la risposta è stata data da un alunno della scuola primaria, della scuola secondaria di primo grado o della scuola secondaria di secondo grado (per questa sezione viene considerata una base di dati più ampia di quella considerata precedentemente quindi le frequenze non corrispondono).
QUADRO 6.3. Tabelle di contingenza lessteali: profili di riga e di colonna Nella tabella 6.4 viene riportata la tabella di contingenza fra le parole e la tipologia scolastica. Le frequenze variano molto e sono quindi di difficile lettura. Per rendere più agevole l'interpretazione è possibile calcolare i profili di riga e di colonna. Ad esempio per calcolare il profilo di riga di voglio è sufficiente dividere rispettivamente 136, 129 e 71 per 336 (il totale di riga). Per calcolare il profilo di riga delle superiori si dividono tutti i numeri riportati in colonna per 1.151 (totale di colonna). Nella tabella 6.5 vengono descritti i profili di riga e di colonna derivati dai dati del medesimo esempio di ricerca Se esaminiamo il profilo di riga della parola cultura e diploma vediamo come esse siano presenti quasi esclusivamente nella scuola secondaria di secondo grado. Esaminando il profilo di colonna della scuola secondaria di secondo grado è possibile vedere come esso sembri avere un andamento opposto a quello della scuola primaria.
11 8
LA STATISTICA TESTUALE
CAPITOLO 6
TAB. 6.5. I «profili» delle occorrenze
TAB. 6.4. Tabella di contingenza fra le singole parole e la tipologia scolastica Famulas SAYMIDEI
Voglio Per Futuro
129 105
136 152 119
80 55
Tcw
71 25 8
336 282
75 64 35
171 156
207
Cose Imparare Importante
41 66
58 47
Lavoro
88
42
6
Piace
40 39
43 41
42
136 125
13
93
26
33
88
56
29 3
34 16
16
Vorrei
29
3 5
Voti Sono
13 25
26
10
49
3
46
Trovare
32
18 12
1
45
12 3
43 42
24
11
40 40
Devo Nuove Cultura Serve
34
Sapere
14
17
Miei Grande
21 5
18
148
59 53 50
Genitori
5 16
13 19
22 4
39
Vita
21
14
37
Prendere Servirà
10
19
2 5
14
4
10
2
34 27
0
o
26
8
26 24
Imparo
Migliore Diploma
16 15 26 3
34
Posso Conoscere
9
15 8
15
7
7 1
Utile Obbligatorio
19 8
4 13
o o
23 21
Diventare
Madre Dovere Obbligano
23
3
14
1
18
7 10
8 7
2
17 17
Promosso
1
13
o 2
Lavorare
10
4
1
15
1.151
974
481
2.606
Totale
Pomou Di counew
Paorai et arn
Ematrais
Mem
119
16
Lo spazio generato dall'ACC (analisi delle corrispondenze lessicali). Il numero delle dimensioni di una tabella lessicale può aumentare molto rapidamente, ad esempio la matrice riportata nella tabella 6.4 ha 36 parole e 3 caratteristiche, per un totale di 108 celle. In un'analisi statistica del testo è facile arrivare a matrici molto più grandi e l'analisi delle corrispondenze vie-
SIOMON
"MEDE
Conoscere Cose
65,2 24,0
30,4 32,2
Cultura
94,9 41,9
&Menu
SUPEIgo
MEDE
facermi
1,3 3,6
0,7 5,6
5,1
4,3 43,9 0,0
4,9
0,3
0,2 15,6 0,0
44,1
14,0
3,4
4,2
2,7
100,0
0,0
0,0
57,7 47,1
30,8 11,8
0,0 1,5
0,0
11,5 41,2
2,3 0,3 0,6
0,8
Futuro
57,5 41,0 12,5
3,9 10,3
10,3 1,4
8,2
Genitori
38,6 48,7
0,4 1,7
2,0
0,8
27,5
0,4 3,0
2,5
2,3
21,8
60,0 37,2
13,3
Imparo
12,5
32,5
Importante
44,6
31,8
Lavorare
66,7 64,7
26,7
Devo Diploma Diventare Dovere
Grande Imparare
Lavoro Madre
16,7
30,9 77,8
1,7
55,0 23,6
0,4
6,0 1,3
5,7
4,8
4,6 7,3
6,7 4,4
0,9 7,6
0,4
0,2
5,6
0,3
4,3 1,4
0,2
41,0
1,2 0,6
Miei
50,0 55,6
42,9 37,0
7,1 7,4
1,8
Migliore
1,3
1,8 1,0
Nuove
29,5
33,0
37,5
2,3
3,0
Obbligano
58,8
41,2
0,0
38,1
61,9
0,0
0,9 0,7
0,7 1,3
0,0
Obbligatorio Per
53,9
37,2
8,9
13,2
10,8
5,2
Piace
32,0
34,4
33,6
3,5
4,4
8,7
Posso
37,5 29,4
33,3 55,9
29,2 14,7
0,8 0,9
0,8 2,0
1,5 1,0
Prendere
0,4 6,9 0,0
6,3
81,3
12,5
0,4
32,6
39,5
27,9
0,1 1,2
1,3
Sapere
1,7
2,5
Serve Servirà
64,2 47,1
30,2
5,7
3,0
0,6
11,8
1,4
Sono Trovare
54,3
41,2 39,1
1,6 1,4
2,2
1,8
71,1
26,7
6,5 2,2
1,2
0,6 0,2
0,4
0,0
1,4 13,2
14,8
3,0 2,7
2,1
Promosso
Utile
82,6
17,4
0,0
2,8 1,7
Vita Voglio
56,8 40,5
37,8
5,4
1,8
38,4
21,1
11,8
Vorrei
32,0
1,4
26,5
58,0 53,1
10,0
Voti
20,4
1,1
0,8
0,4 1,0
ne utilizzata per semplificare e riassumere l'informazione contenuta nei dati. Si pensi alle parole dell'esempio come 36 punti in uno spazio definito dalle 3 dimensioni corrispondenti alle diverse tipologie di scuola e alle frequenze delle parole riportate in ogni riga come ai valori delle coordinate in questo spazio tridimensionale. Le distanze (euclidee) fra le 36 parole riassumerebbero tutte le informazioni sulla similarità fra le parole rispetto alle tipologie
120 CAPITOLO 6
di scuola contenuta nella tabella lessicale. È possibile pensare a uno spazio più semplice, con un numero ridotto di dimensioni, che mantenga la maggior parte delle informazioni sulle distanze fra le parole. Immaginiamo una linea che passi il più vicino possibile a tutti i punti nello spazio tridimensionale e di proiettarvi sopra le parole: avremo perso diverse informazioni, ma adesso la semplice distanza di due punti sulla retta individuata esprime il grado di diversità di due parole rispetto alla tipologia di scuola. Naturalmente, se invece di un'unica dimensione ne considerassimo due, vale a dire un piano, i dati che potremmo conservare fra le distanze tra le parole sarebbero molti di più e avremmo comunque maggiore facilità interpretativa rispetto alle tre dimensioni di partenza. L'analisi delle corrispondenze rappresenta i dati contenuti in una tabella lessicale attraverso l'individuazione di uno spazio con numero ridotto di dimensioni che ne riproduca la maggior parte dell'informazione originarla. La riduzione del numero di dimensioni avviene in maniera sequenziale individuando, di volta in volta, uno spazio unidimensionale A (detto «asse» o «fattore») che renda massima la somma dei quadrati delle distanze tra le proiezioni su di esso di tutte le coppie di punti considerati. Ogni dimensione successiva alla prima viene estratta in modo che sia indipendente dalle altre e vengono individuati una serie di spazi organizzati in modo gerarchico, in cui il miglior spazio unidimensionale è incluso nel miglior spazio bidimensionale, che è contenuto nel miglior spazio tridimensionale e così via. Miglior sottospazio è qui da intendersi come il sottospazio che passa il più vicino possibile alla nuvola dei punti nello spazio originario, quello che approssima meglio la situazione di partenza. Più è basso il numero di dimensioni estratte, maggiore è la facilità interpretativa, ma anche più grande la perdita d'informazione originaria. La percentuale di inerzia spiegata, fornita dai software di analisi, esprime appunto la quota delle informazioni sulle distanze originarie spiegate dallo spazio con il numero ridotto di dimensioni scelto. Fra tutti i sottospazi possibili nell'analisi delle corrispondenze, il più utilizzato per comodità di lettura e facilità interpretativa [Lebart, Salem e Berry 1998] è comunque quello a due dimensioni. L'interpretazione visiva dello spazio generato. Una volta estratte le dimensioni, l'interpretazione del quadro emergente può avvenire sulla base
LA STATISTICA TESTUALE 121
di un'ispezione visiva degli elementi proiettati nel nuovo spazio generato, tenendo presente che la loro prossimità corrisponde alla loro similarità. Se due parole sono vicine significa che i loro profili di riga sono simili e, parallelamente, se sono vicine due caratteristiche, sappiamo che i loro profili di colonna sono paragonabili. Inoltre quanto più un elemento è distante dall'origine e vicino ad una dimensione, tanto è più probabile che quell'elemento sia importante per l'interpretazione della dimensione stessa'. Per avere un quadro d'insieme è possibile rappresentare simultaneamente le righe e le colonne. Questo consente di fare considerazioni sulla distanza tra gli elementi di riga, oppure fra quelli di colonna e dí valutare la posizione di un punto riga rispetto all'insieme dei punti colonna e la posizione di un punto colonna rispetto alla globalità dei punti riga. In questa rappresentazione simultanea non è però corretto confrontare direttamente un elemento di riga con uno di colonna in quanto le coordinate a cui fanno riferimento derivano da spazi diversi [Lebart e Salem 1994]. Aiuti nell'interpretazione della ACI.. La maggior parte dei software per l'analisi delle corrispondenze, oltre alla rappresentazione grafica, fornisce elementi utili alla valutazione dei risultati ottenuti. Il principale indicatore della qualità della soluzione di un'analisi delle corrispondenze è costituito dalla percentuale di informazione originaria, detta varianza o inerzia spiegata, che si riesce a spiegare con il numero di dimensioni individuato. Vale il criterio che più è alta tale percentuale, migliore e più fedele ai dati è la rappresentazione ottenuta. Nell'interpretazione di una soluzione è opportuno inoltre esaminare alcuni coefficienti relativi agli elementi di riga e di colonna analizzati: la frequenza relativa, le coordinate fattoriali, i contributi assoluti e i coseni quadrati. • Frequenza relativa: corrisponde alla frequenza dell'elemento divisa per la frequenza totale degli elementi (di riga o di colonna a seconda del tipo di elemento) e moltiplicata per 100.
i In quanto è probabile che abbia contribuito molto alla costruzione del fattore e sia ben rappresentato su di esso; questo comunque non è sempre vero, si vedano le considerazioni riportate sopra rispetto alla coordinata di un elemento.
122 CAPITOLO 6
LA STATISTICA TESTUALE 123
• Coordinate fattoriali: definiscono la posizione di un elemento nello spazio individuato dall'analisi delle corrispondenze. Possono essere di segno positivo o di segno negativo, a seconda del versante della dimensione su cui sono collocati. Generalmente un elemento che ha un'alta coordinata su una dimensione (indipendentemente dal suo segno) ha contribuito molto alla sua costruzione e quindi sarà importante per l'interpretazione2. • Contributi assoluti: rappresentano la percentuale dell'informazione della dimensione spiegata dalla parola o categoria considerata. • Coseno quadrato: proporzione di informazione di una parola o categoria spiegata da una certa dimensione. Può variare da O, nel caso in cui le dimensioni estratte non spieghino alcuna parte della variabilità, a 1 quando la variabilità è completamente spiegata. In altri termini più questo valore si avvicina a 1, più la posizione del punto proiettato nello spazio considerato si avvicina a quella «reale». Nel quadro 6.4 vengono esemplificati i passaggi di un'analisi delle corrispondenze svolta sui dati dell'esempio descritto.
QUADRO 6.4. Lo spazio generato dall'analisi delle corrispondenze Nella figura 6.2, rappresentate come linee tratteggiate, sono riportate le due dimensioni individuate a partire dalla tabella lessicale riportata nel quadro precedente. Per orientarsi tenere presente che, se due parole sono vicine, significa che rispetto alla variabile considerata sono simili e, parallelamente, se sono vicine due tipologie di scuola sappiamo che esse sono paragonabili rispetto alle risposte analizzate. Inoltre, quanto più un elemento è distante dall'origine e vicino ad una dimensione, tanto è più probabile che quell'elemento sia importante per l'interpretazione della dimensione stessa'. 2 Bisogna comunque tenere presente la misura della distanza fra righe e fra colonne utilizzata nell'analisi delle corrispondenze rivaluta le modalità meno frequenti [cfr. Greenacre 1984, 28-351, per cui è anche possibile che una coordinata elevata dipenda dalla piccola massa della modalità in questione [cfr. anche Bolasco 1999, 1271. In quanto è probabile che abbia contribuito molto alla costruzione del fattore e sia ben
Il programma SPAD utilizzato per questa analisi, oltre al risultato testuale, fornisce la possibilità di indagare visivamente alcuni coefficienti rendendo proporzionale la grandezza dei punti raffigurati all'ampiezza del coefficiente stesso; nella figura 6.2 ne abbiamo un esempio per quello che riguarda i contributi assoluti. In questo modo è possibile visualizzare immediatamente, oltre che la posizione dei diversi punti, anche l'importanza che le diverse parole e categorie hanno nella generazione dello spazio individuato. Dall'esame della figura 6.2 è possibile notare come scuola elementare e scuola superiore abbiano un forte peso nel quadro ottenuto (grandezza dei triangoli) e manifestino profili molto diversi (sono collocate agli opposti della prima dimensione). Rivolgendo la nostra attenzione alle parole, possiamo notare come le risposte, rispetto all'ordine di scuola, si contrappongono su una dimensione che vede su un polo l'imparare cose nuove con un piacere e dalla parte opposta lo studio finalizzato al miglioramento della propria cultura, all'ottenimento di un titolo, e a un lavoro. Considerando l'indicatore di qualità della rappresentazione ottenuta, la percentuale d'informazione originaria spiegata (tab. 6.6), si può vedere che la riduzione della tabella di contingenze lessicali ad uno spazio di due sole dimensioni, perde soltanto il 4,9% dell'informazione in essa contenuta, risultato che può essere considerato molto soddisfacente. Nelle tabelle 6.7 e 6.8 sono riportati i coefficienti di supporto all'interpretazione dei risultati.
TAB.6.6. L'inerzia spiegata dalle dimensioni estratte
~aia ama" 75,1 95,1
rappresentata su di esso; questo comunque non è sempre vero, si vedano le considerazioni riportate sopra rispetto alla coordinata di un elemento.
Fattore 2
diploma. cultura •
0,4 -
utile
imparo
cose
Elementari •
imparare •
nuove •
lavorare
posso
piace.
0-
conoscere
Superiori4.,;,„
serve • • lavoro
importar
per • .vita
futuro
migliore • Medie "
fo vere
voti -0,4 obbligatorio madre •
promosso
-0,8 -
-0,4
-0,8
0,8
0,4
fig.6.2. Rappresentazione degli elementi di riga e di colonna sulle dimensioni c
dall'analisi delle corrispondenze.
Nota: La grandezza di ogni categoria è proporzionale al suo contributo nella
one delle dimensioni.
TAB. 6.7. Coordinate fattoriali, contributi assoluti e coseni quadrati p Pmoi.E (ma)
~mai rausAm
Conoscere Cose Cultura Devo Diploma Diventare Dovere Futuro Genitori Grande Imparare Imparo Importante Lavorare Lavoro Madre
Miei Migliore Nuove Obbligano Obbligatorio Per Piace Posso Prendere Promosso Sapere Serve Servirà Sono Trovare Utile Vita Voglio Vorrei Voti
0,88 6,56 2,26 3,57 1,00 1,00 0,65 7,94 1,50 1,53 5,99 1,53 5,68 0,58 5,22 0,69 1,61 1,04 3,38 0,65 0,81 10,82 4,80 0,92 1,30 0,61 1,65 2,03 1,30 1,77 1,73 0,88 1,42 12,89 1,92 1,88
0,47 -0,63 0,88 0,04 0,94 -0,57 0,07 0,38 0,09 -0,51 -0,61 -0,94 -0,08 0,45 0,46 -0,12 0,25 0,31 -0,47 0,46 0,22 0,26 -0,38 -0,25 -0,11 -0,35 -0,28 0,43 0,14 0,31 0,57 0,74 0,35 -0,08 -0,01 -0,24
1
COMMENTI
DEMM3
0,C 0,2 0,5 -0,1 0,E -0,3 -0,2 -0,C -0,2 -0,3 0,1 0,2 0,1 0,1 0,C -0,E -0,1 -0,C 0,1 -0,1 -0,5 -0,( 0,1 0,1 -0,2 -0,1 0,( 0,( -0,1 -0,( 0,1 0,2 -0,( -0,( -0,2 -0,2
.4OMMINIOMENo~-7
una parola sulle dimensioni estratte
COOODOMOT DIMEM*Ote
Fattore 1
"
Ofmensiom I --..
acrisior4E 2
1,12 15,41 10,28 0,04 5,16 1,92 0,02 6,85 0,07 2,34 13,23 7,97 0,19 0,67 6,45 0,06 0,57 0,57 4,35 0,81 0,23 4,41 4,04 0,33 0,10 0,44 0,78 2,24 0,15 0,97 3,27 2,81 1,03 0,54 0,00 0,61
0,08 7,07 13,62 1,74 8,42 2,33 0,67 1,56 2,13 5,01 1,67 2,44 2,16 0,27 0,35 10,42 0,89 0,05 2,29 0,37 5,44 0,45 1,77 0,33 3,90 10,00 0,00 0,25 0,31 0,32 0,59 1,63 0,16 0,01 7,87 3,43
4.
Cdsait QUADRATI Dimwsiose pi~sow i 0,98 0,89 0,74 0,08 0,70 0,76 0,10 0,94 0,12 0,64 0,97 0,92 0,25 0,90 0,99 0,02 0,71 0,98 0,88 0,89 0,13 0,97 0,90 0,79 0,09 0,14 1,00 0,97 0,64 0,92 0,95 0,87 0,96 0,99 0,00 0,40
0,02 0,11 0,26 0,92 0,30 0,24 0,90 0,06 0,88 0,36 0,03 0,08 0,75 0,10 0,01 0,98 0,29 0,02 0,12 0,11 0,87 0,03 0,10 0,21 0,91 0,86 0,00 0,03 0,36 0,08 0,05 0,13 0,04 0,01 1,00 0,60
2
LA STATISTICA TESTUALE
127
RIEPILOGO
Nel capitolo sono state affrontate le tematiche relative all'analisi statistica dei testi. Questi ultimi sono intesi come insiemi di elementi distinti che hanno una loro frequenza e che possono essere valutati allo scopo di scoprire le strutture in essi presenti, fornendo anche una valutazione della validità e della significatività di tali strutture. A questo scopo sono state seguite alcune fasi che, sinteticamente, rimandano all'identificazione del problema, alla definizione dell'unità di analisi, all'effettiva analisi dei dati e, infine, all'interpretazione dei risultati. Queste fasi, che possono assumere modalità diverse in funzione della tipologia dei dati e delle domande di ricerca a cui si riferiscono, sono state esemplificate descrivendo i passi di una specifica ricerca.
CAPITOLO
lì «text mining»
Il text mining è una metodologia che si è sviluppata molto recentemente, se si considera che la definizione stessa può essere datata 1995 [Feldman e Dagan 1995], nell'ambito della prima conferenza internazionale sulla knowledge discovery e sul data mining tenutasi a Montreal. Nel loro manuale dedicato all'argomento Feldman e Sanger ne danno un definizione molto generale: «il text mining consente di estrarre informazioni utili dai dati (i testi) attraverso l'identificazione e l'esplorazione di pattern interessanti» [Feldman e Sanger 2007, 1]. Come nel caso della statistica testuale anche il text mining deve essere considerato come una famiglia di metodologie piuttosto ampia e dalle modalità talvolta eterogenee. In questo capitolo limiteremo la presentazione ad un approccio finalizzato all'estrazione di concetti in un testo attraverso la combinazione di tecniche di linguistica computazionale, di information retrieval e di data mining. Questa scelta è legata al fatto che tale approccio è probabilmente quello caratterizzato dalla maggiore usabilità nell'ambito delle tecniche di ricerca qualitativa. La linguistica computazionale è una branca della linguistica che utilizza sistemi informatici per analizzare e costruire modelli del linguaggio naturale [Mitkov 2003]. L' information retrieval raggruppa le tecniche che consentono di trovare documenti sulla base di parole chiave, metadati o altri tipi d'informazioni sul loro contenuto. Il data mining consente di scoprire attraverso analisi esplorative informazioni presenti all'interno di data base di tipo numerico [Han e Kamber 2006]. Negli ultimi anni il text mining ha avuto un notevole sviluppo, grazie ai progressi delle tecniche di elaborazio-
130 CAPITOLO 7
ne del linguaggio naturale (NLP), e agli studi sulle tecniche automatiche di gestione del linguaggio sviluppate sia in ambito accademico sia all'interno delle aziende che producono software e gestiscono motori di ricerca. Nel text mining i testi vengono valutati sulla base di algoritmi che possono considerare sia il significato linguistico, sia le relazioni di cooccorrenza e di prossimità fra le parole. Inoltre l'analisi può avvenire considerando il senso delle parole all'interno del loro contesto. Quest'ultima applicazione ricalca una sorta di analisi delle concordanze (cfr. cap. 6) automatizzata, che guida l'individuazione di eventuali sinonimi di una parola o di significanti la cui prossimità è definita in funzione del contesto linguistico. Si consideri il seguente esempio: se nell'analisi venissero incontrati i termini riproduzione di documenti, in un approccio di text mining il software dovrebbe estendere il termine riproduzione anche ai termini copia e duplicazione. Al contrario verrebbe escluso il termine nascita in quanto esso, pur avendo un significato prossimo alla parola riproduzione, perde tale prossimità in quello specifico contesto linguistico. Per poter svolgere questa operazione, un programma di text mining usa spesso un sistema di etichettatura grammaticale del testo detto part-of-speech (Pos) tagging, che ha l'obiettivo di determinare le diverse parti del discorso in un testo. All'interno del POS e sulla base del suo significato, le singole parole vengono codificate, a seconda dei casi, come nomi, aggettivi, verbi, preposizioni ecc. ed eventualmente vengono fornite informazioni anche rispetto al numero, al genere e ad altre caratteristiche grammaticali dei diversi termini. I moderni taggers si basano sulle regole grammaticali che specificano, per una determinata lingua, i modi in cuí vengono formati gli elementi di base di una frase e su modelli probabilistici della frequenza di determinate parti del discorso e delle loro sequenze [Chiari 2007]. Un'idea centrale nel text mining è quella di estrarre concetti, inclusi quelli formati da più parole, in una maniera che cerca di essere simile a quella utilizzata dall'essere umano, riconoscendo i termini che hanno un significato simile entro un contesto linguistico. La struttura delle parole e delle frasi può essere poi analizzata a diversi livelli (tab. 7.1). Queste diverse operazioni non rappresentano una sequenza fissa di fasi dell'analisi. Esse rappresentano invece diverse operazioni, tutte necessarie per giungere ad un unico output dell'analisi, che si concentra sul livello semantico e fornisce un elenco di concetti diversi rintracciabili nel testo.
IL «TEXT MINING» 131
TAB.7.1. I possibili livelli del «text mining» tivato
ESAMINA
Morfologico
Grammaticale
Pragmatico Statistico
Semantico
Otarrnvo
Sequenze di caratteri interrotte da Scoprire le diverse forme grafiche conspazio tenute in un testo e le loro frequenze di occorrenza Funzione grammaticale delle diverse Individuare su base grammaticale le parole diverse parti del discorso provviste di un proprio significato autonomo Il contesto delle parole
Disambiguare i diversi termini e identificare delle analogie tra loro
Cooccorrenza dei termini
Valutare la forza delle relazioni fra i diversi termini o categorie di termini
Significato delle parole e delle frasi
Scoprire i diversi concetti contenuti in un testo
1. IL PROCESSO DI «TEXT MINING» I principali passi di un'analisi basata sul text mining (fig. 7.1) consistono nell'analisi delle domande di ricerca, nella definizione dell'unità di analisi, in un processo iterativo di estrazione e valutazione dei concetti estratti ed infine l'eventuale applicazione di tecniche di data mining.
2. L'ANALISI DELLE DOMANDE DI RICERCA Nel text mining questo passaggio è necessario per individuare gli obiettivi dell'analisi restringendo e orientando le successive scelte. In questa fase si definisce in termini molto generali il numero dei concetti a cui si desidera arrivare e il loro grado di astrattezza. Inoltre si chiarisce se l'analisi si conclude con l'estrazione dei concetti o prevede l'eventuale studio delle relazioni fra di loro e con variabili esterne. Scelta dell'unità di analisi e fase iniziale. Diversi programmi offrono l'opportunità di scegliere quale sarà l'unità di analisi, vale a dire il contesto delle diverse parole che verrà valutato ai fini dell'individuazione dei concetti: la frase, il paragrafo, l'intero documento o sezioni di testo definite dall'utente.
IL «TEXT MINING» 133
132 CAPITOLO 7
All'inizio di un processo di text mining debbono essere inoltre fatte scelte sull'opportunità di normalizzare il testo in modo simile a quanto avviene nell'analisi statistica del testo (cfr. cap. 6). Spesso sono anche presenti algoritmi che possono gestire la presenza di errori nella scrittura delle diverse parole permettendo di considerarle uguali quando differiscono solo per una o più lettere.
2. Definizione unità di contesto
7.Estrazione esplorativa concetti Prob emi di equivalenza
mf Ok
4. Valutazione concetti estratti
5. Estrazione definitiva concetti
1(1
111‘ ?
6. Data mining sui concetti estratti
fig. 7.1. I principali passi di un processo di «text mining». Nota: Il processo comincia con l'analisi della domanda di ricerca, la definizione dell'unità di contesto ed effettua un prima estrazione dei concetti nel testo analizzato (i diversi animali rappresentano diversi concetti/significati). Successivamente il ricercatore valuta le classi di equivalenza effettuate dal software (il pinguino e la giraffa rappresentano due concetti resi equivalenti dal software cosa che, in modo evidente, rappresenta un errore). Al passaggio successivo vengono estratti i concetti definitivi (i diversi animali che sono risultati più frequenti nei testi). Infine vengono indagati significati latenti nel testo sulla base delle complesse relazioni fra i concetti estratti (i concetti giraffa e ippopotamo, se collegati, hanno in comune il fatto che si tratta di animali presenti in Africa, e insieme rappresentano quindi il concetto unificante delle categorie).
3. L'ESTRAZIONE DEI CONCETTI Dopo la fase preparatoria il processo di text mining assume una forma iterativa che prevede una prima estrazione dei concetti, la loro valutazione allo scopo d'individuare classi di equivalenza più ampie che contengano elementi omogenei fra loro da un punto di vista semantico e infine una estrazione definitiva dei concetti stessi. Nella fase esplorativa dell'estrazione si comincia con l'identificazione di possibili concetti sia che siano formati da una parola, sia da più elementi connessi fra loro. Questa è un'operazione molto più selettiva ed economica di quella effettuata nell'ambito di un'analisi statistica del testo, in quanto si mira direttamente all'individuazione di parti dotate di senso compiuto. Per raggiungere questo scopo nell'estrazione di singole parole-concetto le entità linguisticamente ambigue come articoli, preposizioni, avverbi, congiunzioni, ma talvolta anche aggettivi e verbi vengono omessi in favore dei nomi. I sostantivi infatti sono le parti variabili del discorso che indicano entità concrete o astratte e che quindi sono provvisti di un proprio significato indipendentemente dagli altri elementi, di una «sostanza» autonoma (etimologicamente sostantivo deriva dal latino substantia). Le entità linguisticamente ambigue vengono però considerati nell'individuazione di significati formati da più parole, in quanto possono essere molto utili nell'individuare concetti diversi fra loro. Per cui ad esempio «studente», «bravo studente» e «cattivo studente» possono essere considerati tre concetti diversi, che individuano diversi aspetti della realtà di cui si parla. Durante questa fase vengono anche stabilite le classi di equivalenze fra concetti, per cui vengono normalmente rese equivalenti parole che differiscono esclusivamente rispetto al genere e al numero e che hanno lo stesso significato in quel contesto.
134 CAPITOLO 7
4. LA VALUTAZIONE DEI CONCETTI ESTRATTI Sebbene l'implementazione di conoscenze linguistiche in un programma migliori le sue capacità di riconoscere significati, è comunque possibile che vengano commessi degli errori e al termine dell'estrazione il compito del ricercatore dovrà essere quello di valutare le scelte fatte dal programma ed, eventualmente, di modificarle. Infatti la maggior parte dei software prevede la possibilità che l'utente possa specificare rapporti di equivalenza fra termini e consente di indicare i testi che devono essere estratti in ogni caso o, al contrario, omessi in ogni caso.
IL «TEXT MINING» 135
Nel quadro 7.1 seguente vengono riportati i concetti estratti nell'esempio della ricerca sulla motivazione allo studio a scuola [Alivernini et al. 2007] già trattato nei capitoli 5 e 6. I dati vengono analizzati all'interno di un approccio di text mining e viene fornita una discussione dei risultati ottenuti. Nel successivo quadro 7.2 verrà invece adottato un altro esempio per esaminare le differenze da un approccio statistico e illustrare tutto il processo di text mining dall'estrazione dei concetti fino all'individuazione di relazioni fra gli elementi individuati.
QUADRO 7.1.
Esempio di un'analisi di «text mining» e confronto con l'analisi statistica 5. IL «DATA MINING» Nel text mining spesso non ci si limita ad estrarre dei concetti, ma vengono anche valutate le relazioni fra gli elementi estratti attraverso tecniche di data mining. Tali analisi possono avere un forte grado di complessità ed esulano dagli obiettivi di questo libro. Ci limitiamo qui a segnalare la possibilità di analizzare e visualizzare le connessioni fra i significati individuati attraverso tecniche di network analysis. Tali metodologie infatti, che sono state sviluppate per studiare le connessioni fra elementi che hanno una natura relazionale [Chiesi 1999] possono essere utili a descrivere la struttura dei significati di un testo. Utilizzando questo approccio possiamo visualizzare le cooccorrenze fra i concetti attraverso reti grafiche in cui i concetti sono rappresentati come nodi e le relazioni come linee. La forza della relazione può essere espressa da un indice numerico o resa proporzionale allo spessore della linea stessa rendendo ancora più semplice l'interpretazione. Nella rappresentazione risultano particolarmente utili gli algoritmi che raggruppano insieme i legami più forti perché consentono d'isolare da un punto di vista visivo dei veri e propri gruppi di concetti, delle aree tematiche più generali, utilizzando una differenziazione su base spaziale. Utilizzando tali algoritmi è importante ricordare che verranno visualizzati i concetti più collegati, che non coincidono necessariamente con quelli più frequenti.
Nella tabella 7.2 vengono riportati i risultati dell'analisi dei dati della ricerca sulla motivazione allo studio a scuola [Alivernini et al. 2007] attraverso un programma di text mining (text mining for Clementine). Considerando gli obiettivi dell'analisi è stato scelto di estrarre soltanto concetti che avessero frequenza maggiore di 15. Vista la brevità dei testi, è stata individuata l'intera risposta come unità di contesto rispetto a cui valutare le parole. Esaminando la tabella 7.2 è possibile notare come ci sia una grossa differenza rispetto al numero di elementi estratti nell'analisi statistica: qui troviamo 4 possibili concetti con frequenza maggiore di 30, precedentemente (cfr. tab. 6.1) si dovevano invece considerare 38 diverse parole. Sono assenti gli elementi linguisticamente ambigui come congiunzioni, connettivi, interiezioni; gli aggettivi sono presenti solo per qualificare un sostantivo (ad esempio cose nuove) e le preposizioni quando servono a legare parole che formano un concetto (ad esempio TAB.7.2. Concetti estratti rispetto all'esempio utilizzato
Coreano
Fiewirou
Cose nuove Lavoro Genitori Bei voti Soldi Insegnanti Soddisfazione personale Obbligatorio
120 105 70 31 23 22 21 20
Eetrimmti bit <mano Cosa nuova, novità Lavori, occupazione Genitore, famiglia Buoni voti, buon voto Denaro Insegnante, docente, docenti, professore, professori Soddisfazioni personali Obbligo, obbligato, obbligata
136
CAPITOLO
7
IL «TEXT MINING»
titolo di studio). Sono state raggruppate parole che differiscono esclusivamente rispetto al numero (ad esempio lavoro / lavori) e che hanno lo stesso significato in quel contesto (lavoro/occupazione). In fase di valutazione andranno corretti possibili errori. Ad esempio fra cosa e casa c'è formalmente una differenza solo per una lettera (esattamente come fra cosa e cose) e le due parole potrebbero essere lette dal programma come equivalenti. Sta a chi svolge l'analisi dedicare la massima attenzione a questi possibili errori. Nell'esempio illustrato nel quadro precedente è possibile notare diverse somiglianze fra la statistica testuale e il text mining almeno nella fase di estrazione dei concetti. È probabilmente opportuno esplicitare anche le differenze: queste potranno essere rese più chiare dall'esempio riportato nel quadro 7.2.
QUADRO 7.2.
L'estrazione dei concetti nel «text mining» Un approccio puramente statistico risulta in generale avvantaggiato nell'analisi di risposte libere a domande aperte molto specifiche dove il significato è inferibile dal senso della domanda stessa. Nel caso di altre situazioni, frequenti nella ricerca qualitativa come l'analisi documentaria, il vantaggio va invece ad approcci di text mining che consentono di non perdersi in un mare d'informazioni altamente ambigue. Per illustrare questo punto viene riportato il confronto fra un'analisi statistica e una di text mining sugli stessi documenti. Nell'esempio essi sono rappresentati da circa 1.000 obiettivi che un campione di dirigenti scolastici si era prefisso di raggiungere nel proprio lavoro svolto nel corso di un anno scolastico (ciascun dirigente ha formulato un numero di obiettivi corrispondente a poche unità). Le analisi qui riportate fanno parte di altre condotte su materiali molto più ampi e descritti in Monitoraggio della sperimentazione del progetto Sivadis (Sistema di valutazione dei dirigenti scolastici) [Terrinoni, Alivernini e Russo 2006]. Nelle tabelle 7.3 e 7.4 vengono riportati gli esiti dell'approccio statistico nell'analisi degli obiettivi descritti. Dalle tabelle di frequenza delle forme grafiche e dei segmenti ripetuti riportati risulta difficile farsi un'idea chiara dei contenuti degli obiettivi esaminati: ad esempio la parola risorse, che ha rango 14, a quale tipo di bene si riferisce? Risulta anche poco comprensibile che cosa si abbia intenzione di promuovere (rango 21) e a che cosa ci si riferisca con formazione (rango 25). I segmenti
137
TA B. 7.3. Frequenza forme grafiche presenti negli obiettivi formulati dai dirigenti scolastici Rimo
PARotA NAINA MARCA}
di e la per del delle della il con le in dell' risorse a dei ed un una promuovere degli attraverso territorio formazione alla personale al apprendimento gestione @@ docenti finanziarie formativa migliorare alunni nel gli istituto all' favorire che miglioramento strumentali come nella didattica d' collaborazione progetti
~ISM
889 867 360 312 303 281 263 248 242 234 228 208 196 162 158 152 130 127 121 103 98 97 94 94 90 89 88 87 77 76 74 71 69 68 67 67 66 63 62 61 61 59 56 49 49 47 46 46 45 44
RANGO PARMA (FORMA MARCA)
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
competenze offerta da sviluppo rete progetto POF
organizzazione docente insegnamento integrazione tra scolastico realizzazione qualità servizio lo processi più alle formativi o obiettivi riforma utilizzo modalità anche ai associazioni sul enti istruzione scolastica biro ad potenziare nell' ricerca organizzative tutti formativo ATA
creare rapporti comunicazione potenziamento professionali professionale istituzioni assicurare
fetemisgem
IL «TEXT MINING» 139
138 CAPITOLO 7
TAB. 7.4. Segmenti ripetuti presenti negli obiettivi dei dirigenti scolastici RANGO
1 2 3 4 5 6 7 8 9 10 11 12 12 14 15 16
Umano annum
FREQUENZA
delle risorse della scuola risorse finanziarie e di del personale per la le risorse del territorio e la di un con le attraverso la degli alunni di lavoro delle risorse finanziarie e della
76 53 50 45 44 41 40
FASCIA DI FREQUENZA
ALTA
37 37 37 32 29 28 28 26
MEDIA
24
BASSA
ripetuti chiariscono che le risorse vadano intese, almeno in parte, come risorse economiche, ma non offrono informazioni di qualche valore sul resto. Nella tabella 7.5 invece l'elenco dei concetti estratti attraverso il text mining offre un quadro meno dispersivo e ambiguo. TA B. 7.5. Concetti estratti attraverso il «text mining» ConcErre Promuovere progetti Formazione dei docenti Rapporto con il territorio Risorse finanziarie Risorse Rete di scuole Progetti POF
Apprendimento alunni Associazioni Potenziamento personale Gestione del personale Offerta formativa Riforma scolastica Rapporti con le famiglie Attività didattica Integrazione Realizzazione Enti locali
FREQUENZA
89 69 49 48 45 44 44 44 41 41 41 39 39 38 37 37 35 35 33
Il text mining chiarisce che il promuovere si riferisce sostanzialmente ai progetti (promuovere progetti), la formazione è quella dei docenti (termine sinonimizzato con insegnanti), i rapporti sono quelli con il territorio (sinonimizzato con zona), le risorse sono finanziarie e così via. Sebbene l'estrazione abbia chiarito quali siano i concetti più presenti, non sappiamo ancora nulla delle loro relazioni. Utilizzando un grafico web possiamo visualizzare le cooccorrenze fra i concetti all'interno degli obiettivi e rappresentare le loro relazioni come linee. Nella lettura del grafico terremo presente che: • ogni linea costituisce una cooccorrenza fra due concetti superiore ad una certa soglia (nell'esempio la soglia è pari a 10), quanto più è spessa è una linea, tanto più è forte il collegamento fra i due concetti; • i concetti più centrali sono quelli da cui partono/arrivano più linee; • i concetti sono collegati a coppie e quindi il complesso delle relazioni è latente e basato anche su relazioni indirette. Vengono visualizzati i concetti più collegati, che non coincidono necessariamente con quelli più frequenti. Un concetto molto frequente non viene visualizzato se non ha un numero di collegamenti superiore alla soglia. Il quadro successivo chiarisce l'esecuzione di tale fase partendo dai dati dello studio SIVADIS usato nel quadro 7.1. Dal grafico web emerge un raggruppamento concettuale, il concetto più centrale fra gli obiettivi del dirigente appare essere quello di territorio che ha 6 collegamenti con altrettanti concetti. I collegamenti più forti appaiono essere quelli fra il territorio con le risorse economiche e della rete di scuole con la formazione dei docenti. La rappresentazione del grafico a rete deve poi essere interpretata. Nell'esempio, una prima interpretazione vedrebbe il territorio dove la scuola si colloca come un «crocevia» dei complessi obiettivi del dirigente scolastico. In particolare esso sembrerebbe costituire una modalità attraverso cui si cerca di reperire le risorse finanziare per alimentare altri obiettivi generali (promuovere progetti) che riguardano, in prima battuta, l'apprendimento degli alunni. Su un secondo versante le risorse finanziate reperite sono finalizzate direttamente e indirettamente, passando attraverso reti di scuole, che probabilmente aumentano la possibilità di reperire risorse e di gestirle più razionalmente, alla formazione dei docenti. Si noterà che alcuni concetti seppure avessero una elevata frequenza assoluta, sono assenti dalla rappresentazione grafica, non essendo in rete con gli altri concetti. Questo non vuol dire che essi non siano importanti, ma solo che essi vengono trattati come a sé stanti. E questo il caso dell'offerta formativa che risulta assente dalla rete degli obiettivi. Essa quindi sembra costituire un obiettivo a sé stante per il dirigente scolastico, un'area conclusa in se stessa, che prescinde, forse perché molto generica, da altri obiettivi.
IL «TEXT MINING» 141
RIEPILOGO Il text mining rappresenta una famiglia di metodologie che permettono di valutare i testi sulla base di algoritmi che possono considerare sia il significato linguistico, sia le relazioni di cooccorrenza e di prossimità fra le parole considerandone il senso all'interno di un testo. Nel text mining si cerca infatti di estrarre concetti in modo automatizzato, cercando di ripercorrere le modalità usate dall'essere umano, riconoscendo i termini che assumono un significato simile entro diversi contesti linguistici. In questa metodologia, dopo le usuali fasi di analisi delle domande di ricerca e di definizione dell'unità di analisi, vengono svolte una serie di operazioni iterative di estrazione e valutazione dei concetti nel testo, fino ad arrivare ad una estrazione definitiva di concetti da sottoporre al data mining. Nel capitolo vengono usati diversi esempi anche con lo scopo di definire le differenze tra il test mining e le procedure di analisi testuali descritte nei capitoli precedenti.
<3"
o
o
o, Li 2
v c
w O e 1:3
z-
0
-c
o c o
Cl
o
E
c,
Modelli misti e approccio «significato attendibile»
Nei precedenti capitoli abbiamo illustrato tre diversi approcci all'analisi di dati qualitativi. Ciascuno di essi ha punti di forza e punti deboli nell'individuazione di significati nei testi: come abbiamo discusso la scelta su quale sía più corretto usare è legata alla domanda di ricerca, all'unità di analisi e al contesto dí utilizzo. L'analisi del contenuto bottom-up ha il vantaggio di riuscire ad individuare categorie che possono anche essere molto complesse. I limiti di questo approccio derivano dal fatto che, essendo basato sulla codifica umana, si tratta di un'analisi che è onerosa in termini di risorse. Il tempo necessario è spesso lungo e, nonostante l'attendibilità possa arrivare a livelli più che accettabili, non si raggiungeranno mai i livelli di un computer che applica un algoritmo di classificazione. In secondo luogo la possibilità d'identificare pattern nascosti nei dati qualitativi legati alla frequenza degli elementi o alla loro cooccorrenza nell'analisi del contenuto è limitata: il semplice conteggio di una parola fatto da un computer può dare informazioni che non sono visibili dall'occhio umano. L'analisi statistica e il text mining offrono la possibilità di analizzare grosse moli di dati in tempi ristretti, anche se si tende spesso a sottovalutare le operazioni necessarie alla preparazione dei testi. La statistica testuale conserva molta della ricchezza formale di un testo ed offre strumenti per analizzarne la struttura e, talvolta, individuarne il senso su un piano generale. Il principale limite consiste nella capacità d'individuare dei significati non ambigui, dei concetti, in testi che non abbiano
144 CAPITOLO 8
MODELLI MISTI E APPROCCIO «SIGNIFICATO ATTENDIBILE» 145
il carattere specifico e delimitato delle risposte a domande aperte. Infatti, quando si ha a che fare con materiali di carattere più generale, dove le aree tematiche possono essere molto più ampie, l'approccio incontra delle difficoltà nell'individuare unità di significato, visto che è di natura esclusivamente formale. Viene in questo modo lasciato al ricercatore l'onere di ricostruire il senso e da questo derivano spesso problemi di attendibilità. Il text mining aggiunge all'analisi formale conoscenze di tipo linguistico che consentono di mirare direttamente all'individuazione di concetti tenendo conto del contesto locale delle parole. A volte però gli algoritmi che esaminano i testi su base linguistica possono far perdere informazioni estremamente rilevanti e meritevoli di attenzione da parte del ricercatore. Nella tabella 8.1 vengono sintetizzati punti forti e debolezze dei diversi approcci rispetto a specifici problemi. Partendo dagli specifici vantaggi dei diversi approcci è possibile pensare a metodologie che, in funzione di specifici obiettivi di ricerca, li combinino in approccio integrato. In particolare, qui illustreremo in termini generali una metodologia mista orientata a massimizzare la possibilità di scoperta di elementi dotati di significato nell'analisi del contenuto bottomup denominata analisi del contenuto mista e un approccio che chiameremo significato attendibile mirato a massimizzare attendibilità e minimizzare i tempi di analisi nell'individuazione di significati complessi in un testo. Si tratta in entrambi i casi di approcci che, utilizzando più di una metodologia per raggiungere una particolare obiettivo, richiedono più risorse in termini di tempo, di competenze del ricercatore e di disponibilità di software.
1. L'ANALISI DEL CONTENUTO MISTA Nella figura 8.1 sono rappresentati i diversi passi di un'analisi del contenuto mista. Il processo, come sempre, parte con l'analisi della domanda e dall'individuazione dell'unità di analisi che dovrà essere, in questo caso, scelta in un'ottica integrata e trasversale. Il campionamento è qui finalizzato a fornire materiale per la codifica esplorativa in quanto con l'analisi statistica e il text mining è spesso possibile analizzare interamente i dati. I tre procedimenti di analisi avvengono nel modo già descritto nei capitoli dedicati alle rispettive metodologie e il punto di arrivo è costituito da tre elenchi di possibili concetti che saranno integrati e definiti in un codebook (cfr. cap. 5). È importante considerare qui che l'analisi statistica e il text mining possono suggerire concetti utili per l'analisi anche sulla base dell'esplorazione dei contesti locali degli elementi estratti. Successivamente si prosegue, come nell'analisi del contenuto qualitativa, con la valutazione dell'attendibilità formativa, la codifica definitiva dei testi e, infine, con la valutazione sommativa dell'attendibilità. Nel quadro 8.1 viene riportato il risultato della definizione del codebook con i tre metodi rispetto all'esempio utilizzato nei capitoli precedenti.
QUADRO 8.1. Metodi a confronto
TAB. 8.1. Caratteristiche dei diversi approcci illustrati
Scoperta di qualità sul piano semantico Scoperta di qualità sul piano linguistico Scoperta di qualità sul piano morfologico Attendibilità Risorse richieste in termini di tempo
ANALISI DEL CONTENUTO
STATISTICA
601101A-UP
TESTUALE
4.*
•
«TEXT MINIMA
if 1,11.11-
11* 11.
Nota: Il numero degli asterischi * indica la maggiore o minore presenza della specifica caratteristica.
Attraverso la codifica esplorativa nell'analisi del contenuto dei testi dell'esempio utilizzato nei capitoli precedenti sono state individuate le categorie riportate nella tabella 8.1. Attraverso l'analisi dei segmenti ripetuti sono state invece individuate nell'analisi statistica dei testi le categorie riportate nella tabella 8.3. Il text mining ha invece portato all'identificazione dei concetti riportati nella tabella 8.4. Una volta individuate le possibili categorie di analisi con le tre metodologie si procede alla definizione del codebook. Si tratta di un processo analogo a quello fatto nell'analisi del contenuto con la differenza che nella discussione e defini-
MODELLI MISTI E APPROCCIO «SIGNIFICATO ATTENDIBILE» 147
1. Analisi domande di ricerca TA B. 8.2. Categorie identificate attraverso l'analisi del contenuto Desarnor«
CPXIMORIA
2. Scelta dell'unità di analisi
Perché mi piace
3. Ca mpionamento testi
Codifica esplorativa
Statistica testuale
«Text mining»
4. Scoperta di categorie con metodi misti
5. Definizione del «codebook»
Prob emi di attendibilità
Attendibilità ok
8. Codifica dei testi
fig. 8.1. I passi dell'analisi del contenuto mista. Nota: La sua caratteristica è di utilizzare tutte le metodologie di analisi nella fase di scoperta delle categorie, d'integrare i risultati conseguiti e di proseguire, utilizzando la codifica umana, come un'analisi del contenuto qualitativa.
Si studia perché piace, interessa, per capire, imparare o sapere Per guadagnare Si studia per ottenere un vantaggio economico successivo legato all'aver studiato Utilità per se stessi Si studia perché viene ritenuto utile per se stessi Per i miei genitori Si studia per un motivo legato ai genitori, che vengono menzionati esplicitamente. Per avere buoni voti Si studia per ottenere buoni voti e andare bene a scuola, o al contrario, per non prendere brutti voti Perché è un obbligo Si studia perché si sente un obbligo a farlo, una costrizione Per un senso Si studia perché si sente un dovere di responsabilità a farlo Per essere promosso Si studia per superare l'anno scolastico Per essere istruiti Si studia per non essere ignoranti, per avere un minimo di istruzione e di cultura Per poter fare uno specifico Si studia per poi poter svolgere la lavoro professione desiderata (viene menzionata la professione) Per i premi e le punizioni Si studia per ottenere un premio (che sia qualcosa di tangibile, ad esempio un regalo) o per evitare una punizione. Per un titolo di studio Si studia per ottenere un titolo di studio inteso come raggiungimento di un traguardo, di un punto di arrivo. Valore personale Si studia per il miglioramento della proprio a utosti ma Per i miei insegnanti Si studia per un motivo legato agli insegnanti, che vengono menzionati esplicitamente Per una soddisfazione per- Si studia per una soddisfazione sonale personale Per proseguire un percorso Si studia per poter continuare un di studi percorso di studi
Voglio imparare Perché mi piace studiare Per avere un buono stipendio Per guadagnare meglio Serve a me È utile per me Lo faccio per i miei genitori Voglio far felici i miei genitori Per avere buoni voti Per andare bene a scuola Lo devo fare per forza Sono obbligato È il mio dovere È l'unico dovere alla mia età Per essere promosso Per passare l'anno Per non essere ignorante Per avere un'istruzione Per diventare un medico nel futuro Da grande voglio fare la veterinaria Mi fanno dei regali Se vado male non mi danno i soldi
Per avere un titolo di studio Per prendere il diploma Per essere fiera di me Per essere sicura di me Per far felici i miei insegnanti Me lo dicono gli insegnanti Per una mia soddisfazione Mi dà soddisfazione studiare Per andare alle superiori Voglio andare all'università
zione delle categorie entrano anche quelle individuate con gli altri approcci. In questa fase può risultare utile esplorare i contesti locali di testi e concetti estratti che potranno aiutare a definire meglio le categorie e fornire materiale di esempio. Per arrivare alla definizione finale è conveniente costruire una tabella in cui vengono integrate le categorie ed evidenziata la metodologia che ha portato alla loro identificazione (tab. 85).
148 CAPITOLO 8
MODELLI MISTI E APPROCCIO «SIGNIFICATO ATTENDIBILE» 149
TAB. 8.3. Segmenti ripetuti identificati attraverso statistiche testuali SaMlítift 1111~
1. mi piace 2. è importante 3. miei genitori 4. un lavoro 5. un futuro 6. bei voti 7. non lo so 8. mia madre 9. prendere bei voti
TAB. 8.4. Concetti identificati attraverso il «text mining»
Si studia per superare l'anno scolastico Per essere istruiti Si studia per non essere ignoranti, per avere un minimo di istruzione e di cultura Per poter fare uno specifico Si studia per poi poter svolgere la professione desiderata (viene lavoro menzionata la professione) Per essere promosso
Per diventare un medico nel futuro Da grande voglio fare la veterinaria Per i premi e le punizioni Si studia per ottenere un premio Mi fanno dei regali (che sia qualcosa di tangibile, ad Se vado male non mi danno esempio un regalo) o per evitare i soldi una punizione Si studia per il miglioramento della Per essere fiera di me Valore personale Per essere sicura di me proprio autostima Per proseguire un percorso di Si studia per poter continuare un Per andare alle superiori Voglio andare all'università percorso di studi studi
Catarro
TAB.8.5. Il «codebook» definitivo derivato dall'analisi dei diversi approcci omonime SOLO DALL'ANALISI DEL CONTENUTO
Utilità per se stessi Per un senso di responsabilità
Perché è importante Perché è una cosa importante Non lo so Non ho niente altro da fare
SOLO DAL «TEXT MININO)
L'utilizzo di una metodologia mista ha permesso l'identificazione e la definizione di 5 categorie aggiuntive. L'analisi del contenuto qualitativa rimane, presa singolarmente, la metodologia più performante in termini d'individuazione di significati distinti anche se è la più onerosa in termini d'impiego di risorse. Non è stato possibile individuare concetti complessi come quello di premio attraverso le metodologie automatizzate che non hanno la possibilità di arrivare a questi livelli di articolazione nella definizione di un singolo concetto.
afECOMA
SOLO DALLA STATISTICA TESTUALE
Viene risposto che è importante studiare, ma non si dice per cosa. Non lo so Non viene riferito un motivo per cui si studia (ma viene fornita comunque la risposta) Perché è importante
Cose nuove Lavoro Genitori Bei voti Soldi Insegnanti Soddisfazione personale Obbligatorio Cultura Titolo di studio
Per essere promosso Per passare l'anno Per non essere ignorante Per avere un'istruzione
Si studia perché viene ritenuto Serve a me È utile per me utile per se stessi Si studia perché si sente un dovere È il mio dovere È l'unico dovere alla mia età a farlo
Per i miei insegnanti Si studia per un motivo legato agli Per far felici i miei insegnanti insegnanti, che vengono menzio- Me lo dicono gli insegnanti nati esplicitamente Si studia per imparare cose nuove Per imparare cose nuove Per imparare cose nuove Per conoscere cose che non sapevo prima Per una soddisfazione perso- Si studia per una soddisfazione Per una mia soddisfazione Mi dà soddisfazione studiare personale nale
DA PIÙ DI UN METODO
Si studia perché piace, interessa, per capire, imparare o sapere Per guadagnare (C,T) Si studia per ottenere un vantaggio economico successivo legato all'aver studiato Per i miei genitori (C,S,T) Si studia per un motivo legato ai genitori, che vengono menzionati esplicitamente Per avere buoni voti (C,S,T) Si studia per ottenere buoni voti e andare bene a scuola,o al contrario, per non prendere brutti voti Si studia perché si sente un obbligo Perché è un obbligo (C,T) a farlo, una costrizione Per un titolo di studio (C,T) Si studia per ottenere un titolo di studio inteso come raggiungimento di un traguardo, di un punto di arrivo
Perché mi piace (C,S)
Nota: C = analisi del contenuto; 5 = statistica testuale;T = text mining.
Perché mi interessa studiare Perché mi piace studiare Per avere un buono stipendio Per guadagnare meglio Lo faccio per i miei genitori Voglio far felici i miei genitori Per avere buoni voti Per andare bene a scuola Lo devo fare per forza Sono obbligato Per avere un titolo di studio Per prendere il diploma
150 CAPITOLO 8
MODELLI MISTI E APPROCCIO «SIGNIFICATO ATTENDIBILE» 151
2. L'APPROCCIO SIGNIFICATO ATTENDIBILE Teoria
È possibile combinare i tre approcci in una metodologia mirata a individuare delle regole di codifica che consentano di analizzare lo stesso materiale, con gli stessi criteri, nel corso del tempo in un modo automatico o semiautomatico attraverso un software. Le possibili applicazioni vanno dall'esigenza di monitorare particolari contenuti nel corso del tempo, alla misurazione di stati mentali e tratti attraverso tecniche non intrusive [Gottscahalk 1997]. Può trattarsi di una situazione in cui non sono disponibili a priori conoscenze sull'oggetto d'indagine e l'approccio misto serve a individuare sia delle categorie, sia delle regole parzialmente o completamente automatizzabili. La differenza con il text mining in questo caso è che gli algoritmi per individuare dei concetti non sono solo quelli già presenti nel software, ma anche quelli che vengono implementati dal ricercatore sulla base dei risultati dell'analisi qualitativa del contenuto e dell'analisi statistica dei testi. Alternativamente l'analisi qualitativa può essere finalizzata a individuare e implementare indicatori testuali per la rilevazione, su base algoritmica, di un costrutto oggetto d'interesse su cui è disponibile una conoscenza pregressa, frequentemente formalizzata in una teoria. Qualunque sia la situazione, lo scopo dell'analisi è cercare d'individuare regole di classificazione che, sulla base della presenza e della combinazione di determinati testi e contesti, consentano a un software di effettuare la codifica in modo automatico e quindi avere la massima attendibilità possibile e una buona validità strumentale quando paragonato alla codifica umana (fig. 8.2). Dalla teoria ai costrutti testuali. In alcuni casi è possibile generare in
modo abduttivo regole di codifica implementabili in un software unendo la conoscenza teorica su un fenomeno a quella individuabile in regolarità del comportamento verbale. Una importante applicazione di questa possibilità consiste nel costruire strumenti di valutazione di costrutti teorici attraverso metodi che si basano sul comportamento verbale di un soggetto. Un esempio in questo senso è fornito dal metodo di Gottschalk e Gleser [1969] che, per valutare uno stato mentale o un tratto, analizza parole e combinazioni di termini per come appaiono all'interno delle frasi di un soggetto. Su questa
Categorie ipotizzate «a priori» Analisi del contenuto Statistica testuale «Text mining»
G!
I Identificazione regole formalizzate di codifica
•
J
Ok
Estrazione automatizzata dei concetti fig. 8.2. 1 passi dell'approccio significato attendibile. Nota: Il processo comincia con l'individuazione di categorie sulla base di una teoria preesistente (il leone e la scimmia rappresentano significati la cui esistenza è assunta teoricamente) e/o su base empirica, partendo dai dati e utilizzando una o più metodologie di analisi. Successivamente si identificano delle regole da implementare in un software che consentano, con una certa attendibilità, di estrarre automaticamente le categorie di significato analizzate (3: quantificatore esistenziale, significa «esiste un/una».G! indica una combinazione di elementi presenti in una regola formalizzata).
linea di ricerca, a partire dagli anni '50 [Gottscahalk 1997] sono stati sviluppati indicatori testuali per la misurazione di costrutti come l'ansia, la depressione, l'ostilità e l'alienazione sociale. Negli anni '80 [Gottschalk e Bechetel
MODELLI MISTI E APPROCCIO «SIGNIFICATO ATTENDIBILE» 153
152 CAPITOLO 8
1982; 1989; 1993; Gottschalk, Hausmann e Brown 1975] è stato poi sviluppato un software che ha implementato regole di codifica automatica del materiale analizzato che ha mostrato un buona concordanza (attendibilità superiore a 0,80) quando comparato con i risultati della codifica umana. Nello sviluppo d'indicatori complessi di tipo testuale in ambito psicologico e psicosociale, oltre alle caratteristiche di tipo linguistico, nell'analisi vengono tenuti presenti anche i significati su un piano emotivo, motivazionale e relazionale dell'uso di determinate parole in un discorso [Pennebaker 2002]. Diversi studi hanno evidenziato infatti che le modalità di utilizzo da parte di una persona di specifici termini ha una relazione con lo stato psicologico della persona [Chung e Pennebaker 2007]. Ad esempio l'uso dei pronome personale «io» è stato trovato con maggiore frequenza fra soggetti che sono depressi [Rude, Gortner e Pennebaker 2004], inclini al suicidio [ Stirman e Pennebaker 2001] o sinceri [Newman et al. 2003]. L'uso della prima persona plurale «noi», sebbene sia più difficile da valutare, segnala generalmente un legame all'interno di un gruppo [Chung e Pennebaker 2007]. Rispetto a questo, ad esempio, diversi studi hanno segnalato come in America, dopo l'attentato dell'il settembre, sia ampiamente aumentato l'uso della parola «noi» nel linguaggio quotidiano [Mehl e Pennebaker 2003]. Sono disponibili attualmente diversi sistemi di regole di codifica utilizzabili all'interno di software per analizzare testi di lingua inglese. Tali sistemi hanno trovato concreta applicazione di ricerca in ambito psicosociale [ad esempio Mehl et al. 2007; Mehl e Pennebaker 2003]. Le regole possono essere implementate in vario modo in un software e nel quadro 8.2 viene fornito un semplice esemplo.
QUADRO 8.2.
Esempio di regole di codifica automatizzate riferite specificamente ad un costrutto di interesse teorico Di seguito viene riportato un esempio di regole di codifica automatizzate in linguaggio Wordstat per analizzare automaticamente un testo di lingua inglese rispetto a un costrutto generale di emozioni positive tratto dall'English regres-
sive imagery dictionary [Martindale 1975; 1990]. Nell'esempio viene codificata nella categoria positive affect qualunque parola che sia presente nell'elenco (riportato parzialmente). L'asterisco * dopo una sequenza di lettere indica che la parola può proseguire in qualunque modo, il numero fra parentesi indica la frequenza di occorrenza della parola entro la categoria. EMOTIONS POSITIVE_AFFECT AMUS* (1) AMUSEMENT* (1) BLITH* (1) CAREFRE* (1) CELEBRAT* (1) CHEER* (1) CHEERFUL* (1) CHEERY* (1) CHUCKL* (1) DELIGHT* (1) DELIGHTFUL* (1) ELAT* (1) ENJOY* (1) ENJOYABL* (1) ENJOYMENT* (1) ENTERTAIN* (1) ENTERTAINMENT* (1) ENTHUSIASM* (1) ENTHUSIASTIC* (1) EXCIT* (1) EXHILERAT* (1) EXULT* (1) EXULTANT* (1) FUN (1) FUNNY* (1) GAIETY* (1) GAY* (1) GLAD* (1) GLADNES* (1) GLEE (1) GLEEFUL* (1) GLEELY (1)
154 CAPITOLO 8
RIEPILOGO In questo capitolo, partendo dagli specifici vantaggi dei diversi approcci è stato illustrato come sia possibile pensare a metodologie che, in funzione di specifici obiettivi di ricerca, li combinino in approccio integrato. In particolare nel capitolo vengono illustrate due metodologie. Una, definita come analisi del contenuto mista, rappresenta un approccio bottom-up che prova a massimizzare la possibilità di scoperta di elementi dotati di significato attraverso l'analisi delle categorie emerse sia dall'analisi del contenuto sia dalla statistica testuale che dal text mining. L'altro approccio, definito significato attendibile, si propone di massimizzare l'attendibilità e minimizzare i tempi di analisi nell'individuazione di significati complessi in un testo attraverso regole parzialmente o completamente automatizzabili. In questo caso gli algoritmi possono essere implementati dal ricercatore sulla base dei risultati delle precedenti analisi sui testi o anche derivare da conoscenze pregresse, ad esempio di natura teorica. In questo caso l'analisi qualitativa può essere finalizzata a individuare e implementare indicatori testuali per la rilevazione, su base algoritmica, di un costrutto oggetto d'interesse teorico.
Software per l'analisi qualitativa
In questo capitolo conclusivo verranno illustrate le caratteristiche principali di alcuni dei software maggiormente usati per analizzare i materiali testuali o altri materiali derivati da strategie di ricerca qualitativa. Questa breve panoramica non pretende di essere esaustiva, ma si riferisce aí software citati nei precedenti capitoli. Essa, inoltre non corrisponde a una descrizione dettagliata delle funzionalità dei software stessi, per i quali si rimanda ai loro manuali. Essa si propone esclusivamente di fornire alcuni spunti ai lettori per suscitare l'interesse verso ulteriori approfondimenti. Per ciascuno dei software viene fornito un quadro che illustra alcune note descrittive e, di seguito, la descrizione di alcune funzionalità viene accompagnata dall'illustrazione delle schermate tipiche dell'ambiente di lavoro su cui il programma opera.
1. SPAD
QUADRO 9.1. Lo SPAD: note descrittive Nome: SPAD Sito interne!: www.spad.eu Licenza: a pagamento
156
CAPITOLO
9
SOFTWARE PER L'ANALISI QUALITATIVA
157
Sistema operativo: Ms Windows Applicazione principale: analisi statistica di risposte a domande aperte Dati analizzati: testi, numeri Principali caratteristiche: • analisi simultanea di una o più variabili testuali; • costruzione del vocabolario: parole e segmenti ripetuti; • possibilità di modificare il vocabolario; • analisi dei contesti; • descrizione di sottogruppi di soggetti individuando parole e frasi carat teristiche; • costruzione di tabelle di contingenza lessicali; • analisi delle corrispondenze semplici di tabelle lessicali. -
Lo SPAD è uno dei più diffusi software per l'analisi statistica dei testi, ir particolare delle risposte alle domande aperte e consente di svolgere tutte le operazioni illustrate nel capitolo 6. È un programma che oltre all'analis testuale consente, acquistando appositi moduli, complesse e particolari ana lisi statistiche esplorative. Nelle ultime versioni il modulo di analisi testuali è chiamato text mining: si tenga presente che, allo stato attuale, il software nonostante il nome non consente di fare le analisi di text mining per corri( sono state illustrate in questo volume. L'interfaccia utente oltre al francese prevede attualmente anche l'inglese. Nella figura 9.1 viene illustrato l'ambiente di lavoro dello SPAD. L'ana lisi viene pianificata e svolta come una serie di operazioni in sequenza che l'utente deve scegliere e configurare. Il punto di partenza è costituito dal l'importazione dei dati testuali (BASE nella figura). Successivamente vien( costruito il vocabolario contenente le diverse forme grafiche in cui vien( scomposto il testo (MOTS nella figura), è possibile quindi richiedere l'ana lisi delle concordanze (CORDA nella figura) ed, eventualmente, l'analisi de segmenti ripetuti (SEGME nella figura). Per effettuare l'analisi delle corri spondenze l'utente deve prima richiedere la tabella di contingenza lessi cale (TALEX nella figura) e successivamente l'analisi delle corrispondenze semplici (CORBIT nella figura). Per ognuna delle procedure eseguite dell sequenza di analisi all'utente viene fornito un output (rappresentato grafi camente dalle icone poste alla destra delle operazioni di analisi). L'outpu
i
fig. 9.1. Esempio di passaggi necessari in un'analisi testuale attraverso lo
SPAD.
può essere di tipo testuale, organizzato in un file excel o, in alcuni casi visualizzato nella figura 9.1. Nella figura 9.2 viene visualizzata l'interfaccia per la gestione e organiz zazione del vocabolario che consente di esaminare le frequenze delle formi grafiche, unire delle parole insieme ed escludere delle parole dal vocabola rio da utilizzare per le analisi successive. Il vocabolario iniziale è visualizzate nella finestra di sinistra, mentre quello modificato dall'utente a destra. I nuovo vocabolario può essere salvato e utilizzato per successive analisi. Nella figura 9.3 viene riportato l'output grafico dell'analisi delle cor rispondenze sulla tabella lessicale. Si noterà che si tratta della stessa figun riportata nel capitolo 6, visto che l'analisi a cui si riferisce era stata effettuar, attraverso SPAD. La grandezza di ogni elemento analizzato può essere res i proporzionale al suo contributo assoluto, alla sua coordinata fattoriale
158 CAPITOLO 9
o
•
ro
LL o
O
..
• 10.
co o
71 59 .....164. 9 devo 26 diploma 26 dliver44.4 17 dovere 1/WeJr0 207 94,966 39 40 sn.".2. 156 impaf 4r6 40 em04.. 148 n110or1e0t6 lavorare 15 lavoro 136 recaci.. 1e mimi 42 re 27 nuova oe .91:60...-.. 17 .bt90463..i. 21 292 m 125 Piaci. Posso 24 'arsevelare 34 16 PIOn10880 IInapellr e 43 53 sconvoi 34 :rei. is 46 tfer•ealf. 45 .614 23 ...a. 37 336 v90. 50 •••1,94i voti 49 • :0II.
1
i
a
g." 2 o• 9 •• >
o
•
o
• g _
o ln
•
Dl
o
E
P
•
tU
o.
_o o
itUZ2~à.i
fig. 9.2. Costruzione e gestione del vocabolario con lo %lo.
–o
tv c
ad altri coefficienti. È possibile modificare i simboli grafici, le etichette e i colori associati a ciascun elemento rappresentato. Inoltre si ha l'opportunità d'ingrandire selettivamente alcune zone del piano rappresentato e di nascondere alcuni degli elementi visualizzati.
o
E
o 0
o
c
E• o
•w
2.
QDA MINER E WORDSTAT
•4-
o
g•
QUADRO
QDA
9.2.
Ó •
Miner e Wordstat: note descrittive
• E co_
Nome: QDA Miner e Wordstat Sito internet: www.provalisresearch.com Licenza: a pagamento Sistema operativo: NN-Windows Applicazione principale: analisi del contenuto qualitativa, analisi significato attendibile
o o
‹è'
E rs1
0 LL
o
o
I .4.
07
I
CO O
SOFTWARE PER L'ANALISI QUALITATIVA 161
160 CAPITOLO 9
Dati analizzati: testi, immagini Principali caratteristiche: • creazione e gestione di codici e di codebooks organizzati in modo gerarchico; • possibilità di associare i codici a colori diversi; • strumenti di text retrieval e codifica automatica sulla base di esempi; • possibilità di avere informazioni sulla prossimità di codifiche all'interno di un documento; • possibilità di calcolare automaticamente l'attendibilità fra codificatori; • frequenza delle parole e segmenti ripetuti; • analisi delle concordanze, scaling multidimensionale, cluster analysis; • possibilità di creare dizionari definiti dall'utente per le analisi significato attendibile. Miner con il modulo aggiuntivo Wordstat, costituiscono insieme uno strumento molto flessibile che consente di fare analisi del contenuto qualitativa, analisi statistiche dei testi, utilizzare approcci misti (sebbene non abbia un modulo di text mining per come è stato descritto in questo volume) e sviluppare analisi secondo il modello significato attendibile. Le possibilità di analisi delle corrispondenze sono più limitate rispetto a quelle offerte dello SPAD. Ad esempio, nella versione attuale del software, si è forzatamente obbligati all'estrazione di due sole dimensioni. Si noti che Wordstat non può essere utilizzato da solo: ha bisogno del modulo QDA Miner o del modulo statistico SYMSTAT per poter funzionare. Nella figura 9.4 l'ambiente di codifica assistita di QDA Miner. La codifica viene effettuata selezionando di volta in volta il testo da codificare, attribuendolo a categorie già esistenti (menu CODE) o creandone di nuove. La sezione CODES (in basso a sinistra nella figura) visualizza le categorie già presenti organizzandole in alberi. Il software consente di associare diversi colori a ciascun codice e di visualizzare il nome della categoria in cui è codificato il testo (in basso a destra nella figura). Al fianco del testo inoltre una parentesi prima del nome della categoria indica l'estensione della codifica. Dal menu in alto selezionando analyze è possibile accedere alle procedure di controllo dell'attendibilità fra codificatori e di calcolare l'alfa (a) di Krippendorff descritta nel capitolo 2. Nella figura 9.5 l'interfaccia di Wordstat a cui l'utente può accedere dal QDA
C•IM ~Me C•à•
Amohm 1•4> 1=1.111~ ~ 111.1.1.1111111~1~~11111110 314-3(1-3
rrx • ia**** ta 3 C
XP isposta alla domanda "perchP studi?"
enitorì e un po' anche per me
SIEN1111
o gr
• ~ere • nolo • gxefaxlafie
7. Per fare l'architetto e per fare contenti i miei genitori 8. E' utile per me 9. Serene studiare è divertente 10. Voglio far felici i miei genitori e voglio diventare una persona importante 11. Per avere In futuro un titolo dì studio 12. Perchè è una cosa importante 13. Sono obbligato 14. Per essere promosso 15. Per prendere il diploma 16. Per avere un buono stipendio 17. Parchi mi piace imparare cose nuove 18. Per avere buoni voti 19. Per fare il medico 20. Lo devo fare per foLza, altrimenti mia madre mi ammazza di botte 21. Per avere una migliore occupazione dopo
fig. 9.4. Ambiente di codifica di QDA Miner.
Nol•AN*
AMO," AMARE°, AAAA0-0, APPREZZA°, BRAVA°, SUONO," suONAO, COMPIAC-0, CONDNI-r° con/TENT-M CuRRETT,N l'ACCORDO°, °ACCORDO°, DENNOS-II, ONERT-0, ENTUSIASTA°, EBATTO(1, ESULT".0) FAVTErTETN FORTum,N,17
'7Jn ••• nn••• "C.•• ••n••n•nn• •••• •~0.'•
fig. 9.5. Esempio definizione di un dizionario in Wordstat.
SOFTWARE PER L'ANALISI QUALITATIVA 163
162 CAPITOLO 9
menu Analyze della figura 9.4 selezionando successivamente content analysis. Si ha qui la possibilità di ottenere la frequenza delle parole di un testo (menu Frequencies), di calcolare tabelle di contingenza (menu Crosstabs), di eseguire l'analisi delle concordanze (menu Key-Word_In_Context) e d'identificare i segmenti ripetuti (Feature Extraction). Selezionando Categorization e indicando il percorso del file è possibile utilizzare un dizionario, preesistente o definito dall'utente, e vedere la frequenza di concetti o costrutti in esso specificati attraverso il menu Frequencies. Nella finestra bianca della figura viene riportato un esempio di un dizionario definito dall'utente con parole che hanno una connotazione positiva.
software in grado di analizzare velocemente grandi quantità di testi e di individuare concetti e significati sulla base di algoritmi linguistici e statistici. È possibile poi utilizzare gli strumenti di data mining come la cluster analysis, gli alberi di classificazione e i grafici web per analizzare e visualizzare le relazioni fra i concetti estratti. Le possibilità di automatizzazione dei processi di analisi è molto elevata. Nella figura 9.6 viene riportato l'ambiente analisi di Text mining for Clementine. L'analisi testuale avviene costruendo uno stream attraverso la scelta e l'unione di nodi che sono rappresentati da elementi grafici. Il collegamento fra i diversi nodi è rappresentato da frecce. Nella figura lo stream si sviluppa da sinistra verso destra e il punto di partenza è rappresentato dall'input testuale (il cerchio testo nella figura) che può essere rappresentato da
3. «TEXT MINING FOR CLEMENTINE» 7.1entme 10 1 NN »Mite* Insortaci . Nuotatine Spumoni ftupornotto Fitto*** Noto
QUADRO 9.3.
A
akar
4+4. A A i n• 41›
*
"
Text mining for Clementine: note descrittive Nome: Text mining for Clementine Sito internet: www.spss.com Licenza: a pagamento Sistema operativo: ms-Windows Applicazione principale: text mining Dati analizzati: testi. Principali caratteristiche: • estrazione sulla base di algoritmi linguistici dei concetti; • gestione di errori di punteggiatura e di spelling nel testo; • possibilità di creare e utilizzare dizionari definiti dall'utente; • evidenziazione dei sinonimi utilizzati per i concetti estratti; • possibilità di applicare sui concetti estratti le più diffuse tecniche di data mining; • strumenti di visualizzazione dei concetti estratti.
Testo
t Pretori» j • Mout ; • Oper su record 1 • Opot su comPl' 04~~~ ~".
Text mining for Clementine è un modulo di analisi testuale integrato in SPSS Clementine, un software molto diffuso di data mining. Si tratta di un
Grafico wob concetti..
atap. • P*00~
4/0ìèi
fig.9.6. Ambiente di lavoro di srss Clementine.
`mio ig"440~ ~10.04
164
CAPITOLO
9
SOFTWARE PER L'ANALISI QUALITATIVA
165
caratteri maiuscoli). Infine è interessante la possibilità di estrarre come concetti equivalenti quelli che differiscono solo per la presenza di parole come gli articoli e le preposizioni (numero massimo di permutazioni di parole senza funzione sintattica).
e Concedi
E Spedita direetory per risorse Mons.»
r
eVlizionarlo
Ej Conforma errori di punteggiature Conforma errori tribolaci per parole di ~bozze superiore a C] Estrai termini univoci Ej Estrai aneli non linguisishe D All'olmo tendini maiuscoli O Mezza parte dinamica di schemi di discorso Numero massime di permutazioni di parole urga Salgono tintala«
3jD
Ej
2-71
amai I estrazione krostio avanzato Annotazioni QK . I ► M i/kileecuzione At tlj
r
opm --c-ai F,
fig.9.7. Menu del nodo estrazione concetti di «Text mining for Clementine».
file di testo o da testi contenuti all'interno di un data base. L'analisi del testo avviene attraverso il nodo estrazione concetti (il pentagono nella figura) che produce l'output concetti estratti. Le relazioni fra i concetti possono essere valutate e visualizzate, ad esempio, attraverso il nodo web (il triangolo con la rete al centro), mentre la loro semplice distribuzione di frequenza può essere espressa attraverso un grafico a barre (il triangolo con le barre al centro). Nella figura 9.7 si descrive un dettaglio sulla configurazione avanzata del nodo di estrazione dei concetti. È possibile indicare la directory dove sono collocati i dizionari di default e quelli definiti dall'utente (dizionario nella figura), scegliere come gestire gli errori di punteggiatura (conforma errori di punteggiatura), se estrarre concetti formati da una sola parola (estrai concetti univoci). Inoltre si ha la possibilità di estrarre come concetti entità non linguistiche come le sigle e i numeri (estrai entità non linguistiche) e di gestire la presenza di parole che iniziano con la lettera maiuscola (algoritmo
RIEPILOGO Nel capitolo sono state illustrate alcune caratteristiche dei software usati per analizzare i materiali testuali o altri materiali derivati da strategie di ricerca qualitativa che sono stati citati nei precedenti capitoli del testo. In particolare sono state fornite alcune indicazioni circa lo SPAD, il QDA Miner con il modulo Wordstat, del modulo Text mining for Clementine. Questi software non esauriscono certo la disponibilità di pacchetti informatici dedicati all'analisi dei dati qualitativi, che è attualmente in grande espansione, e l'illustrazione fornita non ha pretesa di dettaglio. Essa si propone solo di fornire un primo spunto, per suscitare l'interesse di approfondire le ampie possibilità che l'informatica offre a chi desidera dedicarsi alla ricerca qualitativa.
mimumm Riferimenti bibliografici
Riferimenti bibliografici
Abercrombie, N., Hill, S. e Turner, B.S. [1984], Dictionary of sociology, Harmondsworth, Penguin. Agodi, M.C. [1996], Qualità e quantità: un falso problema e tanti equivoci, in C. Cipolla e A. De Lillo (a cura di), Il sociologo e le sirene, Milano, Angeli. Alivernini, E, Lucidi, E, Manganelli, S. e Ricciardi, I. [2007], Una valutazione della motivazione allo studio nella scuola di base attraverso domande aperte e analisi del contenuto computer-assistita, in «Psicologia dell'edu-
cazione e della formazione», 1. Alivernini, E e Russo, P.M. [2002], Formulazione e metodi d'analisi delle domande aperte, in L. Cecconi (a cura di), La ricerca qualitativa in educazione, Milano, Angeli. Allison, G. [1971], Essence of decision making: Explaining the Cuban missile crisis, Boston, Mass., Little Brown. Amaturo, E. [1989], Analyse des données e analisi di dati nelle scienze sociali,
Torino, Centro Scientifico Editore. APA, American Psychological Associa-
tion, American Educational Research Association e National Council on Measurement in Education [1974], Standards for educational and psychological tests, Washington, D.C., Ame-
rican Psychological Association. Bates, N. [1996], Reinterviews and reconciliation using CAPI: The intregrated coverage measurement (icm) interview, San Antonio, Tex., Internatio-
nal conference on «Computer-assisted survey information collection». Berelson, B. [1952], Content analysis in communication research, New York, Free Press. Berg, B.L. [2007], Qualitative research methods for the social sciences, VI ed., Boston, Mass., Allyn & Bacon. Bodgan, R.C. [1974], Being different: The autobiography of Jane Fry, New York, Wiley. Bodgan, R.C. e Biklen, S.K. [1982], Qualitative research for education: Introduction to theory and methods,
Boston, Mass., Allyn & Bacon.
170 RIFERIMENTI BIBLIOGRAFICI
Bolasco, S. [1998], L'analisi informatica dei testi, in Ricolfi [1998]. - [1999], L'analisi multidimensionale dei dati, Roma, Carocci, pp. 179248. - [2005], Statistica testuale e «text mining»: alcuni paradigmi applicativi, in «Quaderni di Statistica», 7, pp. 17-53. Boncori, L. [1993], Teoria e tecniche dei test, Torino, Bollati Boringhieri. Brady, I. [1983], Speaking in the name of the real: Freeman and mead on Samoa, in «American Anthropologist», 85, pp. 908-947. Bryman, A. [1988], Quantity and quality in social research, London, Unwin Hyman. - [1999], The debate about quantitative and qualitative research, in Bryman e Burgess [1999]. Bryman, A. e Burgess, R.G. (a cura di) [1999], Qualitative research, London, Sage. Campbell, D.T. e Fiske, D.W. [1959], Convergent and discriminant validation by the multitrait-multimethod matrix, in «Psychological Bulletin», 56, pp. 81-105. Campelli, E. [1994], Problemi della concettualizzazione nelle scienze sociali, in «Sociologia e ricerca sociale», 43. - [1996], Metodi qualitativi e teoria sociale, in C. Cipolla e A. De Lillo (a cura di), Il sociologo e le sirene. La sfida dei metodi qualitativi, Milano, Angeli, pp. 17-36. Chiari, I. [2007], Introduzione alla
RIFERIMENTI BIBLIOGRAFICI 171
linguistica computazionale, RomaBari, Laterza. Chiesi, A.M. [1999], L'analisi dei reticoli, Milano, Angeli. Chung, C.K. e Pennebaker, J.W. [2007], The psychological functions of function words, in K. Fiedler (a cura di), Social communication, New York, Psychology Press, pp. 343-359. Clarke, P. [2000], The internet as a medium for qualitative research, documento presentato al Web 2000 Conference, Johannesburg, South Africa. Conn, C. [2002], Using the Internet for surveying: Techniques for designing, developing and delivering, Flagstaff, Northern Arizona University, Office of Academic Assessment. Corbetta, P. [2003], La ricerca sociale: metodologia e tecniche, vol. III: Le tecniche qualitative, Bologna, Il Mulino. Cronbach, L.J. [1971], Test validation, in R.L. Thorndike (a cura di), Educational measurement, II ed., Washington, D.C., American Council on Education, pp. 443-507. De Mauro, T. [2000], Il dizionario della lingua italiana per il terzo millennio, Torino, Paravia. Denzin, N.K. [1970],Strategiesof multiple triangulation, in Id. (a cura di), The research act in sociology: A theoretical introduction to sociological method, New York, McGraw-Hill, pp. 297-313. - [1978], The research act: A theoretical introduction to sociological methods, New York, Praeger.
Denzin, N.K. e Lincoln, Y.S. (a cura di) [2000], Handbook of qualitative research, II ed., Thousand Oaks, Calif., Sage. Dicks, B. e Mason, B. [1998], Hypermedia and ethnography: Reflections on the construction of a research approach , in «Sociological Research Online», 3, 3, www.socresonline.org. uk/socresonline/3/3/3.html. Dillon, L. [2001], Online surveys: Lessons learned. Centres for IBM e-business Innovation, Retrieved, October 9, 2003. Feldman, R. e Dagan, I. [1995], KDT knowledge discovery in texts, Proceedings of the First International Conference on Knowledge Discovery (KDD), pp. 112-117. Feldman, R. e Sanger, J. [2007], The text mining handbook, Cambridge, Cambridge University Press. Fielding, N. e Fielding J.L. [1986], Linking data, London, Sage. Filstead, W.J. [1979], Qualitative methods: A needed perspective in evaluation research, in T.D. Cook e C.S. Rechardt (a cura di), Qualitative and quantitative methods in evaluation research, London, Sage, pp. 33-48. Fischer, C.T. [2006], Qualitative research methods in psychology: Introduction through empirical studies, Boston, Mass., Academic Press, p. 461. Fitzgerald J.D. e Cox S.M. [2002], Research methods and statistics in criminal justice: An introduction, III ed., Belmont, Calif., Wadsworth.
Flyvbjerg, B. [2006], Five misunderstandings about case-study research, in «Qualitative Inquiry», 12, 2, pp. 219-245. Freeman, D. [1983], Margaret Mead and Samoa, Cambridge, Mass., Harvard University Press. Galilei, G. [1929-1936], Terza lettera a Marco Welser sulle macchie solari (1612), in Le opere di Galileo Galilei, Firenze, Barbera, vol. V, p. 187. Glaser, B.G. e Strauss, A. [1967], The discovery of grounded theory: Strategies for qualitative research, New York, Weidenfeld and Nicolson. Gottschalk, L.A. [1997], The unobtrusive measurement of psychological states and traits, in Roberts [1997]. Gottschalk, L.A. e Bechtel, R.J. [1982], The measurement of anxiety through the computer analysis of verbal samples, in «Comprehensive Psychiatry», 23, 4, pp. 364-369. - [1989], Artifical intelligence and the computerization of the content analysis of natural language, in «Artifical Intelligence in Medicine», 1, pp. 131-137. - [1993], Computerized content analysis of natural language or verbal texts, Palo Alto, Calif., Mind Garden. Gottschalk, L.A. e Gleser, G.C. [1969], The measurement of psychological states trough the content analysis of verbal behavior, Los Angeles, University of California Press. Gottschalk, L.A., Hausmann, C. e Brown, J.S. [1975], A computerized
172 RIFERIMENTI BIBLIOGRAFICI
RIFERIMENTI BIBLIOGRAFICI 173
scoring system for use with content analysis scales, in «Comprehensive
Kirk, J. e Miller, M.L. [1986], Reliability
Psychiatry», 16, pp. 77-90. Greenacre, M.J. [1984], Theory and ap-
Newbury Park, Calif., Sage. Krippendorff, K. [2004], Content analy-
plications of correspondence analysis,
si s: An introduction to its methodology, II ed., Thousand Oaks, Calif.,
London, Academic Press. Janesick, V.J. [2000], The choreography of qualitative research design: Minuets, improvisations, and crystallization, in Denzin e Lincoln [2000].
Hammersley, M. [1989], The dilemma of qualitative method, London, Routledge. - [1999], Deconstructing the qualitative-quantitative divide, in Bryman e Burgess [1999]. Hammersley, M. e Atkinson, P. [1995], Ethnography: Principles in practice,
London, Routledge. Han, J. e Kamber, M. [2006], Data mining: Concepts and techniques, II ed., San Francisco, Calif., Kaufmann. Hayes, A.F. e Krippendorff, K. [2007], Answering the call for a standard reliability measure for coding data,
ín «Communication Methods and Measures», 1, pp. 77-89. Hughes, M.A. e Garrett, D.E. [1990], Intercoder reliability estimation approaches in marketing. A generalizability theory framework for quantitative data, in «Journal of Marketing
and validity in qualitative research,
Sage. Krueger R.A. [1994], Focus group: A practical guide for applied research, II ed., Thousand Oaks, Calif., Sage. Lebart, L. e Salem, A. [1994], Statistique textuelle, Paris, Dunod. Lebart, L., Salem, A. e Berry, J. [1998], Exploring texual data, Dordrecht, Kluwer Academic Publisher. LeCompte, M.D. e Goetz, J.P. [1982], Problems of reliability and validity in ethnographic research, in «Review
of Educational Research», 52, 1, pp. 31-60. Leonardi, F. [1991], Contro l'analisi qualitativa, in «Sociologia e Ricerca sociale», 35, pp. 3-29. Lincoln, Y.S. e Guba, E.G. [1985], Naturalistic inquiry, Beverly Hills, Calif., Sage. Locke, K. [2002], Book review: Qualitative research and evaluation methods,
in «Organizational Research Methods», 5, pp. 299-301. Lundberg, G. [1933], Is Sociology too scientifica, in «Sociologus», 9, pp. 298-322.
Research», 27, 2, pp. 185-196. Kerlinger, F.N. [1992], Foundations of behavioral research, New York, Harcourt Brace College Publishers.
Marshall, C. e Rossman, G.B. [1995], Designing qualitative research, Beverly Hills, Calif., Sage. Martindale, C. [1975], Romantic pro-
gression: The psychology of literary history, Washington, D.C., Hemi-
sphere. - [1990], The clockwork muse: The predictability of artistic change, New York, Basic Books. Mason, B. e Dicks, B. [1999], The digital ethnographer, in «Cybersociology» (online), 6. www.cybersociology. com/files/6_1_virtualethnographer. html. Mayring, P. [2000], Qualitative content analysis. Forum qualitative sozialforschung/forum, in «Qualitative Social
Research» (online) 1. http://qualitative-research.net/fqs-e/2-00halte.htm Accessed 10.06.2001. Mead, M. [1928], Coming of age in Samoa: A psychological study of primitive youth for western civilization, New
York, William Morrow. Mehan, H.B. [1979], Learning lessons: Social organization in the classroom,
Cambridge, Cambridge University Press. Mehl, M.R. e Pennebaker, J.W. [2003], The sounds of social life: A psychometric analysis of students' daily social environments and natural conversations, in «Journal of Personality and
Social Psychology», 84, pp. 857-870. Mehl, M.R., Vazire, S., Ramirez-Esparza, N., Slatcher, R.B. e Pennebaker, J.W. [2007], Are women really more talkative than men?, in «Science», 316, p. 82. Merton, R.K. [1949], Social theory and social structure, III ed., New York, The Free Press; trad. it. Teoria e
struttura sociale, 3 voll., Bologna, Il
Mulino, 2000. Messick, S. [1980], Test validity and the ethics of assessment, in «American Psychologist», 35, pp. 1012-1027. Miles, M.B. e Huberman, A.M. [1994], Qualitative data analysis: An expanded sourcebook, Thousand Oaks,
Calif., Sage. Mitchell, C. [1983], Case and situational analysis, in «Sociological Review», 31, 2, pp. 187-211. Mitkov, R. (a cura di) [2003], The Oxford handbook of computational linguistics, Oxford, Oxford University
Press. Neuendorf, K.A. [2002], The content analysis guidebook, Thousand Oaks, Calif., Sage. Newman, M.L., Pennebaker, J.W., Berry, D.S. e Richards, J.M. [2003], Lying words: Predicting deception from linguistic style, in «Personality and
Social Psychology Bulletin», 29, pp. 665-675. Pennebaker, J.W. [2002], What our words can say about us: Toward a broader language psychology, in «Psychological
Science Agenda», 15, pp. 8-9. Ricolfi, L. [1998], La ricerca qualitativa, Roma, Carocci. Roberts, C.W. (a cura di) [1997], Text analysis for the social sciences: Methods for drawing inferences from texts and transcripts, Mahwah, N.J., Law-
rence Erlbaum.
RIFERIMENTI BIBLIOGRAFICI 175
174 RIFERIMENTI BIBLIOGRAFICI
Rosaldo, R. [1993], Introduction: Grief and a headhunter's rage: On the cultural force of emotions, in Culture and truth: The remaking of social analysis, London, Routledge; trad. it. Il dolore e la rabbia di un cacciatore di teste, in Cultura e verità. Rifare l'analisi sociale, Roma, Melteni, 2001, pp. 37-64.
Rude, S.S., Gortner, E.M. e Pennebaker, J.W. [2004], Language use of depressed and depression-vulnerable college students, in «Cognition and
Emotion», 18, pp. 1121-1133. Salem, A. [1987], Pratique des segments répétés: essai de statistique textuelle,
Paris, Klincksieck. Sartori, G. (a cura di) [1984], Social science concepts: A systematic analysis,
London, Sage. Schaefer, D. e Dillman, D.A. [1998], Development of a standard e-mail survey methodology: Results of an experiment, paper presented at the
American association on for pubblic opinion research. Schilling, J. [2006], On the pargmatics of qualitative assessment: Designing the process for content analysis, in
«European Journal of Psychological Assessment», 22, 1, pp. 28-37. Schmalleger, F. [1996], Trial of the century: People of the state of California vs. Orenthal James Simpson, paper-
back, August. Seale, C. [1999], The quality of qualitative research, London, Sage. Silverman, D. [2000], Doing qualitative research: A practical handbook, Lon-
don, Sage; trad. it. Come fare ricerca qualitativa, Roma, Carocci, 2002. [2005], Instances or sequences? Improving the state of the art of qualitative research, Forum Qualitative Sozialforschung/Forum: Qualitative Social Research (online), 6(3), art. 30, www.qualitative-research. net/fqs-texte/3 -05/05 -3 -30-e. htm. Smith, J.K. [1984], The problem of crite-
cs of qualitative research, grounded theory procedures and techniques,
London, Sage. Sussman, S., Burton, D., Dent, C., Stacy, A.W. e Flay B.R. [1991], Use of focus group in developing an adolescent tobacco use cessation program: collection norm effects, in «Journal of
Applied Social Psychology», 21, pp. 1772-1782.
ria for judging interpretative inquiry,
in «Educational Evaluation and Policy Analysis», 6, 4, pp. 379-391. Smith, J.K. e Heshuis, L. [1986], Clo-
Taylor, S.J. e Bogdan, R. [1998], Intro-
sing down the conversation: The end of the quantitative-qualitative debate amongst educati onal inquirers, in
York, John Wiley and Sons. Terrinoni, G., Alivemini, E e Russo, P.M. [2006], Monitoraggio della sperimenta-
«Educational Researcher», 15, 1, pp. 4-12. Smith, S. [1999], The Image of women
zione del progetto SIVADIS 2 (Sistema di valutazione dei dirigenti scolastici), Mi-
in film: Some suggestions for future research, in S. Thornham (a cura di), Feminist film theory: A reader, New
York, New York University Press, 1999. Spradley, J. [1979], The ethnographic interview, New York, Holt, Rinehart & Winston. Stake, R.E. [1995], The art of case study research, Thousand Oaks, Calif., Sage. Stebbins, R.A. [2001], Exploratory research in the social sciences, Thousand Oaks, Calif., Sage. Stirman, S.W. e Pennebaker, J.W. [2001], Word use in the poetry of suicidai and non-suicidal poets, in «Psychosomatic
Medicine», 63, pp. 517-522. Strauss, A.L. e Corbin, J. [1990], Basi-
duction to qualitative research methods: A guidebook and resource, New
lano, Angeli. Thomas, W.I. e Znaniecki, E [1927], The Polish peasant in Europe and America, New York, Knopf; trad. it. Il contadino polacco in Europa e in America, Milano,
Edizioni di Comunità, 1968, voll. Tomasi di Lampedusa, G. [1993], Racconti, Milano, Feltrinelli, pp. 25-26. Warner, W.L. [1959], The living and the dead: A study of the symbolic life
of Americans, New Heaven, Conn.,
Yale University Press. Weber, R.P. [1990],Basiccontentanalysis, 11 ed., Newbury Park, Calif., Sage. Whyte, W.E [1943], Street corner society: The social structure of an Italian slum,
Chicago, III., University of Chicago Press; trad. it. Little-Italy: uno slum italo-americano, Bari, Laterza, 1968. Yin, R.K. [1993], Applications of case study research, Newbury Park, Calif, Sage Publishing. [1995], Applications of case study research, Thousand Oaks, Calif., Sage, December. [2000], Case Study Evaluations: A Decade of Progress?, in A.L. Stuffelbaum, G.F. Madaus e T. Kellaghan (a cura di), Evaluation Models: Vi ewpoints on Educational and Human Services, Boston, Mass., Kluwer Aca-
demic Publishers. [2003], Case study research, design and methods, Newbury Park, Calif., Sage. Znaniecki, E [1934], The method of sociology, New York, Rinehart & Company.
Indice analitico
Accuratezza, 47, 48 Alpha di Krippendorff, 49, 160 Analisi del contenuto, 12, 23, 45, 47, 48, 75, 89-93, 97, 99, 100, 102, 105, 114, 116, 143-151, 154, 158, 160 delle concordanze, 109, 114-116, 130, 156, 160, 162 delle corrispondenze, 24, 100, 107, 109, 116, 118, 120-122, 124, 156, 157, 159, 160 delle frequenze, 91, 111, 116 mista, 12, 13, 144-146, 148, 154 multivariata, 100, 108 statistica, 12, 16, 20, 23, 29, 31, 100, 107, 108, 110, 114, 116, 118, 133, 135, 136, 143, 145, 150, 151, 154, 156, 160 Approccio bottom-up, 12, 90, 96, 100, 105, 116, 143, 144, 154 del significato attendibile, 12, 143, 144, 150, 151, 154, 158, 160 top-down, 90, 105 Attendibilità, 10-12, 33, 35, 44, 45, 47-51, 78, 91, 93, 97-99, 102, 114, 143-146, 150-152, 154, 160 esterna, 10, 45, 49, 51, 78 fra codificatori (o intercodificatore), 45, 48, 160 interna, 10, 45, 47, 51
interpersonale, 98 intracodificatore, 48 Attore sociale, 21, 26, 39 Campionamento, 63, 78, 91, 93, 94, 98, 99, 102, 145, 146 casuale semplice, 93, 94 casuale sistematico, 93, 94 casuale stratificato, 94
(Computer assisted quality data analysis), 93, 97, 100 CASIC (Computer assisted survey information collection), 64 CAPI (Computer assisted persona! inte rviewing), 60-62, 64
CAQDA
Audio CAPI, 61 CASI (Computer
assisted self administered interviewing), 60, 61, 64 CATI (Computer assisted telephone interviewing), 60-64 Centralized CATI, 64 Home CATI, 64 Cluster analysis, 100, 160, 163 Codebook, 48, 91, 97-100, 103-105, 145, 146, 148, 160 Codifica esplorativa, 91, 93, 95, 96, 102, 103, 145, 146 Codificatori, 45, 47, 48, 95-99, 102, 103, 160 Coefficienti di attendibilità intercodificatori, 48
180 INDICE ANALITICO
Contesto osservativo, 54, 55 Contributi assoluti, 121-123, 125, 157 Coordinate fattoriali, 121, 122, 125, 157 Coseno quadrato, 121, 122, 125, 126
Data mining, 24, 32, 129, 131, 132, 134, 141, 162, 163 Dati non strutturati (o qualitativi), 9, 10, 28, 31-34, 36 strutturati (o quantitativi), 28, 31, 32 Disaccordo intraosservatore (o incoerenza individuale), 47-49 Disegno della ricerca, 27, 73, 77 Documento, 11, 28, 32, 55, 67-70, 81-83, 87, 92, 129-131, 136, 160 privato, 68, 70 pubblico, 68, 70 Domande di ricerca, 74-76, 78, 79, 91, 92, 95, 100, 102, 108, 109, 127, 131, 132, 141, 146 Domande-stimolo, 57 Epistemologia (o riferimenti epistemologici) costruttivista, 16, 17 ermeneutica, 16 fenomenologica, 16 idealista, 16, 17 positivista, 16, 18 postmodernista, 16 postpositivista, 16, 18 realista, 16-18 Essenza, 19, 20 Focus group, 65-67, 70, 72, 82-87 online focus group, 67 Frequenza, 24, 44, 80, 91, 100, 103,107, 108, 110-119, 121, 125-127, 130, 131, 135139, 143, 152, 153, 157, 160, 162, 163 relativa, 121, 125, 126 Generalizzabilità, 27, 43, 44, 51, 72 Generalizzazione, 22, 24, 27, 31, 43, 44, 73 basata sulla frequenza, 44 basata sull'induzione analitica, 44 teorica, 44 Golden (o gold) standard, 40, 48
INDICE ANALITICO 181
Grounded Theory, 23 Idealismo (o visione idealista), 16, 17 Inchiesta, 16, 21, 23, 28, 44, 58, 59 Inerzia spiegata, 120, 121, 123 Inferenza, 12, 36, 39-41, 45, 89, 90, 92, 96, 99, 100, 105 Interazionismo simbolico, 18 Interviste, 11, 16, 21, 28, 30, 32, 35, 41-43, 56-60, 62-67, 70, 81-85, 87, 92, 101 asincrone (o offline), 65 elettroniche (cAwi, Computer assisted web interviewing), 59, 60, 64 faccia a faccia, 59-61, 65, 67 non standardizzate (informali o non direttive), 57, 59, 60, 65 sincrone (o in tempo reale), 64 standardizzate (formali o direttive), 57, 60 telefoniche, 60, 62 Modello dell'integrazione, 58 del riepilogo, 58 Obiettivo, 9, 10, 16, 21, 22, 24, 31-34, 49, 51,54, 55, 57, 58, 62, 70, 72-75, 82, 83, 90, 92, 98, 99, 102, 103, 116, 130, 131, 134-139, 144, 154 idiografico, 24 Oggettivo, 18, 36, 89, 90 Oggetto di studio, 9, 11, 13, 16, 19, 20, 22, 24, 26, 31-35, 37, 41, 53, 54, 57, 59, 60, 65, 66, 76, 79, 81-82, 90, 93, 94, 99, 116, 117, 150, 154 Osservazione, 11, 16, 21, 28, 32, 41, 45, 47, 50, 53, 54, 56, 70, 75, 81-83, 86, 87
Part-of-speech (Pos) tagging,
130 Percentuale di accordo osservato, 48 Personaggi centrali (stars), 54, 56 Probing, 57-59, 61, 65, 66 Procedure di convalida del rispondente, 38, 39 QDA Miner e Wordstat, 11, 158, 160, 161,
165 Questionario, 23, 28, 37, 43, 61, 63, 65, 82-87, 92, 101
Raccolta documentaria, 11, 67, 68, 82, 83 Ragionamento deduttivo, 23, 89, 90 induttivo, 12, 22, 23, 89, 90, 107, 114 logico, 22-24, 44 Realismo (o visione realista), 16-18 Resoconto verbatim, 46, 47 Ricerca confermativo-deduttiva, 22 esplorativa, 16, 21-24, 72, 73, 91, 93, 95, 96, 102, 103, 107, 108, 116, 129, 132, 133, 145, 146, 156 etnografica, 38, 45 idiografica, 16, 21, 22, 24, 26, 27, 31 induttiva, 22, 24 ipotetico-deduttiva, 22, 23 nomotetica, 16, 22, 24, 26, 27, 31 Riproducibilità, 47, 48 SAS (Statistical analysis system), Scheduling, 63
49
Tabelle di contingenza, 116-118, 123, 156, 162 lessicali, 116-118, 123, 156 Tecniche dello split-half, 95 di analisi dei casi devianti, 42 di analisi globale dei dati, 42 di comparazione continua, 42 di information retrieval, 129 di linguistica computazionale, 129 di network analysis, 134 Teoria psicanalitica del gioco di Melanie Klein, 45 Text mining, 12, 32, 129-136, 138, 139, 141, 143-146, 148-151, 154, 156, 160, 162, 163, 165 Text mining for Clementine, 135, 162, 163, 165 Triangolazione, 10, 40, 41, 71, 81, 82
Segmentazione con alberi classificazione, 100 Serendipity, 23 Significanti, 12, 89, 105, 107, 130
Unità di analisi, 37, 48, 74, 77-79, 91-93, 95, 96, 102, 105, 108-110, 116, 127, 131, 141, 143, 145, 146
SPAD (Système
Validazione convergente e discriminante, 40 Validità, 9-11, 19, 33, 35-38, 40-44, 51, 108, 127, 150 di contenuto, 37, 38 di costrutto, 41 di criterio, 40 semantica, 37, 38, 40, 51 strumentale, 37, 40, 41, 51, 150 teorica, 37, 41-43, 51 Valutazione, 10, 11, 36, 47, 51, 74, 77, 82, 86, 87, 96, 98, 99, 108, 109, 116, 121, 127, 131-134, 136, 141, 145, 150 formativa dell'attendibilità, 91, 98, 145, 146 sommativa dell'attendibilità, 91, 99,145, 146 Variabili, 23, 28, 32, 49, 94, 100, 108, 116, 117, 122, 131, 156 dipendenti, 28 indipendenti, 28
portable pour l' analyse des données), 108, 123, 155-160, 165 SPSS (Statistical package for the social sctences), 49, 162, 164 Stabilità, 47, 63 Statistica testuale, 12, 32, 107-111, 114, 116, 118, 136, 143, 144, 146, 148-151, 154, 156, 160 Studio dell'essenza delle cose, 19, 20 del significato, 12, 16, 19-21, 24, 27-29, 32, 36-38, 40, 41, 56-60, 69, 89-91, 96, 97, 102, 105, 107-110, 114-116, 130-134, 136, 141, 143, 144, 148, 150-152, 154, 158, 160, 163 di caso, 11, 42, 68, 70-74, 76, 77, 79, 81, 84, 87 descrittivo, 72-74, 76 esplicativo, 73, 74, 76 esplorativo e preparatorio, 72, 73 misto, 73, 74
Finito di stampare nel settembre 2008 dalla litosei, via rossini 10, rastignano, bologna www.litosei.com