Le relazioni nella blogosfera e il RDS
Dopo la discussione sulla mappa delle relazioni tra alcuni blog pubblicata da nòva 24 ho fatto un po’ di ricerche e ho sentito qualche metodologo (come Alberto Trobia, che ringrazio) per sondare la fattibilità di uno studio con tecniche rigorose per conoscere qualcosa di più su tali relazioni.
Lo scenario in cui ci troviamo (la blogosfera italiana) è abbastanza complesso perché non c’è accordo sui requisiti minimi per definire che cosa sia un blog (e quindi procedere allo studio delle relazioni relative al campione), non conosciamo la grandezza dell’universo di riferimento (il numero complessivo dei blog italiani), siamo in presenza di dati sulle relazioni “grezzi” (i link non hanno tutti lo stesso valore e non ci sono sistemi, almeno di larga adozione, che ci diano meta-informazioni sulle motivazioni che portano a effettuarli), esistono popolazioni nascoste difficili da identificare ma non trascurabili (i blogger che non usano i feed, che non usano gli aggregatori, che usano piattaforme minoritarie, che non sono iscritti a directory come BlogItalia eppure sono letti, commentati, partecipano a cluster di discussione ecc.).
Uno studio con un campione come quello della mappa esistente non è rigoroso (perché non tiene conto della complessità e della varietà della realtà presa in esame), ma anche uno studio rigoroso potrebbe essere molto parziale: utilizzare tecniche che rilevino soltanto la parte più accessibile dell’universo di riferimento potrebbe portare a un campione tendenzialmente rappresentativo ma relativo a una parte non rappresentativa dell’intero universo, quindi eventuali generalizzazioni non sarebbero possibili. L’esempio classico fatto da Heckathorn riguarda i sondaggi telefonici realizzati in America per le elezioni presidenziali: esistono soggetti (che utilizzano soltano il cellulare o Internet) con orientamenti molto diversi da coloro i quali sono raggiungibili per telefono fisso. Non è certo pensabile di spingerli all’utilizzo del telefono fisso; bisogna cambiare la tecnica d’indagine. Un mio precedente post era molto critico, ora tocca alla pars costruens.
Già da tempo pensavo che una tecnica di campionamento utilizzabile potesse essere il respondent driven sampling (RDS). Entro un po’ nel tecnico: il RDS combina il campionamento a valanga (snowball sampling), cioè quello in cui si parte da alcuni casi che ne indicano altri secondo dei criteri richiesti dal ricercatore e così via, con un modello matematico che pondera il campione per compensare le distorsioni date da una formazione non casuale (e non probabilistica) dello stesso. In termini pratici, pensavo di poter partire da un numero cospicuo di “semi” eterogenei, nel nostro caso blogger, che dovrebbero indicare (ricevendo eventali benefit, anche multilivello) altri blogger facenti parte del loro cluster e fornire alcune informazioni sulle caratteristiche delle relazioni che intrattengono. Per quante “ondate” dovrebbe proseguire questo campionamento? La teoria del piccolo mondo ci viene in soccorso supponendo che, essendo qualunque membro di una popolazione raggiungibile in sei passaggi, una copertura totale sarebbe possibile con sei ondate. Ciò è verosimile ma non manca di aspetti problematici. L’utilizzo di un metodo di campionamento network-based, come quello a valanga, con priorità posta sulla copertura più che sulla “validità” statistica, non è scevro da distorsioni che possono venire dal fatto che la maggior parte delle persone tende a intrattenere rapporti con i propri pari (per etnia, studi, reddito, interessi, piattaforma ecc.). Alcuni individui potrebbero essere sovra-rappresentati perché più strade portano a loro: il campione è decisamente tutto tranne che casuale. Il pregio di RDS sta qui: combina l’ampiezza di copertura del campione con la sua validità statistica. In sintesi, i partecipanti alla ricerca reclutano i propri pari e i ricercatori tengono traccia di chi ha reclutato chi e del numero di contatti sociali. Un modello matematico del processo di reclutamento (e un programma esistente) pondera infine il campione per compensare le distorsioni di percorsi di reclutamento non-casuali permettendo la stima delle caratteristiche del network che connette gli individui all’interno della popolazione e la stima delle proporzioni di alcuni gruppi sulla base della struttura del network stesso. Alcune limitazioni: la stima delle proporzioni e degli errori campionari derivabile dai dati ottenuti dal campione è tutt’altro che semplice e richiede procedure specifiche, la procedura di trasmissione dell’invito a partecipare potrebbe essere violata e le conseguenze di tale violazione sulle stime non sono chiare, la difficoltà nello stimare il numero di contatti potenzialmente contattabili da ciascun individuo che entra a fare parte del network può causare errori le cui conseguenze sono anch’esse poco chiare (Luca Meyer mi ha chiarito alcune di queste limitazioni e lo ringrazio). È necessaria una precisazione: ammesso che sia possibile una rappresentatività del campione (i metodologi ne discutono), in questo caso non si potrebbe parlare di campione rappresentativo (dallo studio del quale si potrebbero ottenere risultati generalizzabili all’universo).
In conclusione, uno studio rigoroso da cui si potrebbe trarre una mappa accurata e ponderata di una parte ampia della blogosfera italiana sarebbe da svolgere, secondo me, con questa tecnica. Ovviamente da ciò deriva che non si possa utilizzare uno spider e la necessarietà di una partecipazione dei blogger stessi (non senza problematicità). In alternativa si può puntare a mappature più limitate prendendo come base dinamiche di diffusione di alcuni fenomeni (attenzione, influenza, comportamenti d’acquisto, affinità ecc.). Ve la sentite? ;)
non ho capito: alla fine della storia dici che “ammesso che sia possibile una rappresentatività del campione, in questo caso non si potrebbe parlare di campione rappresentativo” e anche che dopo il processo avresti una mappa “accurata e ponderata di una parte AMPIA della blogosfera”, cioè le stesse critiche mosse a suo tempo alla metodologia di Blogbabel.
quindi: cui prodest?
Per una metodologia condivisa per conoscere meglio la blogsfera italica
Via Tony Siino
Lo scenario in cui ci troviamo (la blogosfera italiana) è abbastanza complesso perché non c’è accordo sui requisiti minimi per definire che cosa sia un blog (e quindi procedere allo studio delle relazioni relative al campione), …
Non so, sinceramente quanto un modello di questo tipo possa davvero cambiare la situazione…
Credo che anche aumentando i passaggi e cercando di risolvere una parte delle distorsioni ottenute a livello matematico resterebbero alcune incognite non trascurabili.
In primo luogo mi chiedo come si potrebbero mappare i blog che no entrano in connessione con altri. Essi dovrebbero essere segnalati direttamente, ma questo significa che ne avremmo solo una parte infima.
In secondo luogo io penso che la blogosfera esista come una serie di network minori non collegati tra loro. Come renderne conto se venisse a mancare, per qualsiasi ragione, l’anello di collegamento con questi. In altre parole, se io non conosco direttamente almeno uno dei membri che lo compongono l’intera community è tagliata fuori.
E partendo dalle mie personali conoscenze della rete, partendo dai blog che io frequento, posso sicuramente dire di fare parte di una ristrettissima comunità e fuori da essa davvero non saprei chi o cosa segnalare.
Un problema non trascurabile è che utilizziamo la rete per cercare qualcosi di simile a noi, escludendo il diverso a priori o quasi. Partendo da questo presupposto la metodologia fatica a funzionare mentre nella realtà per tutta una serie di motivi sociali essa arriva a coprire meglio il campo. (facciamoci caso, su internet non abbiamo o quasi compagni di classe, di lavoro o parenti che odiamo e che siamo costretti a frequentare, quindi non possiamo segnalarsi se non in casi particolari)
Mi sa che saremmo di nuovo al punto di partenza, pur avendo, senza dubbio, una mappatura migliore di quella precedente…
L’approccio umano alla Blogosfera
Pare che discussione “natalizia” portata avanti da Tony Siino sulla non rappresentatività della mappa di BlogBabel, abbia prodotto nello stesso Tony l’interesse per cercare dei metodi di valutazione diversi e più idonei alla situaz…
Ti ho risposto da me. ;)
Ad ogni modo rispondendo a Simone credo la retedi relazioni presenti sulla blogosfera sia così fitta da poter permettere a due persone di incontrarsi anche senza un collegamente diretto.
Io la vedo nello stesso modo con cui guardo la rete interent. Nodi e collegamenti.
Alla fine se non possiamo arrivare in un punto dalla strada più breve, ci si arriva comunque, anche se dobbiamo allungare un po’. Quello che dico è oltretutto supportato da una famosa teoria del 1929.
La serendipity risponde all’altro tuo dubbio. E’ vero che cerchiamo qualcosa di dimile a noi, ma quante volte ci imbattiamo in cose interessanti che non conoscevamo? Questo fa si che si allarghi il raggio delle relazioni. Facendo questo, cresce la possibilità di incontrare persone che, è vero che hanno interessi simili a noi, ma fortunatamente non hanno solo quelli. Mi spiego.
Chiunque ha degli interessi che per quanto possano essere simili, non saranno mai perfettamente combacianti. Questo fa si che io mi interessi si di web 2.0, blog e simili, ma anche di un particolare tipo di musica, di basket, della mia terra (la Basilicata), ecc.
Questa mia rete estesa di relazioni in diversi campi produce diversità. Ma è proprio questo fenomeno che permette di passare di sottorete in sottorete, creando una miriade di anelli di collegamenti tra questi.
Beh, non sto sostenendo che in rete è impossibile incontrarsi a meno che non avvenga un contatto diretto. Mi stavo chiedendo, piuttosto, se la modifica sostanziale tra i comportamenti reali e quelli digitali basti a coprire lo scarto.
Mi spiego meglio. In rete va tanto di moda il termine « serendipity », nella realtà no, come mai? Credo principalmente perché nella vita quotidiana siamo costretti per forza di cose a fare i conti con una marea di situazioni, oggetti, informazioni che non riteniamo importanti. Da questo ambiente comunque traiamo un sacco di spunti che non avremmo altrimenti avuto, ma è quotidiano, per cui la serendipity non ci stupisce neppure.
In rete invece fa furore. Come mai? Secondo me proprio perché le nostre frequentazioni in rete sono piuttosto consolidate e il comportamento umano unito alla tecnica di ricerca ci permette di bypassare gran parte di quello che potrebbe non interessarci. Di conseguenza diamo molto più valore a quando troviamo qualcosa di inaspettato. E parliamo di serendipity.
Conosco bene la teoria sociologica di cui parli, ma mi chiedo piuttosto se essa riesca comunque a rispondere ai criteri di cui sopra. Nella vita reale ci siamo tutti e per forza, nella vita digitale, a mio avviso, inseriamo solo un frame delle nostra personalità, alcuni nostri interessi, e questo potrebbe provocare una certa limitazione facendo si che una parte delle comunità esistenti potrebbero non essere toccate.
Se partiamo da questo presupposto arriviamo a non poter mai dire e il campione preso sarà rappresentativo, proprio perché non sappiamo quale è la reale dimensione del mondo di cui parliamo e non sappiamo chi sono i componenti.
Non scordiamoci che nella realtà il campione fa riferimento a un mondo che è gestito da entità superiori come gli stati che impongono una registrazione di base. Sarebbe possibile trarre un campione rappresentativo in realtà senza avere a priori l’anagrafe o i censimenti governativi? In rete tutto questo non lo possiamo sfruttare.
Non so, ripeto che questa prospettiva è senz’altro più valida di quelle precedenti, ma resta, obbligatoriamente, un po’ nel vuoto…
Tony, non mi è chiaro che cosa si vuole mappare e perché, ma mi è chiaro che a farlo bene è una faticaccia mostruosa…
Beh, Gaspar, le relazioni. :)
Tambu non è la stessa cosa. Forse ti sarebbe utile una rilettura di questo (lungo, lo so e mi scuso) post (e di quello precedente). ;)
Concordo anche io nella necessità prima di proseguire ogni altra analisi di chiarire bene gli obiettivi, chiedendoci che cosa si vuole mappare e per quali ragioni. Non sono sicuro che abbiate fatto un lavoro molto approfondito sugli obiettivi, perchè sono questi che influenzeranno le ricerche successive.
figurati, non è la lunghezza. Evidentemente è troppo difficile per me.
Anche io concordo sul definire quali siano le research questions prima di ragionare sul campione.
Lo snow-balling sampling ha il difetto che in una grande rete, richiederebbe un po’ di tempo e non da ovviamente alcuna garanzia di rapppresentivita’. Pero’ permetterebbe di identificare i nodi della blogosfera, in questo si, siamo simili alla teorie del small world, dove lo scopo era capire le differenze nelle reti sociali tra semplici connessioni e connettori.
Nella mia ricerca su blog e politica ho usato un campione di oltre 1000 degli utenti di Splinder, Cannocchiale e Dada.net perche’ non ero interessato a fare un mappa ma ha compredere alcune delle modalita’ d’uso dei blog per discutere di politica.
Se alcune delle differenze o dei risultati erano statisticamente significativi, visto che si trattava di processi e non di mappe, hanno un buona affidabilita’
L’idea di Tony mi pare ottima, al di la di condividere la prima parte del post, l’ unica cosa è che il progetto non è facile da fare.
Conoscendo Tony penso che ce la farà.
Diario di navigazione
Mappa o non mappa
Tony Siino fa un passo avanti nell’analisi della blogsfera italiana iniziata da Blogitalia e continuata dalla mappa di Blogbabel. In questo interessantissimo post pone le basi per una seria analisi statistica dell’oggetto. Consiglio a tutti…
Sicuramente concordo con te sul fatto che, non si scappa, il metodo del costruire “a mano” e non con un algoritmo, pur con tutti i limiti che presenta, è l’unico che può dare una mappa un minimo significativa di quello che c’è nei blog. Ma si pone comunque il problema di definire a priori, se non un obiettivo a priori, almeno una qualificazione della mappa che vai costruendo.
Mi spiego meglio con un esempio su di te.
Se la mappa dovesse indicare i blog che in qualche modo si relazionano per affinità di interessi professionali tu, nell’indicare la tua rete di relazioni, non potresti esimerti dal citare alcuni blog che leggi per, passami il termine, “lavoro”.
Se invece la mappa riguardasse le persone che in qualche modo leggi per amicizia o per diletto, i blog citati sicuramente sarebbero sicuramente, almeno in parte, diversi dai primi e non ti correrebbe l’obbligo di citare i primi.
Il punto quindi è che ogni blog ha più reti relazionali in funzione del vincolo che li lega agli altri blog e queste reti non coincidono mai del tutto ma non sono mai neanche degli insieme completamente disgiunti .
In ogni caso la soluzione sarebbe fare più mappe in funzione degli universi che si vuole descrivere.
Questo moltiplica x enne le difficoltà. Ma non mi sembra ci siano alternative
Dopo aver letto le varie reazioni provo ad aggiungere i miei 2 cents
1. Condivido in linea di massima quanto detto nell’ultimo commento. Ovvero senza conoscere l’universo di riferimento temo sia impossibile fare un campione statisticamente rappresentativo. Dunque in relazione all’oggetto blogosfera ogni nuova tecnica di campionamento può essere interessante ma non credo possa essere considerata migliore di un’altra dal punto di vista della rappresentatività statistica essendo questo concetto dipenente dalla conoscenza dell’universo (che non è possibile conoscere ed è profondamente dinamico);
2. Non sono sicuro che in sei passaggi si abbia alcuna garanzia di coprire la totalità della blogosfera. La teoria del piccolo mondo fa riferimento al fatto che un nodo è connesso con qualunque altro in meno di sei passaggi ma non offre alcuna garanzia che partendo da quel nodo, chiedendo di indicare altri nodi e iterando per sei volte il procedimento con la procedura a palla di neve si copra la totalità della rete. Ovviamente la percentuale di copertura dipende dal numero di nodi che si chiede di indicare a ciascun nodo.
3. Se il problema principale nel seguire i link consiste nel fatto che non è possibile riconoscere automaticamente se un sito è un blog o no, una possibile proposta di soluzione potrebbe essere quella di avvalersi per la procedura di campionamento di un sistema tipo Amazon Mechanical Turk pagando qualche cent per far riconoscere a qualcuno se un sito che gli viene presentato è un blog o meno.
Grazie Fabio per il tuo intervento (e grazie a tutti per gli altri commenti).
Quanto al punto uno concordo, però qui si mira a una tecnica che abbia risultati rigorosamente raggiunti, più che rappresentativi. Più rigorosi sarebbe migliori di quelli finora esistenti. Quanto al punto due credo che si possano aumentare i passaggi e monitorare bene il tutto tramite i metadati. Quanto al punto tre…diciamo che non va bene lo spider che utilizza i feed mentre andrebbe meglio uno spider che analizza l’HTML.
E’ davvero interessante questo post. Non mi permetto di commentare o di dare suggerimenti, perchè le uniche mie competenze derivano dai manuali di metodologia della ricerca sociale che sto studiando in qeusti giorni per un esame, però ho capito quasi tutto. La cosa straordinaria è che il 20 ho l’esame di teoria e tecnica dei nuovi media e due giorni dopo quello di emtodologia proprio con Trobia.