mercoledì 20 marzo 2013

Privacy - 3: la statistica

Terza "puntata" sulla privacy, con la statistica come argomento.
Riassumendo, il concetto è che vengono usate delle statistiche per creare un profilo dell'utente. Tale profilo, che si amplierà e perfezionerà mano a mano che l'utente verrà "seguito" (=spiato) è quello che consente all'agente di inviare banner pubblicitari o spam specifici.
Ovviamente questo è solo un esempio, di tipo commerciale; il più diffuso, ma anche il più innocuo e meno preoccupante...


Appunti precedenti:
  1. Analisi dei dati
  2. Alcuni 'perchè'
Ricordo che l'utente è il soggetto utilizzatore del programma/servizio - internet nel caso più comune, una linea di connettività ancor più in generale (servizi POS, per esempio).
Viceversa l'agente è il meccanismo di monitoraggio. Può essere personificato, trattarsi quindi di una singola persona, un gruppo, un'azienda; oppure virtualizzato - forse il caso più comune - quindi un software, un meccanismo di controllo e monitoraggio dati, ecc..

Chiaramente l'agente virtuale fa sempre capo, magari anche dopo vari passaggi, ad uno fisico. E quello fisico-singolo fa praticamente sempre capo ad uno fisico-ente: un'azienda, un gruppo commerciale, un'ente pubblico o privato, ecc...


  • Uso della statistica
Un brevissimo accenno di tipo discorsivo, non preoccupatevi :D
Il concetto è semplicissimo: quello che l'agente non sa, lo suppone.
Questo può servire sia per arrivare all'obiettivo finale - parlando di un agente commerciale, per esempio l'obiettivo potrebbe essere il mandare un banner pubblicitario specifico - sia continuare il percorso euristico (lo tratteremo di seguito) in un punto dove rischia di interrompersi.
Per chiarezza, volendo definire brevemente il 'percorso euristico' diciamo che è una sorta di schema che contiene e mette in relazione dati anagrafici, gusti commerciali, tendenze sociali, credenze politiche e religiose dell'utente; esso si costruisce fondamentalmente coi dati "rubati" e con quelli statistici.

In sostanza, un buon agente la statistica la utilizza in mancanza di altri dati. Questo perchè, fortunatamente, le persone non sono tutte uguali e nemmeno coerenti; la compilazione di un determinato profilo di tipo statistico è sicuramente un grande aiuto per inquadrare ( = delimitare i confini d'indagine per) il soggetto, ma ha sempre i suoi margini (che possono anche essere piuttosto ampi) di errore.
Tali margini si riducono all'aumentare della conoscenza che ha l'agente sull'utente. Badate che ho usato specificamente il termine 'conoscenza' perchè implica una caratterizzazione di tipo quali-quantitativo, di cui parleremo più avanti.


  • Le tabelle statistiche
E' importante sapere che esistono tabelle statistiche per tutto. Possono avere carattere commerciale, sociale, politico, ecc...
Quelle commerciali sono sicuramente le più "riconosciute". Credo tutti sappiano che, per esempio, i pubblicitari si basano su una grossa mole di statistiche per cercare il grimaldello che scardini le 'serrature emotive'; detto semplicemente: parole e modi che ti convincano a comprare qualcosa.

Ma le tabelle contengono anche indagini più sottili, ovvero tendenze che non portino per forza direttamente alla volontà del soggetto, ma piuttosto a possibili coinvolgimenti, termine che qui uso per definire pensieri, opinioni, esigenze tipici di una certa 'area sociale' in cui si suppone di aver individuato il soggetto.
Esempio stupido ma per capire: se l'agente sa che abiti in un certo quartiere di una certa città, hai una determinata istruzione ed un certo reddito, frequenti persone che hanno a loro volta un certo tipo di attività, ecc... allora sicuramente da qualche parte c'è una tabella statistica che fornirà le diverse probabilità che tu abbia un certo orientamento politico piuttosto che un altro, oppure una certa opinione su una qualche tematica piuttosto che un altra, ecc...

Come detto prima, si parla per forza di cose di probabilità in quanto le variabili sono quasi infinite ed il pensiero umano risulta (per ora) insondabile oltre i livelli più superficiali. Ci sono persone nate e cresciute in quartieri "in" che si sono poi rivelati delinquenti della peggior specie, così come persone nate e cresciute in posti "poco raccomandabili" (per usare un'espressione tipica degli abitanti del citato quartiere "in") e magari con frequentazioni di tal specie, che crescendo sono diventate invece socialmente positive.
Tuttavia la statistica si basa fortemente sulla quantità, riducendo gli errori probabilistici mano a mano che sale il numero di dati. Chiaramente l'altra faccia della medaglia è che, all'aumentare dei dati e quindi dello spettro d'indagine, si incorre in una generalizzazione sempre più ampia, quindi più affidabile sui grandi numeri ma anche più grossolana.


  • La statistica come "ponte"
Questo è il motivo per cui un buon agente ricorre alla statistica solo in mancanza di altri dati. La statistica consente infatti di connettere due punti del percorso euristico che rimarrebbero altrimenti scollegati, ma al prezzo di incorrere in generalizzazioni probabilistiche.
Inoltre, come spessissimo accade nelle indagini e nelle ricerche, soprattutto quelle sociali, ha il vantaggio di accrescere se stessa. Infatti ogni volta che un agente entra a conoscenza di un dato certo che riguarda un singolo utente - o un certo gruppo di indagine collocato statisticamente -  va ad utilizzare quel dato per arricchire la tabella che lui stesso (e molti altri probabilmente) sta usando.

In breve: più ci spiano e meno hanno bisogno di spiarci al "ciclo" successivo, pur raggiungendo lo stesso grado di accuratezza.

Anche la massificazione sistematica di mode, pensieri, esigenze (spesso create ad-hoc dagli agenti stessi) aiuta moltissimo la ricerca statistica, riducendo sempre più le diversità.
Più un gruppo d'indagine è ampio ed omogeneo, infatti, e più semplice sarà da identificare e catalogare; di conseguenza, sarà anche più semplice da controllare - sia in senso passivo (sorvegliare), sia in senso attivo (comandare). Senza pensiero autonomo, senza carattere specifico ed individuale, ogni gruppo è di fatto un gregge: basta inquadrarne uno e si conoscono tutti.


  • Possibilità e pericoli
Come praticamente ogni cosa, anche la statistica non è altro che un mezzo, in questo caso d'indagine e di studio. Se sia positivo o meno non sta nel carattere del mezzo a deciderlo, ma nell'uso che se fa.

Per esempio, la relativa frammentarietà delle statistiche impedisce che ogni azienda, anche la più piccola, possa "in poche mosse" stillare profili anche molto precisi di diversi utenti.
Allo stesso tempo, però, sappiamo che il database globale epidemiologico (per esempio) è uno strumento fondamentale per combattere le malattie.
Purtroppo - e chiudo qui la divagazione - le difficoltà maggiori ovviamente si hanno nei Paesi più poveri ed isolati, che sono malauguratamente anche quelli maggiormente angustiati da tali flagelli. Anche in questo il software libero, il riciclaggio intelligente e le tutte le "prassi" collegate possono dare davvero una grossa mano a migliorare la situazione.

Tornando sulla privacy, la statistica (considerata a livello estremamente "alto", generico) viene influenzata principalmente da due fattori, entrambi già nominati:
  1. la varietà del campione considerato
  2. la disponibilità di dati su tale campione
Il primo punto è in stretta correlazione, tra le altre cose, con la questione del "pensiero autonomo" a cui si accennava.
Il secondo punto è ovviamente dipendente dalla mole di dati raccolti e disponibili al singolo agente, ma anche e in modo più preoccupante dalla possibilità di ogni agente di interagire con gli altrui dati.

Come detto a proposito della dicotomia mezzo-uso, anche qui il problema vero e proprio NON E' in effetti l'estensione e l'intreccio possibile dei dati condivisi, ma più che altro la qualità di tali dati.
Infatti, se prendiamo come esempio sempre il database epidemiologico, in esso vi si potranno ritrovare dati che "massificati" faranno da grande crogiolo statistico; e, per tale funzione, saranno in esso assenti tutti i dati inerenti alla privacy dei singoli, anche perchè questa non è d'aiuto (ma al massimo potrebbe essere d'ostacolo) per lo scopo prefisso.
Se, invece, a livello commerciale (e non solo) siamo costretti a salutare con sollievo una certa frammentarietà dei database in possesso delle aziende - che, per concorrenza (che singolarmente praticamente non esiste, ma esiste tuttavia come concorrenza tra i cartelli), li custodiscono gelosamente al riparo dall'altrui sguardo - è perchè tali database contengono invece proprio e soprattutto quei dati personali, oggetto di privacy, inutili a livello comunitario ma così ricercati come mezzo di ricatto/condizionamento commerciale.

Un altro motivo dunque per temere l'oligopolio commerciale, sempre più dilagante, dei grandi (enormi) gruppi aziendali multinazionali.
Come dicevo, infatti, le piccole aziende che si devono "costruire" delle tavole statistiche affidabili e "personalizzate" partendo dai bassi livelli - quelli delle tavole ritrovabili normalmente, sul web o sui libri o sulle riviste del settore, dati che per quanto verificati e specifici di un settore, sono per forza di cose troppo "politically correct" per determinare una reale differenza, in un mercato sempre più spietatamente concorrenziale - non saranno mai allo stesso livello dei grandi gruppi, che possono incrociare tabelle più grandi, varie, provenienti da diverse realtà e diversi sotto-settori.
Anche qui dunque, come nel caso dell'efficacia e della crescita della statistica, siamo in presenza di una sorta di ciclo auto-referenziale, ove chi ha di più (in questo caso, in termini di dati), conta di più, scopre di più e, alla fine, ottiene di più.

Nessun commento:

Posta un commento