El Big Data es caracteritza per la Regla de les 5 V
Ramon Alcoberro
El primer model que es va plantejar en ètica dels algoritmes, i el primer pas en una ètica que discuteix qüestions vinculades a “mineria de dades” o Big Data, és bàsicament descriptiu. Les anomenades 5V, proposades per Douglas Laney, de la universitat d’Urbana, Illinois, expliquen quines són les característiques bàsiques de les dades massives i permeten fer un primer desplegament de la problemàtica ètica que s’obre al seu voltant. Cal saber que els treballs de recollida, selecció, organització i difusió de dades es mou pels criteris de:
1.- Volum: es mouen un nombre molt important de dades (com a poc de l’ordre de diversos milions) cosa que permet disposar d’una informació molt àmplia sobre comportaments de persones o de materials, sobre opinions de grups socials, fluxos, etc. Aquesta és una diferència molt important entre l’estadística tradicional i el Big Data. En estadística es treballa amb mostres que es consideren significatives del conjunt. En els algoritmes Big Data treballem amb la totalitat de les dades disponibles, que poden ser milions.
2.- Varietat: les dades es recullen a partir de tota mena de fonts (pagaments amb targeta de crèdit, telèfons mòbils amb geolocalització, xarxes socials, càmeres al carrer, informacions biomètriques, etc. Totes juntes permeten organitzar una gran diversitat de dades, en múltiples paràmetres, a partir de diferents fonts i diferents formats de manera que poden respondre a una gran quantitat d’usos per part d’empreses, Estats, individus... També hi ha una gran varietat d’usos (comercials o no, públics o privats, intercanviables o no, oberts o no, provinents d’objectes o de grups...).
3.- Velocitat: la rapidesa és tan gran en el tractament del flux de dades, que pot arribar fins a la instantaneïtat. Dades recollides en temps real es poden correlacionar entre sí per tal de donar respostes a problemes que sorgeixen sobre la marxa (per exemple, embussos en una autopista...).
4.- Veracitat: les dades que s’exploten han de ser absolutament fibles (pensem per exemple en com és important això en un GPS) i verificables, bàsicament perquè son recollides sense ròssec ideològic, amb procediments estadístics neutres i confiables. Per això els algoritmes han de poder ser verificats tant abans com després de la seva aplicació i mai haurien de produir ròssecs per raons de sexe, classe, raça i, encara menys, justificar-los ni amplificar-los mitjançant mostres d’entrenament Els sistemes informàtics acostumen a tenir una fase d'entrenament en què "aprenen" a detectar els patrons adequats i a actuar d'acord amb la seva orientació.
5.- Valor: les dades permeten augmentar l’eficàcia, la gestió, la velocitat de resposta, etc. Aquest valor, a més, es pot verificar, analitzar i rendibilitzar. Les dades especialment ens permeten preveure i planificar, que són qüestions essencials tant en política com en l’empresa i en la vida quotidiana. Com que primerament el valor de les dades és econòmic, hi ha, importants debats sobre l’aprofitament i l’administració (i de retruc sobre la propietat i la monetarització) del valor que es pugui derivar de l’aplicació de megadades. Però el valor de les dades va molt més enllà de l’economia perquè crea mentalitats i prefigura accions.
Sense aquestes 5 V, que impliquen integritat, exactitud i veracitat de les informacions recollides, el Big data no tindria el més mínim interès per part dels seus usuaris. Si usem programes informàtics potents no ho fem en virtut de motivacions estètiques, malgrat que els algoritmes poden contenir bellesa en ells mateixos, sinó per motivacions pragmàtiques.
Però és obvi que cadascuna de les 5 V impliquen problemes ètics importants, per exemple en àmbits com la salut o la gestió de conflictes. Les dades no són “fets”, perquè no poden exhaurir totes les implicacions d’un fet. En els fets hi ha sempre un context que les dades sovint ignoren. Una ètica dels Big Data no només ha de tenir en compte la complexa casuística de cadascuna de les 5 V, sinó també que aquestes dades s’extreuen amb la mínima participació humana possible. Les dades provenen sempre de màquines que actuen amb algoritmes molt complexos i on la subjectivitat hi té molt poc paper i, de fet, idealment no n’hauria de tenir gens. Però les dades i les màquines han d’estar al servei de les necessitats humanes i, per tant, cal una gestió ètica.