Big Data

Marc Cornelisse
23 jul 2021
5 minuten om te lezen

Wat kan ik weten? Wat moet ik doen? Wat mag ik hopen? Dat waren de vragen waarover Immanuel Kant filosofeerde. De antwoorden moesten allemaal bijdragen aan de door hem later geformuleerde vraag: Wat is de mens? De mens staat in de filosofie van Kant namelijk centraal. Hij was ervan overtuigd dat al het andere (denk aan de wereld om ons heen, de natuur, de wetmatigheden in die natuur en zelfs God) zich slechts door en in de mens liet kennen. Als we die laatste vraag voor onszelf willen beantwoorden, maken we ‘m vaak persoonlijker, namelijk: Wie ben ik? En die vraag is lastig te beantwoorden, misschien is het zelfs wel onmogelijk. De vraag is namelijk of er überhaupt een kern van ieder van ons te formuleren is op basis van een analyse van onze persoonlijke levensverhalen. Als dat al lukt, dan is dat waarschijnlijk op een hoog abstractieniveau in zeer algemene termen. Een actuele profielschets van jou ziet er immers ongetwijfeld anders uit dan die van tien jaar geleden. Wat is er hetzelfde gebleven?

Vandaag de dag ontkomen we er niet aan dat ook allerlei bedrijven en instanties naarstig opzoek zijn naar data over ons. Soms hebben we die gegevens zelf verstrekt, maar vaker laten we onbewust gegevens achter. Zo weet Google - dankzij Googlemaps - precies wanneer je waar geweest bent (en hoe lang), zonder dat je dat ergens hebt ingevoerd. En zo claimt Facebook - dankzij o.a. Whatsapp - dat het je beter kent dan je eigen partner. Telecomproviders registreren je belgedrag en het bedrijf van je browser houdt je surfgedrag en de zoektermen bij die je gebruikt. Daarnaast gebruiken we vaak ook nog een aantal slimme apparaten (smart devices), zoals je smartphone, Google-home, je thermostaat, sporthorloge, de beveiligingscamera’s en ga zo maar door. Al die ‘tools’ tezamen worden ‘het internet der dingen’ genoemd. Langs deze weg lekken we ook veel persoonlijke gegevens, zonder dat we daar toestemming voor hebben gegeven. En dan bestaat er nog een vorm van internetfraude, die ‘phishing’ wordt genoemd. Je wordt dan naar een valse website gelokt, die een kopie is van de echte website, om daar - nietsvermoedend - in te loggen met je inlognaam en wachtwoord, met je creditcardnummer of met je DigiD: diefstal van gegevens.

Zoals uit recentelijke nieuwsberichten blijkt, zijn databestanden goud waard. Veel bedrijven komen echt lam te liggen, zodra hun data wordt gehackt door ransomware. Zij zijn zelfs bereid om grote sommen geld neer te tellen om het slot op hun bestanden weer op te heffen. En op het dark web wordt driftig gehandeld in data. Data kan daar zelfs worden witgewassen. Als bedrijf A bijvoorbeeld niet gelegitimeerd is om specifieke gegevens van klanten te registreren, maar bedrijf B mag dat wel, dan kan bedrijf (of land) A dat onder bepaalde omstandigheden van bedrijf (of land) B kopen. Blijkbaar is het voor velen interessant om veel data te verzamelen.

Er is pas sprake van informatie als de bulk aan data betekenis krijgt. Computers met veel rekenkracht proberen patronen te herkennen en verbanden te leggen. In deze analysefase is het van groot belang dat de data betrouwbaar is. Dat is de reden dat er metadata over de data bekend moet zijn. Metadata is de informatie over de data die de analist moet weten alvorens hij ermee aan de slag gaat, zoals tijd & plaats van herkomst, de randvoorwaarden van een steekproef, de correctheid van de data, etc. Je zult begrijpen dat de metadata vaak te wensen overlaat. De analist gaat toch met de data aan de slag en ontwikkelt verschillende algoritmen. De slechten onder hen halen causaliteit en correlatie nogal eens door elkaar en komen tot conclusies als ‘Mensen met een blauw bankstel stemmen op een rechtse partij.’. Een correlatie wordt hier onterecht gepromoveerd tot een causaal verband. Hierdoor ontstaan er uiteraard veel vals negatieve resultaten. Bij dit voorbeeld is dat nog geen ramp, maar als de belastingdienst bij het toekennen van kindertoeslag uit gaat van ‘Iemand (met een buitenlandse achternaam) die een fout maakt bij het invullen van de aanvraag, is een fraudeur en moet hard worden aangepakt.’, dan weten we inmiddels dat het goed mis kan gaan. Een ander risico in de analysefase is het zelflerende vermogen van de ontwikkelde software. Daardoor kan namelijk de menselijke maat in de samenleving behoorlijk naar de achtergrond verdwijnen.

Er is bijna geen sector te bedenken, waarbij big data geen rol van betekenis speelt.

In de commerciële wereld is dat voor iedereen volgens mij wel evident. Of het nu gaat om de retail, het bankwezen (denk aan hypotheekverstrekkingen & leningen) of verzekeringsmaatschappijen, in al deze sectoren wil men graag beschikken over de profielschets van de (potentiële) klant. Daarmee kan men bij iedereen op maat hun product/dienst aanprijzen en naar gelang de behoeften van de klant reclames pushen.
Bij de politie probeert men op basis van informatie proactief te handelen. Politie wordt bijvoorbeeld ingezet op plaatsen in een uitgaansgebied of stadion, daar waar men de eerste symptomen van relletjes of vechtpartijen ziet. Aan de hand van onder andere gezichtsuitdrukkingen van de aanwezigen, leidt men af of de gemoederen verhit raken.
Bij justitie ontwikkelt men algoritmen die in staat zijn de strafmaat voor een schuldige te bepalen. Een klein voorbeeld: het blijkt dat zedendelinquenten onder de vijftig nogal eens recidief gedrag vertonen. Dat heeft uiteraard invloed op de sanctie die wordt opgelegd. Dit soort informatie wordt opgenomen in algoritmen. Hoe meer gegevens er bekend zijn, des te persoonlijker er gestraft kan worden.
In de gezondheidszorg heeft men inmiddels ook een goed beeld van wat wel en wat niet werkt bij een individuele patiënt. Ook kunnen aan de hand van bepaalde symptomen ziektebeelden al in een vroeg stadium gediagnosticeerd worden. Op basis van big data en goede algoritmen wordt er door de computer een behandelplan aan de arts voorgelegd.
In het publieke domein kunnen individuen zowel gevolgd als beoordeeld worden op hun sociale gedrag. In Nederland zal dat misschien zo’n vaart niet lopen, maar in China experimenteert men al met een zogenaamd ‘Social Credit System’, een persoonlijke gedragsscore waar je bonus- en strafpunten kunt krijgen (afhankelijk van je gedrag). Eén van de afleveringen van de Netflix serie ‘Black Mirror’ gaat over een wereld waarin mensen elkaar voortdurend moeten beoordelen. De score die je haalt is dan van invloed op je sociaaleconomische status. Het bepaalt wie je vrienden kunnen zijn, welke bedrijven in je geïnteresseerd zijn en nog veel meer. Ronduit eng.

Ongevraagd en ongemerkt ontvouwt het potentieel van big data zich. En zoals bij zoveel nieuwe ontwikkelingen gaan we er pas echt goed over nadenken, als er geen ontkomen meer aan is. Hoe lang duurde het niet alvorens we acceptabele gedragsregels voor het gebruik van smartphones hadden ontwikkeld? Vooral in het onderwijs heeft men daar lang mee geworsteld. Eén ding is zeker, het overal ongemerkt gecontroleerd kunnen worden, heeft invloed op ons gevoel van vrijheid, sterker nog: het beangstigt de mens.

Wie kan uiteindelijk het beste antwoord geven op de vraag ‘Wie ben ik?’?

Big Data

Opmerkingen

Ontvang automatisch mijn blogs