Big data

Sinds het internet populair is, zijn er zoekmachines. In het prille begin
voldeden die nog niet erg en werd er een “startpagina” gemaakt, waar
de meeste relevante links naar de populairste onderwerpen werden verzameld en
geordend getoond. Een Nederlandse vinding, die in korte tijd erg populair werd.
Bijna iedereen gebruikte “startpagina” wel als inderdaad de eerste
pagina bij internetgebruik. Het grote nadeel was het onderhoud van de pagina.
Wat wil de internetgebruiker zien? Beheer over de inhoud was een must van het
concept.

In de tijd werden de zoekmachines beter. Als je met een bepaalde term
zocht, kreeg je meer relevante antwoorden. En toen kwam Google. Opvallend aan
Google was vooral de snelheid. Daardoor was het maken van fouten in je zoektermen
ook geen probleem, want je kon het direct herstellen, door een nieuwe term in
te geven, zonder ergerlijk tijdverlies. Uiteraard waren bij Google de
zoekresultaten niet altijd goed, maar iedere gebruiker ontwikkelde een soort
gevoel, om de relevante van de
niet-relevante resultaten te scheiden. De startpagina, die structuur wilde
aanbrengen, voordat je ging zoeken verloor snel terrein, zeker toen het
internet veel te groot werd en daardoor nauwelijks meer te structureren. De
startpagina’s bestaan nog steeds, maar als een verzamelpunt rondom een
specifiek onderwerp. Startpagina werd verdrukt als landingspagina van het
internet en vervangen door (meestal) Google.

Als je binnen een groot bedrijf naar informatie kijkt, hadden we tot voor
kort niets geleerd van deze Google-ontwikkeling. Dat was meer iets voor
consumenten. Binnen een bedrijf is informatie in het algemeen slecht te vinden.
Vaak komt het omdat het bedrijf zijn data beschermt en zelfs onder zijn eigen
medewerkers de gestructureerde data spaarzaam wil verspreiden. Anderzijds omdat
grote bedrijven vele IT-systemen naast elkaar draaien en het moeilijk is over
deze systemen heen zoekmechanismen te maken. Vaak schermen technologische
platformen zichzelf af, om de bedrijven te bewegen uitbreidingen op hun
systeemlandschap bij een partij te houden. Te veel openheid kan als gevolg
hebben dat bedrijven voor onderdelen gaan shoppen en mogelijk uitwijken naar
concurrenten.

En dan hebben we het hier nog over zogenaamde gestructureerde data, waarbij
het juist simpel zou moeten zijn om het te tonen en te ordenen.

Het is dus wonderlijk dat de informatiebehoefte van een simpele internetgebruiker
zonder ervoor één cent te betalen razendsnel wordt vervuld, en dat bedrijven
met grote budgetten niet eens in staat zijn hun eigen informatiehuishouding te
openen. De oplossing wordt deels gevonden door zogenaamde datawarehouses in te
richten. Alle relevante computersystemen sturen hier periodiek gegevens naar
toe, of worden leeg gelezen, en het datawarehouse structureert alles. De
gebruiker krijgt een systeem om data te verzamelen of krijgt digitaal of op
papier een rapport.

Alle gegevens die niet binnen het bedrijf worden verzameld zijn niet
toegankelijk en dus al helemaal niet te mengen met de eigen data. Het is anders
wel handig als publiek beschikbare informatie gebruikt zou kunnen worden. Er
zijn op het publieke veel gegevens te vinden van je klanten. Zou je die kunnen
inzetten dan zou je als bedrijf doelgerichter en doelmatiger kunnen adviseren.
Dat kan beteken dat een advies rijker, persoonlijker en verrassender wordt en
daarmee omzet vergrotend kan werken.

Die ongestructureerde data in de boze buitenwereld was tot voor kort
slechts het domein van o.a. Google en Yahoo. Google heeft ontstellend veel
rekenkracht ter beschikking en slimme software om razendsnel resultaten te
tonen. Deze techniek – Hadoop – is sinds kort vrijgegeven, zodat ook andere
bedrijven gebruik kunnen maken van deze slimme software. Omdat ook de
bandbreedte, de opslagcapaciteit en de rekensnelheid van servers nog steeds
fors toenemen, is het nu mogelijk om deze ongestructureerde data -big data – te
gebruiken.

De ongestructureerde data komt van het internet. Met de social media, blog-
en websites zetten mensen heel veel gegevens over zichzelf op het internet.
Vaak gefragmenteerd, dat wil zeggen: via het ene kanaal wordt bijvoorbeeld iets
over de hobby verteld en op een ander kanaal weer iets over werk en
werkgerelateerde interesses. Als je met slimme software al deze kanalen kunt
combineren dan krijg je een aardig beeld van iemand, die mogelijk jouw potentiële
klant is. Met het gebruiken van deze ongestructureerde data zijn er veel
zakelijke kansen, maar hoe ver mag en kan je gaan?

Veel mensen zijn van mening dat ze niets te verbergen hebben en gedragen
zich als een digitale exhibitionist. Ze zetten hun gehele leven op het net en
vaak ook op het moment dat het gebeurt. Daarmee laten ze sporen na, die
opgepikt kunnen worden door iedereen, dus ook mensen met slechte bedoelingen.
Duidelijk is dat privacy en ethiek nog onontgonnen terreinen zijn in de
digitale wereld. In de opvoeding en op school worden de risico’s hiervan niet
onder de aandacht gebracht; vaak omdat de opvoeders en leraren zelf dit niet
inzien. Toen zij jong waren speelden dit soort risicoafwegingen totaal niet en
in geen enkele leermethode wordt hier melding van gemaakt.

Met een aantal simpele regels voor jezelf kun je een hoop risico’s
vermijden, maar dat laat onverlet dat iedereen alles wat je wel publiek naar
buiten brengt kan gaan combineren (mashups). Dat houdt in dat het dus kan
voorkomen dat een bedrijf, waarvan jij iets wil afnemen, al met een gerichte
aanbieding komt als je jezelf nog maar net hebt voorgesteld. Dat lijkt
overdreven, maar als bedrijven grip krijgen op de ‘big data’ zullen wij als
consumenten veel gerichter worden benaderd. Je ziet het al een beetje op het
internet met banners. De banners bestaan uit reclameboodschappen, die telkens
veranderen. Als je toevallig een offerte voor een nieuwe keuken hebt laten maken
via het internet, zul je zien dat in de banners allerlei keukenaanbiedingen
verschijnen. Deze informatie wordt nu nog afgeleid uit kleine digitale sporen
(cookies) die je achterlaat, maar bij inzet van ‘big data’ komt dit niet meer
direct van jezelf. Ook wat anderen over jou schrijven kan worden ingezet. Dit
kan nog grote consequenties tot gevolg hebben. De gehele reclamewereld zal zich
hierop gaan storten. Niet alleen op internet, maar ook via je mobieltje en de
interactieve TV, die in opkomst is.

Ouderwetse reclames op TV, radio en andere kanalen zullen hoe langer hoe
meer alleen bedoeld zijn om naamsbekendheid te vergroten. Specifieke
productaanbiedingen zullen gericht worden aangeboden. Je ziet het al een met de
‘Appie’ app van Albert Heijn voor iPhone en iPad. Weliswaar worden de
aanbiedingen gericht gestuurd vanwege de door Albert Heijn vergaarde informatie
via de bonuskaart, maar als daar nog alle publieke data bij komt die over jou
als klant beschikbaar is, dan kunnen de aanbiedingen nog meer toegesneden
worden.

Hoe dit zich verder ontwikkelt, zal de toekomst uitwijzen. Maar dat er
ethische vraagstukken en gevoel van privacy- inbreuken zullen ontstaan over het
gebruik van big data is evident. De vraag is alleen hoever de politiek zal
ingrijpen of dat het systeem zal blijken te beschikken over een zelfreinigend
vermogen? We
zullen zien.

Rinus Krijnen

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *