Hoe data het heeft laten afweten tijdens de Amerikaanse presidentsverkiezingen

Hoe data het heeft laten afweten tijdens de Amerikaanse presidentsverkiezingen

Update: Pink Elephant Business Intelligence is sinds 01-01-2020 verder onder de naam 2Foqus B.V. en is geen onderdeel meer is van Pink Elephant. Bezoek de nieuwe website of volg 2Foqus op LinkedIn.

8 november 2016: Een moeilijke nacht voor cijferfanaten. En voor het grote vertrouwen dat mensen op allerlei gebieden – zaken, politiek, sport en wetenschap – hebben gesteld in de kracht van data.

Donald J. Trump’s overwinning stond haaks op vrijwel alle belangrijke prognoses – en haalde daarmee de overtuiging onderuit dat het analyseren van grote hoeveelheden data tot accurate voorspellingen kan leiden. De kiezers hebben laten zien hoezeer predictive analytics, en het voorspellen van verkiezingen in het bijzonder, nog in de kinderschoenen staat. Bij sommige mensen is wellicht ten onrechte de indruk gewekt dat Hillary Clinton verzekerd was van de overwinning doordat het bij sommige voorspellingen ontbrak aan de context met als gevolg potentieel grote foutmarges.

“Het heeft alles te maken met te hoge verwachtingen van de nauwkeurigheid,” zei Dr. Pradeep Mutalik, een onderzoekswetenschapper aan het Yale Center for Medical Informatics, die berekende dat sommige stemmodellen 15 tot 20 procent zouden kunnen afwijken.

Nagenoeg alle belangrijke verkiezingsanalisten, inclusief de site van Nate Silver (FiveThirtyEight), The New York Times Upshot en het Princeton Election Consortium, schatten de kansen op overwinning voor Clinton in tussen de 70 en 99 procent.

Het voorspellen van verkiezingsuitslagen is slechts een klein voorbeeld van een verandering die inmiddels branche-overschrijdend zichtbaar is en waarbij er een obsessie te zien is voor data, de waarde ervan en de potentie deze data te gebruiken voor inzicht in kostenbesparingen en winstgevendheid. Het is een ‘behind-the-scenes’ technologie die de stille motor is achter alles, van de advertenties die mensen online zien tot miljardenovernames.

Voorbeelden ervan zijn te vinden van Silicon Valley tot industriegebieden. Microsoft bijvoorbeeld, betaalt meer dan 26 miljard dollar aan LinkedIn voor met name diens database met persoonlijke profielen en zakelijke connecties van meer dan 400 miljoen mensen. General Electric zet daarentegen, als fabrikant, hoog in op het verhogen van de efficiency en winstgevendheid van zijn straalmotoren en andere apparaten door middel van ‘data genererende sensoren’.

Data science, een vooruitgang met bijwerkingen

Data science is echter een technologische vooruitgang met bijwerkingen. Het kan zaken meer dan ooit helpen doorzien, maar kan tegelijkertijd een onhandig instrument zijn waarbij het ontbreekt aan context en nuance. Allerlei bedrijven en instanties gebruiken data stilletjes op de achtergrond om voorspellingen te doen over menselijk gedrag. Maar slechts sporadisch – zoals met de resultaten van de laatste presidentsverkiezingen – vangen consumenten een glimp op van hoe deze formules werken en in welke mate het verkeerd kan gaan.

Google Flu Trends leek bijvoorbeeld een enorm succes te zijn op het gebied van big data voorkennis, door het opsporen van griepuitbraken op basis van trends in griep-gerelateerde zoektermen. In 2012-13 werd het aantal griepgevallen echter aanzienlijk overschat.

Daarnaast werd er dit jaar door Facebook’s algoritme een foto verwijderd, geplaatst door een Noorse schrijver, van het voor napalmbommen wegrennende naakte meisje. De softwarecode constateerde een overtreding van het beleid dat het sociale netwerk hanteert op het gebied van kinderporno en zag niet dat het een iconische foto betrof van de Vietnamoorlog en van menselijk lijden.

En een Microsoft chat bot, die als doel had gespreksvaardigheden te verwerven door online tekst mining, werd dit jaar al snel uit dienst genomen nadat zijn zelflerende algoritme racistische opmerkingen begon te genereren.

Zelfs goedbedoelde pogingen om data-analyse in te zetten voor het algemeen maatschappelijk nut, kunnen een averechts effect hebben. Twee jaar geleden ontwikkelden de Samaritans, een Brits initiatief voor de preventie van zelfdoding, een gratis app waarmee mensen geïnformeerd konden worden wanneer iemand die ze op Twitter volgden potentieel suïcidale opmerkingen plaatste zoals ‘haat mezelf’ en ‘zat om alleen te zijn’. De app werd al snel verwijderd na klachten van mensen die waarschuwden dat het gebruikt kon worden om gebruikers lastig te vallen op hun meest kwetsbare momenten.

De mislukte verkiezingsprognoses van begin november wijzen erop dat de haast om data te benutten veel sterker is dan het vermogen om de grenzen ervan te onderkennen.

“De peilingen zaten er nooit eerder zo naast als tijdens het huidige verkiezingsjaar,” zegt Sam Wang, hoogleraar neurowetenschappen aan Princeton University en medeoprichter van het Princeton Election Consortium. Hij speculeert dat in de peilingen de republikeinse loyalisten, die in eerste instantie hebben toegezegd niet voor Trump te stemmen maar in het stemhokje van gedachten zijn veranderd, niet in ogenschouw zijn genomen.

Teveel haast bij data gestuurde besluitvorming

Buiten de verkiezingen zijn er grotere vraagtekens te plaatsen bij de haast om data gestuurde besluitvorming in alle geledingen van de economie en de maatschappij te omarmen.

Het enthousiasme voor big data is aangewakkerd door de succesverhalen van bedrijven zoals Google, Amazon en Facebook. Deze digitale krachtpatsers verzamelen enorme hoeveelheden gebruikersdata door de inzet van slimme software in zoekopdrachten, op sociale netwerken en bij online commercie. Data is de brandstof en algoritmes, afkomstig uit de koker van de kunstmatige intelligentie, zijn de motor.

De initiële toepassing van de technologie was gericht op het verbeteren van de verkoopkansen – door gerichte advertenties, gepersonaliseerde marketing en productaanbevelingen. Maar big data besluitvorming wordt meer en meer omarmd door alle bedrijfstakken en ingezet om besluiten te nemen die een wezenlijke invloed hebben op het leven van mensen – zoals ondersteuning bij het stellen van medische diagnoses, de werving van personeel en goedkeuring van leningen.

Data experts zeggen dat het gevaar schuilt in een te groot vertrouwen in de data-analyses, zonder te begrijpen wat de beperkingen daarvan zijn en zonder in te zien wat de mogelijk gebrekkige veronderstellingen zijn van de mensen die de voorspellende modellen hebben gebouwd.

De technologie kan enorm nuttig zijn. “Maar wat voorop staat is dat we moeten begrijpen dat data science een instrument is dat niet noodzakelijkerwijs antwoorden geeft als wel waarschijnlijkheden,” zegt Erik Brynjolfsson, hoogleraar aan de Sloan School of Management aan de Massachusetts Institute of Technology.

Dhr. Brynjolfsson zegt dat mensen vaak niet begrijpen dat wanneer de kans dat iets gebeurt 70% is, er tevens een kans van 30% is dat het niet gebeurt. De verkiezingsuitslag, zegt hij, is ‘niet echt een schok voor data science en statistieken. Dit is hoe het werkt.”

Dus, wat is er gebeurd met de verkiezingsdata en algoritmes? Het lijkt erop dat het antwoord een combinatie is van de tekortkomingen in het peilen, analyseren en interpreteren, misschien in zowel de manier waarop de getallen werden gepresenteerd als hoe deze werden begrepen door het publiek.

Dhr. Silver, oprichter van de site FiveThirtyEight, reageerde niet meteen op een mail waarin om commentaar werd gevraagd. Amanda Cox, redacteur van de site The Upshot, en Dhr. Wang van het Princeton Election Consortium gaven aan dat het onderschatten van Trump’s kansen op de overwinning grotendeels te wijten is aan de fouten in de landelijke peilingen.

Datawetenschappers geven aan dat naast de fouten in de peilingen, de onjuistheden in de voorspellingen ook veroorzaakt kunnen zijn door de inherente zwakte van de verkiezingsmodellen. Voorafgaand aan de verkiezing gebruiken de voorspellers een combinatie van historische stemgegevens en data uit recente peilingen om de overwinningskansen van een kandidaat te berekenen. Sommigen laten ook andere variabelen meewegen; zoals het toekennen van een hoger belang aan een kandidaat die reeds ambtsdrager is.

Maar zelfs met de beschikbaarheid van decennia aan stemgegevens, is het moeilijk voor voorspellers om maanden of weken voor de verkiezingen met een grote mate van nauwkeurigheid de overwinningskansen van een kandidaat te bepalen. Dr. Mutalik van Yale vergeleek verkiezingsprognoses met weersverwachtingen:

“Zelfs met de allerbeste modellen is het moeilijk om meer dan 10 dagen vooruit het weer te voorspellen omdat er zoveel kleine veranderingen zijn die grote veranderingen teweeg kunnen brengen,” zegt Dr. Mutalik. “In de wiskunde staat dit bekend als chaos.”

In tegenstelling tot weersverwachtingen houden de huidige verkiezingsmodellen echter meestal slechts rekening met enkele decennia aan data. En het wijzigen van de parameters van die dataset kan een aanzienlijk effect hebben op de berekeningen.

Het model van FiveThirtyEight is bijvoorbeeld gebaseerd en geijkt op parlementsverkiezingen sinds het jaar 1972. Op 24 oktober schatte dat model de overwinningskansen van Clinton in op 85 procent. Toen het model echter door de site werd herijkt naar meer recentere stemgegevens (data tot het jaar 2000), stegen de kansen van Clinton naar 95 procent. Dat liet Dhr. Silver weten op zijn blog.

Analisten zeggen daarnaast dat het andere grote probleem gedurende de laatste verkiezingen ligt in het feit dat sommige landelijke stemgegevens onjuist waren. Recente stemgegevens uit Wisconsin lieten namelijk een duidelijke voorsprong zien van Clinton op Trump. En verkiezingsmodellen gingen af op die informatie voor hun voorspellingen. Groot Brittannië ondervond soortgelijke dwalingen toen de peilingen ten onrechte voorspelden dat men in juni zou stemmen om in de Europese Unie te blijven.

“We zouden allemaal beter af zijn wanneer we terug konden gaan naar de tijd waarin de berichtgeving nog ging over de kandidaten, de partijen en de politieke vraagstukken in plaats van de onophoudelijke verslaglegging van elke kleine wijziging in de peilingen,” zegt Thomas E. Mann, een verkiezingsexpert aan de Brookings Institution. “De peilingen zijn verslavend en het zorgt ervoor dat we het doel niet meer voor ogen houden.”

Bron: The New York Times

Gerelateerde artikelen