Binnen tien jaar leren computers óns ethisch redeneren

Drie dagen geleden gebeurde er iets ontzettend belangrijks voor debatexperts, beroepsdebaters en de mensheid in het algemeen: één van de beste oud-wedstrijddebaters in de wereld, Harish Natarajan, versloeg een door IBM gebouwde debat-supercomputer. Het hele event kun je hier terugkijken:

Wat maakte dit moment zo bijzonder? En waarom betekent dit debat dat computers ons binnen tien jaar leren ethisch redeneren? 

Het wedstrijddebat als ideaalspraak

Laten we beginnen met de setting: de beide debaters nemen het tegen elkaar op in een wedstrijddebat. Taalfilosofisch bezien is dat een uniek fenomeen: hier staan twee sprekers tegenover elkaar, die zelf geen enkel belang hebben bij de zaak die ze bediscussiëren. Natarajan is geen politicus en kreeg zowel het onderwerp als de kant die hij moest verdedigen (namelijk: tegen de stelling dat de overheid voorschool moet subsidiëren) pas vijftien minuten voorafgaand aan het debat te horen. De supercomputer is geen mens, zal geen kinderen krijgen en zal zich dus sowieso nooit persoonlijk druk hoeven maken over de issues in het onderwijs.

Robots en kinderen gaan sowieso niet goed samen

Het is dus een hoog kunstmatige situatie, waarin de beide debaters met elkaar het gesprek aangaan. En juist die kunstmatigheid heeft een belangrijk gevolg: ze kunnen de stelling alleen maar onderbouwen of afkraken met inhoudelijke argumenten die een redelijk universaliseerbare geldingskracht hebben. Schijnargumenten en drogredenen zijn door die kunstmatige situatie gewoonweg niet effectief. Neem bijvoorbeeld de drogreden van het dreigement: toen Öztürk recentelijk De Graaf in de Tweede Kamer persoonlijk aanviel, was het antwoord van De Graaf dat hij Öztürk ‘zou komen halen’.

Van beide kanten lelijk beargumenteerd, want niemand verandert hierdoor van mening over waar het debat ook maar over ging (sterker nog: niemand weet nog dat het ging over mogelijke bijstandsfraude).  Maar ze riepen dit omdat ze abuisievelijk dachten dat het óf de ander, óf het publiek juist wel zou overtuigen. Ze werden kwaad omdat er persoonlijke belangen in het debat werden getrokken, en die persoonlijke belangen konden er ook in getrokken wórden. In een kunstmatige setting kan dat niet.

Het is niet voor niets dat juist twee van de belangrijkste politiek filosofen van de twintigste eeuw hebben bedacht dat een kunstmatige debatsetting de sleutel was tot goed ethisch redeneren: John Rawls en Jürgen Habermas. Zo vroeg John Rawls aan mensen om vanachter een ‘sluier van onwetendheid’ politieke keuzes te maken. Die sluier hield in dat je de persoonlijke details over jezelf moest wegdenken: of je man of vrouw bent, oud of jong, rijk of arm moest je allemaal ‘vergeten’ bij het redeneren over beleid. Vanuit zo’n perspectief (Rawls noemde dat ‘the original position’) vallen de puzzelstukjes van veel ingewikkelde beleidskwesties ineens op hun plek: natuurlijk ben je dan voor gelijkheid tussen man en vrouw, want je hebt nu ineens geen garantie meer dat jij profiteert van een (impliciet of expliciet) patriarchaal systeem.

Juist door zijn vreemdheid eigenlijk heel intiem, zo’n ‘original position’

Het wedstrijddebat zou je kunnen zien als een implementatie van zo’n ‘original position’, of, zoals Habermas het noemde, een ‘ideal speech situation’. Een imperfecte implementatie misschien, want ook het wedstrijddebat is gevoelig voor modieuze argumentatie en debatstijlen, maar in ieder geval een betere implementatie dan de Tweede Kamer, zo bleek bij het debat tussen Öztürk en De Graaf. In ieder geval een implementatie die de beide sprekers ertoe dwingt om te zoeken naar argumentatie naar de ethisch zuivere argumentatie die de heren filosofen zo graag wilden. Dat beide sprekers een andere manier hebben om daar te komen (Harish Natarajan via een een combinatie van ervaring en talent, de supercomputer via uitgebreide statistische en tekstanalyses van afgelopen debatten) maakt dan weinig meer uit: de uitkomst van het leerproces is immers vergelijkbaar.

En die uitkomst is voor de computer, voor AI-nerds en voor ons mensen interessant: want ondanks dat de computer nu nog niet wint, lijkt die zielloze zuil tóch iets te doen wat verdomd veel lijkt op wat wij mensen ‘ethisch redeneren’ noemen. Sterker nog: op hoofdlijnen doet de computer in haar gekozen argumentatielijn het schijnbaar slimmer en beter dan menig Brexiteer, Trump-stemmer of radicaal anti-vaxx-moeder.

Hoe moet je mensen en computers vergelijken?

Maar is dat wel echt zo? Wat doet die computer dan dat zo lijkt op ethisch redeneren – zoveel dat het daar nauwelijks van te onderscheiden is? Er zijn twee manieren om daarnaar te kijken: van onder de motorkap en van buiten, naar het resultaat.

Van onder de motorkap legt de programmeur uit wat deze machine doet: het beschikt over mega-grote database van nieuwsartikelen en beleidsonderzoek. Het vertaalt menselijke spraak en probeert er behapbare informatie van te maken, en genereert dan ideeën voor hoofdlijnen van argumentatie om die vervolgens te verwerken in een speech. Één niveau dieper stikt het van de machine learning-algoritmes die al die hoofdtaken allemaal concreet uitvoeren.

Een criticus zou zeggen dat dát een essentieel verschil is: de machine doet niets anders dan statistische modellen bouwen op een bult met tekst, want dat is in essentie wat ‘machine learning’ is. Een mens doet iets heel anders: die begrijpt waar de ander heen wil, en reageert daar vervolgens op.

Ik hoor wat je zegt maar heb er zo mijn eigen redenen voor, Dave

Alleen de vraag is of dat bezwaar wel houdt snijdt: we hebben nu nog helemaal geen idee wat onze hersenen doen wanneer ze dat mysterieuze ‘begrijpen’ aan het doen zijn. Als je een geloof in een ziel voor deze empirisch-wetenschappelijke discussie even tussen haakjes zet, dan blijft over dat er een bruingrijze kwab bestaand uit een bizar veel netwerken van neuronen druk bezig is om dat ‘begrijpen’ uit te oefenen. Maar wie weet doen die netwerken in die bruingrijze kwab uiteindelijk één niveautje hoger wel exact hetzelfde: statistisch modelleren van wat er binnen komt, om dan vervolgens de gevonden wetmatigheden toe te passen bij de productie van nieuwe ‘output’. En als ons brein uiteindelijk iets vrijwel vergelijkbaars doet, hoe kunnen we dan blijven beweren dat wij wel aan dat ‘begrijpen’ doen, maar de computer niet?

Omdat we nu niet weten hoe ons brein precies de geestelijke activiteit van ‘begrijpen’ produceert, is er een andere manier van kijken naar wat een computer doet. Kunstmatige-intelligentieerds kennen deze manier van kijken als de ‘Turing test’, vernoemd naar de intellectuele vader van de computerrevolutie, Alan Turing. Deze stelt dat als je in gesprek bent met iemand die een machine blijkt te zijn, bijvoorbeeld via een chatscherm, en je naar beste eer en geweten écht niet kunt ontdekken of je van doen hebt met een mens of machine, dat je dan moet concluderen dat de betreffende machine equivalent is aan een mens. Je kijkt dan dus gewoon naar de zinnen  die computer uitspreekt, en het gedrag in de conversatie: als die zinnen en dat conversatiegedrag niet te onderscheiden zijn van mensen, dan heb je een kunstmatige intelligentie te pakken die het net zo goed doet als mensen.

Hoe scoort deze computer dan bij vergeleken mensen?

Gegeven die achtergrond kun je nu naar het debat kijken met de bril van een jurylid van een internationaal debattoernooi. Iemand die bedreven is in het beoordelen van de redeneringen zoals die in deze (imperfecte) implementatie van een ideaalspraaksituatie horen voor te komen. Heb je nooit eerder zo’n debat gezien, kijk dan eerst eens hier: een WK-finale waar toevallig ook Harish Natarajan in stond:

Of kijk eens naar de finale van Europese Kampioenschappen in 2010, waar Harish ook in stond (en die toevallig in de Westerkerk in Amsterdam plaatsvond (de robot in mij denk nu: ‘ik weet hoe mensen werken, breng het naar Nederland, zo’n voorbeeld, dan zal De Echte Nederlander er eerder op klikken!’):

Het eerste verschil, als je deze debatten vergelijkt met het computerdebat, is dat de computer er hier en daar toch nog flink wat rare zinnen doorheen gooit. Bijvoorbeeld: het is niet helemaal goed te verstaan vanwege de geluidsopname, maar het lijkt erop dat in het begin van haar eerste speech de computer roept ‘nature based preschools are powerful interpretive programs’ (ik laat me graag corrigeren als de computer iets anders blijkt te zeggen hoor). Zo’n zin is weliswaar grammaticaal correct, maar iedere taalgebruiker herkent dit als nonsens naar het Chomskyaanse voorbeeld van ‘colorless green ideas sleep furiously‘. De echte debaters in de voorbeelddebatten doen het eerder andersom: ze verhaspelen de grammatica af en toe, of hakkelen een beetje, omdat hun brein een planningsfoutje maakte bij het produceren van een zin.

Het tweede verschil zit hem in de mate waarin de sprekers op elkaar reageren. Onder wedstrijddebaters heet dat ‘engagement’. De computer houdt een voor een wedstrijddebat zoals dit acceptabele speech, helemaal als je de betekenisloze zinnen wegdenkt. Pas bij haar tweede speech gaat de computer volledig de mist in, maar dan ook volledig: ze vat de argumentatiestrategie van Harish in zijn eerste beurt volledig verkeerd samen en laat die lijn dan vervolgens ook helemaal liggen. In plaats daarvan pleegt ze een herhaling van zetten en herhaalt ze weer op hoofdlijnen de argumentatie uit haar eerste beurt. Het is overigens aardig om te zien dat Harish dit doorheeft: hij heeft voor de rest van het debat bewust een vrij uitdrukkingsloos gezicht, dus de kleine uitdrukking van geamuseerde verbazing die wel over zijn gezicht trekt op 25:51 is veelzeggend: was dit een echt debat geweest, zie je hem denken, dan had hij nu gewonnen.

Natuurlijk is er ook verschil in intonatie en dictie. De vraag is in hoeverre je dat de computer moet verwijten. Het laatste belangrijke verschil ligt dan in de coherentie en consistentie. Zo zegt de computer aan het begin van het debat bijvoorbeeld dat dit debat méér is dan een financieel debat, maar eindigt ze door te zeggen ‘financiële onderwerpen’ beloofd had en die ook geleverd had. Regelmatig kondigt ze twee subpunten aan maar doet er dan drie of vier.  Dit soort ‘metadiscours’ is iets wat de meest bedreven debaters tot in de puntjes beheersen.

De computer verliest dit debat wat mij betreft vooral vanwege het gebrek aan engagement. Maar dat gebrek aan engagement moet ons niet afleiden van wat ze in eerste instantie wel goed doet: in haar eerste beurt geeft ze een simpel en stevig argumentatielijn: we moeten voorscholen subsidiëren, want empirisch onderzoek laat zien dat voorscholen positieve effecten hebben (zoals…).

Die argumentatielijn is misschien niet wat je zou verwachten van een topdebater in die positie. Maar vergelijk het eens met een gemiddeld mens die nog nooit van wedstrijddebatteren gehoord had: dan is het eigenlijk best goed. Niet briljant, maar een goede eerste stap waar goed op voort te bouwen valt. Meer nog, de computer probeert hier en daar zelfs een grapje te maken over de situatie en doet in ieder geval een poging tot metadiscours – iets waar de meeste beginnende debaters schandelijk in falen.

En dus: gezien hoe snel algoritmes en supercomputers zich kunnen ontwikkelen, en gezien hoe goed een computer zich nu al staande houdt in een debat tegen een menselijke debatexpert, is de conclusie duidelijk: het gaat niet lang meer duren voordat computers dit minstens net zo goed doen als de beste menselijke debaters. En omdat dit gekke, kunstmatige spelletje de grond vormt waarop ethisch redeneren tot bloei komt, betekent dit dat ze dan dus ook minstens net zo goed kunnen ethisch redeneren als wijzelf.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *