De Standaard: Een bug is niet in je computer gevlogen, hij is erin geprogrammeerd

Joost Vennekens published this article in De Standaard.

Woorden zijn belangrijk. Zeker als het gaat over dingen die fout lopen, en hoe verantwoordelijk we ons daarvoor voelen. Zo zeggen computerwetenschappers niet: “Oei, ik heb een fout gemaakt bij het programmeren”, maar ontdekken we een “bug” in de code. De oorsprong van deze uitdrukking is letterlijk: vorige generaties van computersystemen bevatten mechanische relays waarin al eens een verloren gevlogen mot kwam vast te zitten. Hedendaagse computers fungeren niet meer als insectenval, maar de beeldspraak blijft handig: zonder dat wij er iets mee te maken hadden, is er van buitenaf een probleem de computer in gevlogen. 

Toen ChatGPT in 2022 de wereld liet kennismaken met de kracht van Large Language Models (LLMs), kwam er ook meteen een nieuw eufemisme ons taalgebruik binnen: de hallucinatie. Ook die term is suggestief: LLMs zijn fundamenteel betrouwbaar, maar af en toe gaat er onverwachts iets mysterieus mis, een hallucinatie.

De realiteit is anders. Ook een ‘hallucinerend’ LLMs doet precies waarvoor het gemaakt is: het produceert tekst die er uitziet als een plausibel antwoord op een vraag. Of die plausibel-uitziende tekst ook iets zinvols betekent, daarvan heeft een LLM geen enkel begrip. Plausibele tekst met inhoudelijke fouten is dus geen uitzonderlijk falen van deze technologie, maar gewoon de normale werking ervan.

De marketing van bedrijven als OpenAI probeert graag de indruk te wekken dat de grote methodologische vraagstukken van AI al zijn opgelost, en dat er enkel nog nood is aan (veel) meer geld en rekentijd. In realiteit lijkt het echter eerder zo te zijn dat we momenteel nog helemaal niet weten welke combinatie van technologieën in staat zal zijn om een betrouwbare “Artificial General Intelligence” te bouwen, en dat het zelfs helemaal nog niet vaststaat dat LLMs daarin de hoofdrol zullen spelen. In een recent rapport gaf OpenAI aan dat ChatGPT-4.5 nog 37 procent van de tijd hallucineert bij het beantwoorden van hun eigen SimpleQA-benchmark – een substantiële verbetering ten opzichte van de 62 procent hallucinaties van bijvoorbeeld GPT-4o, maar nog steeds meer dan één fout antwoord voor elke twee juiste antwoorden. Dit verklaart misschien ook meteen waarom OpenAI zopas beslist heeft om ChatGPT-4.5 – één van hun grootste en duurste modellen – naar de achtergrond te schuiven, omdat het toch niet beter lijkt te werken dan kleinere en goedkopere modellen.

Misschien is dit meteen een mooie aanleiding om ook in ons taalgebruik vanaf nu wat meer te benoemen wat er echt aan de hand is. Een LLM gokt een stuk tekst dat plausibel klinkt, en soms bevat deze plausibel-klinkende tekst toevallig juiste informatie en soms, al even toevallig, is de informatie fout. Daar is niets verrassends of mysterieus aan, en het is helemaal niet nodig om daarvoor de term “hallucinatie” te introduceren als zonde-mot.