Deepfakes & misleiding tegen AI-systemen
Wanneer je “ziet” wat niet gebeurd is
Stel: na een lucht- of raketincident in de regio verschijnt er binnen minuten een video waarin een hoge Iraanse functionaris ogenschijnlijk toegeeft dat een faciliteit “per ongeluk” is geraakt door eigen luchtverdediging—met details die precies passen bij wat mensen al vrezen. Grote accounts delen het, tv-panelen bespreken het, en beleids- en inlichtingenteams krijgen meteen de vraag: “Is dit echt?” Tegelijk duiken er audiofragmenten op van een Amerikaanse officier die “orders” zou geven, plus screenshots van een command-and-control dashboard dat de timing van intercepties lijkt te bevestigen.
In een escalatoire conflictcontext (Israël/VS tegenover Iran) is dat niet alleen reputatieschade of propaganda. Het verandert tempo en richting van besluitvorming: één overtuigende deepfake kan diplomatieke ruimte verkleinen, een vergeldingslogica voeden, of incidentrespons versnipperen doordat teams achter een nep-“bewijs” aanrennen. En omdat dezelfde informatieomgeving ook vol zit met echte, onvolledige signalen (storing, rookpluim, satellietbeeld, radioscanner), is de mix van waar/onwaar extra moeilijk te ontwarren.
Deze les focust op twee nauw verbonden risico’s: deepfakes (misleiding van mensen) en misleiding tegen AI-systemen (misleiding van modellen die sorteren, detecteren, triageren en modereren). De kernvraag is: hoe kan misleiding tegelijk het publiek én de machines beïnvloeden—en hoe houd je analyse en respons toch stabiel in oorlogstempo?
Wat deepfakes en AI-misleiding precies zijn (en waarom het verwarrend wordt)
Een deepfake is synthetische of gemanipuleerde media (video, audio, beeld) die iemand iets laat zeggen of doen dat niet (zo) gebeurd is. Belangrijk: deepfakes zijn niet altijd volledig “uit het niets” gemaakt. Vaak gaat het om gedeeltelijke manipulatie: een echte clip met aangepaste lip-sync, een echte stem met synthetische zinnen, of een montage waarin echte frames een valse conclusie ondersteunen. Daardoor is de discussie zelden binair (“echt vs. nep”), maar gaat het over integriteit van de keten: wat is authentiek, wat is veranderd, en wat is de herkomst?
Misleiding tegen AI-systemen betekent dat je AI inzet of aanvalt om het beslissingsproces van anderen te sturen. Dat kan op twee manieren. Ten eerste kun je AI gebruiken als productiemotor om misleiding op schaal te maken (zoals in de vorige les: volume, variatie, tempo). Ten tweede kun je AI-systemen direct “voeren” met materiaal dat hun detectie of classificatie beïnvloedt—vergelijkbaar met hoe aanvallers in cyber ruis en decoys gebruiken om detectie te verwarren. Als een newsroom, SOC, OSINT-cel of platformmoderatie AI gebruikt voor triage, wordt die AI een aanvalsoppervlak.
De brug met eerdere lessen is inhoudelijk: waar AI in cyber defense detectie–triage–respons versnelt, en GenAI in invloed productie–distributie–optimalisatie versnelt, proberen deepfakes en AI-misleiding die ketens te breken met “bewijsachtige” signalen. Je krijgt dan dezelfde failure modes als in cyber: false positives (nep lijkt echt, teams reageren verkeerd), alert fatigue/overload (te veel signalen), en risico op misautomation (te automatische reacties zonder menselijk checkmoment).
Om scherp te blijven helpt één discipline uit de vorige les: scheid claim, interpretatie en actie. Deepfakes proberen die drie lagen juist samen te laten vallen: “je ziet het” (claim) → “dus het is bewezen” (interpretatie) → “dus we moeten nu X doen” (actie). Goede analyse vertraagt met opzet die sprong.
Hoe deepfakes werken als operationele misleiding (niet als ‘magie’)
Deepfakes zijn in conflict-context vooral effectief wanneer ze aansluiten op bestaande onzekerheid. Als er al storingen rond energie of logistiek zijn, of als er al onduidelijkheid is over attributie van een aanval, dan hoeft een deepfake niet perfect te zijn. Hij hoeft alleen maar net geloofwaardig genoeg te zijn om twijfel te kantelen, of om een specifieke hypothese “dominant” te maken. Dat mechanisme lijkt sterk op wat je eerder zag bij pseudo-artefacten: professioneel ogende media gaan fungeren als bewijsanker, ook als herkomst en metadata ontbreken.
Een tweede patroon is “tempo-wapenisering”. Deepfakes winnen niet doordat ze voor altijd overtuigen, maar doordat ze in de eerste uren de informatieagenda bepalen. In die window is verificatie traag: originele bron onduidelijk, compressie door re-uploads, gestripte metadata, en vertalingen/knipsels die context weghalen. GenAI versnelt dit door meteen begeleidende tekst te leveren: samenvattingen, “expert”-duidingen, en verklarende threads die de interpretatie alvast voorkoken. Als je later debunkt, is het narratief vaak al “gezet”.
Een derde patroon is compositie: deepfakes werken zelden solo. Ze komen als pakket met “bewijsachtig” materiaal: screenshots van vermeende dashboards, nepdocumenten, en accounts die elkaar citeren om een illusie van consensus te creëren. Dit is dezelfde logica als “het staat op meerdere plaatsen dus het is bevestigd”—een veelvoorkomende beoordelingsfout uit de vorige les. In praktijk is het vaak één bron die zichzelf vermenigvuldigt via herposting, vertaling en persona’s.
Best practices die hier echt verschil maken draaien niet om één perfecte detector, maar om procesdiscipline:
-
Bronherleidbaarheid: waar verscheen het als eerste, en is die bron consistent met eerdere publicaties?
-
Keten-check: kun je een langere versie vinden, met context vóór en na het fragment?
-
Onzekerheidscommunicatie: “we hebben het gezien maar nog niet geverifieerd” is operationeel beter dan snelle bevestiging of categorische ontkenning.
Veelvoorkomende misvattingen die je actief moet corrigeren:
-
Misconception: “Als het technisch hoogwaardig oogt, is het waarschijnlijk echt.” Kwaliteit is geen herkomst.
-
Misconception: “We hebben meerdere uploads, dus het is bevestigd.” Dat is vaak alleen distributie, geen onafhankelijke verificatie.
-
Misconception: “Deepfake = volledig nep.” Gedeeltelijke manipulatie is juist praktisch en lastig te detecteren.
Misleiding tegen AI-systemen: hoe modellen “fouten gaan maken” op commando
Als organisaties AI gebruiken om content te sorteren (wat is urgent?), te labelen (wat is waarschijnlijk waar?), of te modereren (wat is schadelijk?), dan kun je die AI ook proberen te sturen. Conceptueel lijkt dit op cyber: je valt niet alleen systemen aan, maar ook de sensoren en filters die bepalen wat mensen zien en doen. In informatie-oorlog is dat extra gevaarlijk, omdat AI-output vaak de vorm krijgt van een geruststellende conclusie: “hoog vertrouwen”, “waarschijnlijk authentiek”, “lage kans op manipulatie”. Dat kan menselijke twijfel te vroeg afsluiten.
Een praktische manier om dit te begrijpen is dat AI-triage vaak werkt met patronen: consistenties in pixels/frames, typische kenmerken van synthetische audio, of tekstuele signalen (“bot-achtig”). Misleiders kunnen daarop inspelen door hun materiaal te laten lijken op “normale” content: extra compressie toevoegen, watermerken imiteren, ruis injecteren, of juist de deepfake te verpakken in een schermopname zodat sporen minder zichtbaar zijn. Tegelijk kan een tegenstander het systeem overspoelen met varianten—precies zoals GenAI variatie en volume levert—waardoor het model en de analisten uitputten: te veel items om zorgvuldig te checken, waardoor fouten kansen krijgen.
Hier komt de koppeling met eerdere cyber-lessen terug: AI helpt bij triage, maar triage betekent ook dat je fouten accepteert in ruil voor snelheid. Een tegenstander maakt misbruik van die trade-off door “net boven de drempel” te mikken: content die net plausibel genoeg is om door filters te komen en net urgent genoeg is om escalatie te triggeren. Dat is de informatievariant van adversarial noise: niet per se ondetecteerbaar, maar ontworpen om je proces te duwen naar snelle, verkeerde besluiten.
De veiligste aanpak is “human-in-the-loop” serieus nemen, maar dan concreet:
-
AI als prioritering, niet als waarheid: het model bepaalt wat eerst bekeken wordt, niet wat waar is.
-
Guardrails in staged response: bij hoog-impact claims (mogelijke escalatie) altijd een extra verificatiestap vóór publicatie of beleidsstatement.
-
Entity- en clusterdenken: beoordeel niet één clip, maar het cluster eromheen (zelfde kernzinnen, timing, accounts, “bewijsstukken”).
Onderstaande vergelijking helpt om deepfake-dreiging te zien als twee verwante aanvalslijnen: één op mensen, één op de AI-pijplijn.
| Dimensie | Deepfakes (mensgericht) | Misleiding tegen AI-systemen (modelgericht) |
|---|---|---|
| Primair doel | Perceptie kantelen: “ik heb het gezien/hoorde het zelf” | Triage/labels beïnvloeden: wat krijgt prioriteit en welk oordeel lijkt “objectief” |
| Typische tactiek | Video/audio van “woordvoerder/officier”, gemonteerd of gesynthetiseerd, plus duidende tekst | Variants op schaal, ruis/compressie, verpakking (screenrecord), optimalisatie om door drempels te komen |
| Waarom het werkt | Mensen vertrouwen stijl, stem en gezag bij lage verifieerbaarheid | Processen vertrouwen score/label in overload; AI lijkt neutraal en snel |
| Beste tegenmaatregel | Bronherleidbaarheid, contextclip, onzekerheid expliciet communiceren | AI alleen voor prioritering, staged checks, clusteranalyse, hoge-impact items altijd “twee-sleutel” verificatie |
| Grootste pitfall | Volume aanzien voor bewijs; “te gecoördineerd om nep te zijn” | Automatisering zonder guardrails; overreliance op “hoog vertrouwen”-scores |
Een werkbaar triage-proces voor deepfakes in oorlogstempo
In de vorige les werkte een triage-model voor narratieven: impact × verifieerbaarheid. Voor deepfakes kun je datzelfde model gebruiken, maar met één extra laag: media-integriteit. Je vraagt dus niet alleen “kunnen we dit snel checken?”, maar ook “wat is de kwaliteit van de keten (bron, context, verbreiding)?” Dit voorkomt dat je blijft steken in technische detectie terwijl het echte probleem de herkomst en distributie is.
Een pragmatische, herhaalbare flow ziet er zo uit:
- Kernclaim isoleren: wat beweert de clip exact, in één zin, zonder interpretatie.
- Impact scoren: leidt dit mogelijk tot escalatie, vergelding, paniek, marktimpact of beleidsschade?
- Verifieerbaarheid scoren: bestaan er onafhankelijke bronnen (officiële statements, meerdere betrouwbare correspondenten, consistent OSINT)?
- Clusteranalyse: wie pusht het, in welke talen/formaten, met welke “bewijsstukken” erbij?
- Communicatiebeslissing: wat kun je publiek zeggen zonder te overclaimen (observaties vs hypotheses vs onzekerheid)?
[[flowchart-placeholder]]
Let op de valkuil die hier vaak optreedt: teams proberen meteen naar stap 5 te springen (“reageer nu”), terwijl stap 1–4 juist bedoeld zijn om te voorkomen dat je propaganda onbewust herhaalt. Deepfakes winnen wanneer ze jouw organisatie dwingen hun framing over te nemen.
Toegepaste voorbeelden uit de Israël/VS–Iran context
Voorbeeld 1: “Bekentenisvideo” na een incident — van deepfake naar beleidsdruk
Een korte video circuleert waarin een Iraanse woordvoerder “toegeeft” dat een strategische locatie intern is getroffen en dat een extern actor “niet betrokken was”. De video heeft de juiste vlaggen, podiumsetting en tone-of-voice, en wordt meteen vergezeld door threads met technische details en tijdlijnen. Binnen twee uur is het onderwerp trending; sommige commentatoren concluderen dat verdere internationale druk “onterecht” is, anderen zien het als bewijs van incompetentie en roepen op tot escalatie. Dit is een klassiek geval van uncertainty hijacking: het incident is echt, de verklaring is het betwiste deel.
Stap-voor-stap toepassing van triage:
- Kernclaim: “De schade komt door X (intern) en niet door Y (extern).”
- Impact: hoog, want het beïnvloedt attributie en legitimiteit van mogelijke vergelding.
- Verifieerbaarheid: laag in de eerste uren; officiële kanalen geven nog geen volledige transcript, en de clip verschijnt eerst via heruploads.
- Clusteranalyse: dezelfde kernzinnen verschijnen in meerdere talen met identieke timing; dat wijst op een gecoördineerde productiepijplijn (zoals in de vorige les: persona’s en varianten).
- Respons: communicatie die strikt onderscheid maakt tussen observatie en interpretatie: “Er circuleert een clip; authenticiteit en context worden nog geverifieerd; we baseren attributie niet op losse social-fragmenten.”
De beperking hier is dat zelfs een perfecte technische deepfake-detector je niet altijd op tijd helpt, omdat de clip door compressie en re-uploads sporen verliest. De winst zit daarom in proces: je voorkomt beleidsbesluiten op basis van onzekere media, en je voorkomt dat je in publieke statements per ongeluk de claim herhaalt als feit.
Voorbeeld 2: “OT/command-dashboard screenshot + AI-triage” — misleiding van de machine én het team
Na storingen rond energie/logistiek verschijnen screenshots die zogenaamd SCADA- of command-and-control telemetrie tonen, inclusief tijdstippen, een lijst met “IOC’s”, en een kaart met uitvalgebieden. Een newsroom of analyseteam gebruikt een AI-samenvatter/triage-tool om inkomende posts te clusteren en prioriteren. De tegenstander uploadt vervolgens tientallen varianten: andere resoluties, andere taal overlays, en net kleine wijzigingen in de “logs” zodat ze als “nieuwe bevestigingen” worden herkend. Dit benut precies het voordeel van GenAI uit de vorige les: variatie en volume als wapen.
Wat gebeurt er in de workflow:
- AI ziet veel ‘consistent’ materiaal: dezelfde kernclaim duikt overal op, dus de urgentiescore stijgt.
- Analisten krijgen een vertekend beeld: het lijkt alsof meerdere onafhankelijke bronnen dezelfde telemetrie bevestigen.
- False-positive risico: het team gaat middelen inzetten om “malware in petrochemie” te onderzoeken, terwijl het incident mogelijk een niet-cyber oorzaak heeft of de artefacten vervalst zijn.
- Communicatierisico: als er te snel extern wordt gerefereerd aan “telemetrie die rondgaat”, legitimeer je de artefacten.
Mitigatie die aansluit op eerdere best practices uit cyber:
-
Segmenteer baselines en context: OT-claims apart behandelen van sociale media; pas later correlatie, niet “alles in één bak”.
-
Human checks op high-impact: elke claim die attributie of escalatie beïnvloedt krijgt een handmatige verificatieslag.
-
Entity-centric kijken: niet alleen de screenshots, maar het accountcluster, timing, hergebruikte zinsdelen en gedeelde foutjes (zoals bij incidentcorrelatie).
De beperking blijft dat je niet elk item kunt verifiëren. Triage is dus onvermijdelijk—maar met guardrails voorkom je dat AI-triage verandert in AI-gestuurde misleiding.
Een paar ankers die je vandaag wilt vasthouden
-
Deepfakes zijn zelden “perfecte nep”; ze zijn vaak precies goed genoeg om in de eerste uren twijfel en beleidsdruk te veroorzaken.
-
AI-systemen worden een aanvalsoppervlak zodra ze triage, labels of moderatie beïnvloeden; misleiders mikken op drempels, overload en automatiseringsfouten.
-
De beste verdediging is procesdiscipline: kernclaim isoleren, impact/verifieerbaarheid scoren, clusteranalyse doen, en onzekerheid expliciet communiceren zonder de propaganda te versterken.
Een checklist die je kunt vertrouwen
-
Kernclaim eerst: één zin, zonder emotie of interpretatie.
-
Volume is geen bewijs: veel uploads betekenen vaak alleen goede distributie.
-
AI-score ≠ waarheid: gebruik AI om te prioriteren, niet om te besluiten.
-
Staged respons: hoe hoger de impact, hoe zwaarder de verificatie-eis.
-
Onzekerheid helder labelen: dat is geen zwakte; het is controle over escalatie.
Afdwingen van rust onder druk
-
AI in cyber en GenAI in influence versnellen allebei ketens; deepfakes proberen die snelheid tegen je te gebruiken door “bewijs” te simuleren.
-
Narratieven werken het best wanneer claim, interpretatie en actie in elkaar schuiven; jouw taak is die lagen weer uit elkaar te trekken.
-
De meest robuuste houding is niet “alles ontkennen” of “alles geloven”, maar triage met guardrails: snel genoeg om bij te blijven, streng genoeg om niet gemanipuleerd te worden.
Als je dit goed doet, houd je ruimte voor correcte attributie, beheers je publieke communicatie, en voorkom je dat misleiding—mensgericht of modelgericht—de echte besluitvorming kaapt.