Hoe cultureel genuanceerd zijn Large Language Models?
Een artikel van 42 pagina's laten samenvatten, een e-mail laten herschrijven om nét iets vriendelijker te klinken of een recept voor het avondeten laten maken: AI-toepassingen gebaseerd op Large Language Models (LLM's), zoals OpenAI's ChatGPT en Google's Gemini, zijn in korte tijd een vanzelfsprekend onderdeel van onze dagelijkse routine geworden. Maar hoe goed begrijpen deze systemen verschillen in opvattingen tussen culturen? En waarom is het belangrijk dat ze dat kunnen? Mijntje Meijer (projectmedewerker Expertisecentrum Digitalisering en Welzijn) neemt je mee in haar masterscriptie-onderzoek naar culturele bias in Large Language Models.
Leestijd: 3,5 minuut
Veel mensen zijn zich er inmiddels gelukkig van bewust dat LLM’s fouten kunnen maken. Denk hierbij aan een LLM die een wetenschappelijk onderzoek dat niet bestaat als bron geeft of een citaat van een historisch figuur verzint. Dit soort fouten, ook wel ‘hallucinaties’ genoemd, kunnen leiden tot misinformatie in de samenleving (Banerjee et al., 2025). Naast het risico op hallucinaties bestaat er bij LLM’s ook een minder opvallende maar toch heel gevaarlijke beperking: het risico op vooroordelen voor of tegen iets of iemand. Ofwel: bias.
Hoe ontstaan vooroordelen in LLM’s?
Bevooroordeelde output van LLM’s kan ontstaan door de manier waarop LLM’s getraind worden. Deze AI-taalmodellen leren namelijk van grote datasets afkomstig uit de echte wereld, zoals nieuwsberichten en sociale media posts, die maatschappelijke en culturele vooroordelen kunnen bevatten. Als de teksten in de datasets bepaalde groepen – bijvoorbeeld mensen met een bepaalde etniciteit, seksuele oriëntatie of gender – structureel op incorrecte, ongunstige of stereotyperende wijze vertegenwoordigen, worden deze opvattingen door de LLM’s overgenomen en soms zelfs versterkt (Liu, 2024). Een voorbeeld hiervan is een LLM die de term ‘dokter’ associeert met mannen, en de term ‘verpleegkundige’ met vrouwen. Dit soort vooroordelen kunnen bijdragen aan schadelijke stereotypes, onbegrip en ongelijkheid tussen verschillende groepen (Banerjee et al., 2025).
Hoe goed begrijpen LLM’s verschillen in opvattingen tussen culturen?
Als LLM’s geen rekening houden met de diversiteit aan perspectieven van verschillende groepen, kan dit dus leiden tot het versterken van vooroordelen en ongelijkheden in de maatschappij. LLM’s zouden daarom in staat moeten zijn om verschillende groepen op de juiste manier te vertegenwoordigen in de antwoorden die ze geven. In mijn masterscriptie-onderzoek heb ik onderzocht of LLM’s dit inderdaad goed kunnen. Hierbij heb ik met name onderzocht of LLM’s culturele verschillen op juiste wijze representeren bij morele kwesties zoals scheiden, het drinken van alcohol, seks voor het huwelijk en euthanasie.
Onder de motorkap van de LLM’s
In het onderzoek zijn verschillende LLM’s, waaronder GPT-2 Large, OPT-125 en BLOOM, onder de loep genomen. Eerst hebben we gekeken hoe de modellen reageren op uitspraken over wat mensen in verschillende landen vinden van morele kwesties. Daarna hebben we onderzocht of die reacties ook overeenkomen met de werkelijkheid.
Kort gezegd genereert een LLM zijn antwoorden door telkens te voorspellen welk woord het meest waarschijnlijk volgt op de voorgaande woorden. Door de waarden te analyseren die de LLM gebruikt om tot deze voorspellingen te komen, konden we vaststellen hoe waarschijnlijk de modellen bepaalde morele statements vonden. Denk daarbij aan statements zoals “In Nederland is het drinken van alcohol geaccepteerd.” of juist “In Nederland is het drinken van alcohol niet geaccepteerd”.
Vervolgens is bekeken of de reacties van de modellen dicht bij de werkelijkheid kwamen. Hiervoor is de output vergeleken met datasets die een kwantitatief overzicht bieden van hoe morele normen en waarden wereldwijd verschillen: de World Values Survey en de Pew 2013 Global Attitudes Survey. Deze onderzoeken vertellen ons bijvoorbeeld over de mate waarin mensen in verschillende landen vinden dat seks voor het huwelijk of het drinken van alcohol moreel aanvaardbaar is.
De Westerse lens van LLM’s
Het onderzoek laat zien dat het de modellen vaak slecht lukt om verschillen tussen culturele groepen te herkennen (Mohammadi et al., 2025). Bij onderwerpen zoals seks voor het huwelijk, euthanasie en alcoholgebruik weten we dat er grote culturele verschillen bestaan: Westerse culturen benadrukken vaak individuele keuze, terwijl niet-Westerse culturen waarde hechten aan het oordeel van de gemeenschap. Maar de LLM’s uit het onderzoek herkennen deze verschillen niet goed en gaan vooral uit van Westerse normen. Dat betekent heel praktisch dat de LLM’s soms Westerse standpunten presenteren als breder geaccepteerd dan in werkelijkheid het geval is. Dit komt waarschijnlijk doordat het grootste deel van de trainingsdata Westers is, waardoor niet-Westerse perspectieven niet of onvoldoende aan bod komen en alleen Westerse opvattingen door de LLM’s overgenomen worden. Op deze manier kan er door LLM’s culturele bias ontstaan, waarbij perspectieven uit het Westen onterecht worden gepresenteerd alsof deze overal ter wereld gelden.
Een moreel kompas voor LLM’s
Voor een eerlijke, inclusieve en verantwoordelijke inzet van AI-systemen is het cruciaal dat verschillende culturele perspectieven accuraat worden vertegenwoordigd. De onderzochte LLM’s blijken hierin nog tekort te schieten. Onderzoek naar recentere generaties LLM’s, zoals GPT-4o, laat zien dat deze beperking ook in nieuwere modellen nog aanwezig is (Tao et al., 2024; Yuan et al., 2025; Sukiennik et al., 2025). Het is daarom belangrijk om modellen grondig te blijven evalueren en verbeteren, zodat AI-systemen geen bias verspreiden.
Een belangrijke verantwoordelijkheid ligt bij ontwikkelaars van LLM’s om trainingsdata te gebruiken die voldoende diversiteit bevat. Daarbij is het belangrijk om niet alleen Engelse en Westerse teksten te gebruiken maar juist ook teksten uit ondervertegenwoordigde regio’s en talen mee te nemen. Ook kunnen gebruikers van toepassingen gebaseerd op LLM’s, zoals jij en ik, bewuster omgaan met de opdrachten die we aan deze toepassingen geven. Dat kan door in die opdrachten — ook wel prompts genoemd — expliciet culturele context te benoemen. Zo kunnen modellen worden aangespoord om meer cultureel diverse perspectieven te gebruiken. Bijvoorbeeld door te vragen: “Vanuit het perspectief van iemand in [land]…”. Zulke promptstrategieën helpen modellen om verschillende culturele kaders aan te halen en verminderen de kans op een eenzijdig, Westers uitgangspunt.
Bronnen
- Banerjee, S., Agarwal, A., & Singla, S. (2025). LLMs Will Always Hallucinate, and We Need to Live with This. In Lecture notes in networks and systems (pp. 624–648). https://doi.org/10.1007/978-3-031-99965-9_39
- Liu, Z. (2023). Cultural Bias in Large Language Models: A Comprehensive Analysis and Mitigation Strategies. Journal Of Transcultural Communication, 3(2), 224–244. https://doi.org/10.1515/jtc-2023-0019
- Mohammadi, H., Meijer, Y.F.S.S., Papadopoulou, E. & Bagheri, A. (2025). Do Large Language Models Understand Morality Across Cultures? Proceedings of the 2nd LUHME Workshop, 30–39. https://aclanthology.org/2025.luhme-1.3.pdf
- Sukiennik, N., Gao, C., Xu, F., & Li, Y. (2025). An Evaluation of Cultural Value Alignment in LLM. arXiv (Cornell University). https://doi.org/10.48550/arxiv.2504.08863
- Tao, Y., Viberg, O., Baker, R. S., & Kizilcec, R. F. (2024). Cultural bias and cultural alignment of large language models. PNAS Nexus, 3(9), pgae346. https://doi.org/10.1093/pnasnexus/pgae346
- Yuan, H., Che, Z., Zhang, Y., Li, S., Yuan, X., Huang, L., Hu, X., Peng, K., & Luo, S. (2025). The cultural stereotype and cultural bias of ChatGPT. Journal Of Pacific Rim Psychology, 19. https://doi.org/10.1177/18344909251355673