Area
Cultura delle Risorse Umane

Topic
Selezione

Lorenzo Bianchi

N° 238

22 gennaio 2025

Visualizzazioni 427

Bias e modelli di AI: impatto su linguaggio e cultura

Introduzione

Pappagalli stocastici”. Così Emily Banter e colleghi1 hanno caratterizzato i Large Language Models (LLM): sebbene in grado di generare testi apparentemente coerenti e plausibili, essenzialmente si limitano a collegare probabilisticamente parole e frasi.

Come dei pappagalli, appunto, ripetono contenuti basati su dati di addestramento, senza una vera comprensione.

I LLM, o modelli di linguaggio su larga scala, sono avanzati sistemi di intelligenza artificiale progettati per comprendere (con i limiti sopra esposti) e generare linguaggio umano in risposta a input forniti dagli utenti, sfruttando algoritmi di apprendimento automatico e reti neurali.

Funzionano analizzando grandi quantità di testi per individuare pattern e relazioni tra le parole.

Ad esempio, se un LLM ha visto molte frasi del tipo “Il cielo è blu”, quando gli viene chiesto di completare “Il cielo è...”, probabilmente risponderà con “blu” perché è una continuazione comune e coerente.

Un'analogia utile è quella di un moderno Oracolo di Delfi digitale.

Immaginate di fare una domanda a questo oracolo, che risponde combinando parole e frasi tratte dalle migliaia di risposte che conosce.

E come ogni buon questuante dovrebbe sapere, porre la domanda nel modo giusto è essenziale per ottenere una risposta utile.

(Un consiglio valido anche per i geni della lampada, mi dicono).

La risposta del nostro Oracolo Digitale potrebbe suonare plausibile e autorevole, ma occasionalmente eccedere in zelo e creatività.

Sono le cosiddette “allucinazioni2.

Oppure potrebbe essere una risposta perfetta.

Tranne, forse, per una cesura.

Che però pare abbia fatto la differenza per almeno un utente della Sibilla, secondo la leggenda3.

Ed è di quella cesura e delle sue conseguenze da cui vorrei partire.

Bias ed elaborazione del linguaggio naturale

Torniamo un momento all’esempio di poco sopra, ovvero “Il cielo è…”.

Il cielo può essere naturalmente oltre che “blu” anche “plumbeo” o “sereno”.

O “una finestra senza davanzale”4, in caso fossimo colpiti da vena poetica.

Semplicemente, la maggior parte di noi risponderebbe con “blu”, come prima risposta: questa è una euristica, ovvero una “scorciatoia” alla soluzione.

Ora, cosa succederebbe se i dati di addestramento contenessero meno sfumature?

Sicuramente il linguaggio ne apparirebbe impoverito e appiattito.

Non a prima vista forse, ma sicuramente con sufficienti interazioni nel tempo.

Qui siamo già nel campo del bias, la cui fonte risiede in questo caso nel volume e nella varietà dei dati forniti.

Inoltre alcuni algoritmi possono essere più inclini a bias: modelli complessi come le reti neurali possono imparare correlazioni spurie dai dati di addestramento.

Supponiamo di avere un modello di linguaggio addestrato su un corpus di testi in cui il colore blu sia frequentemente associato a emozioni positive, come tranquillità, fiducia e serenità per la presenza di numerose frasi come "Il cielo blu portava un senso di pace" oppure "L'acqua blu del mare era calma e serena".

Ora, immaginiamo inoltre che a questo modello venga chiesto di descrivere un colore in un contesto negativo, per esempio come i colori differenti possono influenzare negativamente l'umore delle persone.

Questa una plausibile risposta: "Il rosso può provocare ansia e stress. Il giallo può sembrare eccessivamente stimolante e causare nervosismo. Mentre il blu evoca tranquillità e serenità".

In questo caso, il bias del modello impedisce di considerare che il colore blu possa avere anche connotazioni negative in certi contesti linguistico-culturali.

In inglese, per esempio, sono di uso comune espressioni come “feeling blue” o “Blue Monday”.

Gli stessi “Blues” prendono origine dall’associazione del colore blue alla malinconia.

Non entro per brevità su come il colore blu abbia connotazioni diverse a seconda delle culture: per esempio nell’induismo è associato alla sacralità e spiritualità.

Già da questi banali esempi ne consegue che la presenza di bias può avere molteplici fonti: dai dati usati per addestrare il modello, all’annotazione dei dati stessi (processo che richiede spesso e volentieri intervento umano)5 fino all’architettura del modello stesso.

In estrema sintesi, le fonti del bias algoritmico sono rintracciabili nella raccolta e pre-elaborazione dei dati, nella scelta e progettazione dell’algoritmo e nella sua implementazione e monitoraggio.

“I sistemi di intelligenza artificiale, addestrati su vasti set di dati, spesso riflettono e amplificano i pregiudizi sociali inerenti ai loro dati di addestramento.

Chiamatelo il problema BIBO: bias in, bias out, per riformulare un noto detto (GIGO: garbage in, garbage out che si riferisce alla qualità dei dati)", scrive Luciano Floridi6 in un articolo recente sull'argomento.

Ma non vorrei che, come nella famosa parabola, noi ci concentrassimo sul dito (artificiale in questo caso), e ignorassimo la luna della natura umana.

I bias sono profondamente radicati nella cognizione umana e nell’uso che facciamo del linguaggio e di quanto quest’ultimo rifletta una cultura.

Un esempio che è forse noto a professionisti del recruitment è quello del cosidetto resume whitening7, che comporta il falsamento dei dati relativi all’assunzione e la generazione di bias legati agli storici aziendali difficili da individuare senza la contezza del fenomeno.

Tornando ai dati linguistici, un problema aggiuntivo è costituito dal fatto che modelli come GPT4 sono addestrati principalmente su testi in lingua inglese (si parla del 90% circa) il che crea significative disparità nella loro efficacia quando vengono utilizzati in altre lingue.

Questo squilibrio strutturale - che peraltro rispecchia la diversa disponibilità di testi di alta qualità in diverse lingue in rete - è conosciuto come il "gap di risorse" (resourcedness gap o data scarcity).

Ne consegue che lingue con minori risorse, come molte lingue parlate nel Sud del globo, hanno pochi esempi di testi di alta qualità disponibili per l'addestramento dei modelli, amplificando così il bias verso l'inglese.

Questo comporta diverse conseguenze, dall’esperienza dell’utente, alle prestazioni fino alle generazioni di errori e ai costi di gestione.

I modelli generativi AI come ChatGPT offrono prestazioni significativamente inferiori in lingue diverse dall'inglese, specialmente per compiti complessi come la risposta a domande e la sintesi di testi articolati.

Questi modelli tendono anche a generare più frequentemente informazioni errate in altre lingue.

Inoltre, l'uso di GPT-4 in lingue non inglese può costare fino a 15 volte di più rispetto all'uso in inglese a causa del numero maggiore di token necessari per esprimere lo stesso concetto, e questo incide sui costi.

Sono in corso tentativi per estendere le capacità dei modelli di linguaggio a più lingue costruendo modelli multilingue, addestrati su testi in dozzine o centinaia di lingue contemporaneamente.

Tuttavia, questi modelli spesso trasferiscono valori e assunzioni codificate nell'inglese ad altri contesti linguistici e culturali, amplificando in questo modo il bias.

Più di un lettore avrà notato, nell’interrogare una AI in lingua italiana, numerosi calchi linguistici, l’uso di stilemi tipici della lingua inglese, quali per esempio capitalizzazione dei titoli, la oxford comma o l’abbondante impiego di bullet points.

Questi non sono puramente dei rilievi formali, la disparità menzionata ha implicazioni di vasta portata.

Il predominio dell'inglese nei modelli di AI generativa rischia di escludere miliardi di parlanti di altre lingue, perpetuando le barriere linguistiche e marginalizzando prospettive culturali diverse, ampliando così il divario digitale.

Tali modelli spesso non riescono a catturare le sfumature, gli idiomi e i contesti culturali delle lingue non inglesi, producendo contenuti che mancano di autenticità.

Questo rafforza di rimbalzo l'egemonia dell'inglese, erode la diversità linguistica e rischia di sopprimere le lingue minoritarie nel digitale.

Questi temi hanno una ricaduta a cascata in termini di decodifica linguistico-culturale.

La cultura anglosassone è classificata come “lineare” e “a basso contesto“, ovvero una cultura che privilegia la precisione, la sintesi e la chiarezza nella comunicazione, diversamente da culture ad “alto contesto” come quella italiana o giapponese, che prediligono gli impliciti comunicativi e uno stile più verboso o elaborato oltre ad un atteggiamento più ossequioso rispetto alla gerarchia8.

I parametri da considerare sarebbero numerosi e meriterebbero un articolo a parte, ma consideriamo per un momento l’apparentemente banale esempio di un CV Italiano e una résumé statunitense.

Nella cultura anglosassone il CV è principalmente uno strumento di autopromozione e di marketing: il suo linguaggio, spesso percepito come autocelebrativo da altre culture, ne è un riflesso.

Immaginiamo di utilizzare uno strumento di screening tarato sui parametri culturali nordamericani: sicuramente non favorirà un candidato giapponese, la cui cultura gli ha inculcato nella nascita deru kugi wa utareru ovvero che “è il chiodo che sporge che viene colpito dal martello”.

L’umiltà e la conformità sono virtù, non proprio quelle apprezzate da una cultura che ha celebrato il mito del self-made man e del maverick9.

Una delle soluzioni proposte è quella di integrare GPT-4 con la traduzione automatica adattiva di ModernMT, come fatto da Translated Srl10, per migliorare le prestazioni in 200 lingue.

Questo approccio promette di ridurre il divario di prestazioni tra GPT-4 in inglese e in altre lingue, offrendo un'esperienza più uniforme e inclusiva agli utenti globali.

Sempre in Italia, è da segnalare il rilascio dei modelli Minerva dal gruppo di ricerca Sapienza NLP.

“La caratteristica distintiva dei modelli Minerva è il fatto di essere stati costruiti e addestrati da zero usando testi ad accesso aperto, al contrario dei modelli italiani esistenti ad oggi, che sono basati sull'adattamento di modelli come LLaMA e Mistral, i cui dati di addestramento sono tuttora sconosciuti” spiega Roberto Navigli11.

“Nello specifico, ogni modello Minerva è stato addestrato su un vasto insieme di fonti italiane e inglesi online e documentate, per un totale di oltre 500 miliardi di parole, l'equivalente di oltre 5 milioni di romanzi”.

Come nota Claudio Fantinuoli12, una possibile soluzione se non l'unica, per raggiungere l’obiettivo di un multilinguismo non discriminatorio potrebbe passare proprio per l’uso di AI per la traduzione in tempo reale.


Note

  1. Nel loro articolo "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" le autrici sottolineano la necessità di un approccio equilibrato che consideri non solo i progressi tecnologici, ma anche le implicazioni etiche, sociali e ambientali. La pubblicazione dell’articolo ha coinciso con una controversia di alto profilo, culminata nelle dimissioni da Google di una delle autrici, Timnit Gebru, attivista per la diversità nella tecnologia.
  2. In AI, le "allucinazioni" si riferiscono a situazioni in cui un modello di intelligenza artificiale genera informazioni che non sono corrette o non sono presenti nei dati di input. In altre parole, il modello "inventa" risposte o dettagli che non hanno una base nella realtà o nei dati forniti apparendo al contempo plausibili.
  3. La frase latina “Ibis redibis non morieris in bello" è tradizionalmente considerata un responso dato dalla Sibilla a un soldato. La frase è volutamente ambigua e offre due possibili interpretazioni a seconda di come viene aggiunta la punteggiatura (che i Latini tra l’altro non utilizzavano) o fatta una pausa: "Andrai, ritornerai e non morirai in guerra" oppure "Andrai, non ritornerai e morirai in guerra".
  4. Da “Il Cielo” di Wisława Szymborska, poetessa e saggista polacca. Premiata con il Nobel nel 1996 e con numerosi altri riconoscimenti.
  5. Alcuni sistemi di AI necessitano di una grande quantità di dati "etichettati" per funzionare. Per esempio, un testo potrebbe essere etichettato come “email”, “notizia” o “recensione”. Il processo annotazione dei dati trasforma quindi dati grezzi in informazioni comprensibili per l’AI. Sebbene l'annotazione manuale da parte di esperti umani sia ancora il metodo più accurato e affidabile, soprattutto per compiti complessi o che richiedono un giudizio soggettivo, negli ultimi anni si sono sviluppate diverse tecnologie per automatizzare o assistere il processo di annotazione.
  6. Luciano Floridi è un filosofo italiano naturalizzato britannico, noto per il suo lavoro nel campo della filosofia dell’informazione e dell’etica digitale. È il direttore fondatore del Digital Ethics Center presso l’Università di Yale, dove è anche professore nel programma di Scienze. Floridi è riconosciuto a livello internazionale come una delle voci più autorevoli della filosofia contemporanea e uno dei principali interpreti della rivoluzione digitale.
  7. Il "whitening del resume" è la pratica di modificare il curriculum per nascondere l'appartenenza a una minoranza etnica o razziale, al fine di evitare discriminazioni. Ciò include cambiare il nome e rimuovere riferimenti culturali specifici, con l'obiettivo di aumentare le possibilità di essere chiamati per un colloquio.
  8. La comunicazione nelle culture di alto contesto è indiretta, implicita e dipende molto dal contesto non verbale, dalle relazioni e dalle sottigliezze, affidandosi alla storia condivisa e ai significati impliciti per comprendere il messaggio (es. Giappone, Cina, paesi arabi). Al contrario, nelle culture di basso contesto, la comunicazione è diretta, esplicita e focalizzata sulle parole utilizzate piuttosto che sul contesto, con informazioni comunicate in modo chiaro e diretto, e meno dipendenza dai sottintesi.
  9. Il termine "maverick" è sinonimo di una persona indipendente, che rifiuta di conformarsi alle norme o alle aspettative comuni. Un esempio famoso nell'immaginario recente è il personaggio di Pete "Maverick" Mitchell, interpretato da Tom Cruise nel film Top Gun e nel suo recente sequel.
  10. Translated SRL è una società italiana. Offre servizi di traduzione professionale in 203 lingue e 40 aree di specializzazione.
  11. Professore ordinario presso il Dipartimento di Ingegneria informatica, automatica e gestionale Antonio Ruberti della Sapienza Università di Roma.
  12. Ricercatore ed innovatore nel campo delle speech technologies.

Bibliografia

Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" Nei procedimenti della ACM Conference on Fairness, Accountability, and Transparency (FAccT '21). Association for Computing Machinery, New York, NY, USA, 610-623. DOI: 10.1145/3442188.3445922.

Fantinuoli, Claudio. Towards non-discriminatory multilingualism https://claudiofantinuoli.org/blog/2024/09/29/towards-non-discriminatory-multilingualism/

Floridi, Luciano, The Ethics of Artificial Intelligence: exacerbated problems, renewed problems, unprecedented problems - Introduction to the Special Issue of the American Philosophical Quarterly dedicated to The Ethics of AI (20 Aprile 2024). SSRN: https://ssrn.com/abstract=4801799 o http://dx.doi.org/10.2139/ssrn.4801799

Kang, S. K., DeCelles, K. A., Tilcsik, A., & Jun, S. (2016). Whitened Resumes: Race and Self-Presentation in the Labor Market. Administrative Science Quarterly, 61(3), 469-502.

Vasheer, Kirti. "Making Generative AI Multilingual at Scale". Modern MT Blog, 2024. https://blog.modernmt.com/making-generative-ai-multilingual-at-scale/

"AI made in Italy: arriva Minerva, la prima famiglia di grandi modelli linguistici addestrati “da zero” per la lingua italiana". Università di Roma Sapienza, 23 Apr. 2024. https://www.uniroma1.it/it/notizia/ai-made-italy-arriva-minerva-la-prima-famiglia-di-grandi-modelli-linguistici-addestrati-da


Tratto da "Personale e Lavoro Rivista di cultura delle Risorse Umane - n° 670 - Ottobre 2024" Uno dei servizi dell'Abbonamento ISPER

Immagine di apertura: elaborazione su Immagine generata con ChatGPT
Frecce: elaborazione su foto di Veronica Bosley da Pixabay