Il gatto GPT o il pappagallo grammaticale

 

L’irruzione dell’IA conversazionale nella sfera pubblica ha dato ulteriore rilevanza ai dibattiti sul linguaggio umano e su cosa significhi parlare. In particolare, le IA stanno facendo rivivere un vecchio dibattito sulla grammatica generativa e sulla natura innata delle facoltà linguistiche. Ma i modelli linguistici su larga scala e le IA neurali possono offrirci l’opportunità di estendere il campo di riflessione sull’architettura dei possibili sistemi di cognizione, comunicazione e interazione, nonché di considerare il modo in cui gli animali comunicano.

La capacità di ChatGPT di produrre testi in risposta a qualsiasi domanda ha immediatamente attirato l’attenzione più o meno preoccupata di un gran numero di persone, alcune spinte dalla curiosità o dal fascino, altre dall’interesse professionale.

L’interesse scientifico professionale che gli specialisti del linguaggio umano possono trovare nei Large Language Models non è nuovo: per molti aspetti, strumenti di traduzione automatica come DeepL si ponevano già domande fondamentali in termini abbastanza simili. Ma l’irruzione dell’IA conversazionale nella sfera pubblica ha dato ulteriore rilevanza ai dibattiti su ciò che i Large Language Models possono dirci sul linguaggio umano e su ciò che significa parlare.

Lo strumento di traduzione DeepL (o le versioni recenti di Google Translate) e i principali modelli linguistici si basano su tecniche di “deep learning” derivate dall’approccio “neurale” all’intelligenza artificiale: Queste reti di connessione vengono addestrate su grandi insiemi di dati, consentendo ai collegamenti “neurali” di rafforzarsi in proporzione alle probabilità di connessione osservate nell’insieme di dati reali — è questo ruolo cruciale dell’addestramento su un grande insieme di dati che ha fatto guadagnare ai grandi modelli linguistici il soprannome di “pappagalli stocastici”. Questi meccanismi probabilistici sono anche quelli che permettono all’IA di diventare più affidabile e precisa con l’uso. Questo modello viene definito “neuronale” perché è stato inizialmente ispirato dal funzionamento delle reti sinaptiche. Nel caso dei dati linguistici, sulla base di una domanda formulata in linguaggio naturale, questa tecnica consente agli agenti conversazionali o ai traduttori neurali di produrre molto rapidamente testi generalmente idiomatici, che per gli esseri umani attesterebbero una buona padronanza della lingua.

Il cervello nascosto dell’intelligenza artificiale

IA neurale e acquisizione del linguaggio umano

Al di là dell’analogia “neurale”, questo meccanismo di allenamento e i risultati che produce riproducono teorie sull’acquisizione del linguaggio basate sull’interazione con l’ambiente. Secondo questi modelli, generalmente definiti comportamentisti perché strettamente associati alle omonime teorie psicologiche, i bambini acquisiscono il linguaggio attraverso l’esposizione agli stimoli linguistici circostanti e attraverso l’interazione (inizialmente a tentoni, poi fiduciosa) con gli altri. Gradualmente, la pronuncia viene allineata alla norma maggioritaria nell’ambiente individuale dell’apprendente; il vocabolario si espande in risposta agli stimoli; i bambini acquisiscono strutture grammaticali sempre più complesse e, in un ambiente bilingue, imparano gradualmente a discriminare tra i due o più sistemi a cui sono esposti. Questa concezione essenzialmente probabilistica dell’acquisizione va spontaneamente a braccetto con le teorie grammaticali che partono dall’esistenza di schemi (“costruzioni”) la cui natura combinatoria costituisce il sistema. Da questa prospettiva, è irrilevante che uno strumento come ChatGPT non sia in grado di riferirsi, o più precisamente che si riferisca automaticamente, a un mondo possibile che è stocasticamente mondo possibile che non coincide necessariamente con il mondo reale. Ciò non cambia il fatto che ChatGPT, DeepL o altri abbiano padronanza del linguaggio e che la loro produzione in una lingua possa essere descritta come un linguaggio: ChatGPT parla.

Ma questo punto di vista si basa in realtà su un certo numero di premesse della teoria dell’acquisizione e comporta un’assillante frattura all’interno delle scienze del linguaggio. Le notizie degli ultimi anni, e soprattutto degli ultimi mesi, riguardanti le IA neurali e generative, hanno dato a questa frattura una acutezza particolare e una nuova rilevanza per la comprensione di questi strumenti, che stanno trasformando il nostro rapporto con il testo e il discorso. Come spesso (troppo spesso?) accade quando si parla di teoria del linguaggio e delle lingue, la controversia si è cristallizzata — in parte abusivamente — intorno alla figura di Noam Chomsky e all’eterogenea famiglia di pensiero linguistico che pretende di ispirarsi alla sua opera, generalmente indicata come “grammatica generativa”, anche se il plurale (grammatiche generative) sarebbe più appropriato.

IA generativa contro grammatica generativa

Chomsky è sia figlio dello strutturalismo nella sua variante americana, sia figlio della filosofia logica razionalista di ispirazione tedesca e austriaca che si è radicata nei campus americani dopo il 1933. Chomsky è legato a una forte concezione della logica matematica, vista come strumento per comprendere le leggi universali del pensiero umano, che la scienza del linguaggio dovrebbe aiutare a far luce. Questo pregiudizio, che Chomsky stesso ha definito “cartesiano”, lo ha portato a basare la sua linguistica su una serie di postulati psicologici e filosofici, il più importante dei quali è l’innatismo e il suo corollario, l’universalismo. Secondo Chomsky e le correnti della psicologia cognitiva da lui influenzate, la facoltà di linguaggio si basa su un substrato genetico comune a tutta la specie umana, espresso sia da un “istinto per il linguaggio” sia dall’esistenza di invarianti grammaticali, identificabili (attraverso un certo livello di astrazione) in tutte le lingue del mondo.

La natura di questi universali varia enormemente a seconda del periodo e della scuola di “generativismo” che si sta studiando, e questo duplice postulato, radicalmente innatista e universalista, rimane ancora oggi fortemente contestato. In particolare, queste controversie coinvolgono concezioni molto diverse del linguaggio e dell’acquisizione linguistica. Il momento fondante della teoria dell’acquisizione di Chomsky, in relazione alla definizione stessa della facoltà del linguaggio, è una violenta recensione critica di Verbal Behavior, un’opera dello psicologo B.F. Skinner che riassume le teorie comportamentiste sull’acquisizione del linguaggio. In questa recensione, pubblicata nel 1959, Chomsky esponeva argomenti che sono rimasti centrali fino ad oggi, definendo la divisione tra l’innatismo radicale e le teorie basate sull’acquisizione graduale del linguaggio attraverso l’esposizione agli stimoli ambientali. È questa divisione che presiede alle polemiche tra linguisti e psicolinguisti di fronte ai Grandi Modelli Linguistici.

È quindi facile capire perché Noam Chomsky e due colleghi della tradizione generativista, Ian Roberts, professore di linguistica a Cambridge, e Jeffrey Watumull, ricercatore di intelligenza artificiale, siano apparsi sul New York Times dell’8 marzo 2023 per esporre un punto di vista estremamente critico, intitolato “La falsa promessa di ChatGPT“. Tralasciando gli argomenti etici utilizzati nel loro articolo, il loro punto principale è che l’output di linguaggio naturale di ChatGPT non può essere descritto come “linguaggio”; ChatGPT, sostengono, non parla, perché ChatGPT non può aver acquisito la facoltà del linguaggio. Il motivo è semplice: se i Grandi Modelli di Linguaggio si basano interamente su un modello comportamentista di acquisizione, e questo modello è stato confutato per sessant’anni, allora ciò che i Grandi Modelli di Linguaggio fanno non può essere definito “linguaggio”.

Chomsky è troppo ostinato per parlare con lui?

Il punto di vista di Chomsky, Roberts e Watumull è stato immediatamente ridicolizzato a causa di una scelta esemplificativa particolarmente infelice: i tre autori sostenevano che certe costruzioni sintattiche complesse, che implicano (almeno nel quadro generativista) un certo numero di operazioni su più livelli, non possono essere acquisite sulla base dell’esposizione a stimoli ambientali, perché la frequenza relativamente bassa di questi fenomeni non riuscirebbe a controbilanciare analogie formali superficiali con altri giri di parole dal significato radicalmente diverso. Nell’articolo del New York Times, l’esempio preso in considerazione è John is too stubborn to talk to, ma in inglese abbiamo letteralmente “troppo testardo per parlare con”; la preposizione isolata (o “incagliata”) in posizione finale è un segno che un costituente è stato cancellato e deve essere ricostituito in vista della struttura sintattica complessiva. Qui, “John è troppo testardo per parlare con [John]”: il complemento cancellato in inglese è stato eliminato perché è identico al soggetto della frase.

Questo tipo di operazione, che prevede la ricostruzione di un complemento oggetto cancellato perché identico al soggetto del verbo principale, ricorre nella maggior parte degli articoli polemici di Chomsky contro la psicologia comportamentista e Skinner negli anni Cinquanta e Sessanta. Troviamo addirittura l’esempio esatto del 2023 in un testo dei primi anni Ottanta. années1980s. Si tratta, infatti, di un tipico esempio a sostegno della tesi secondo cui l’esistenza di operazioni minime universali previste dai meccanismi del cervello umano è necessaria per la completa acquisizione del linguaggio. Ha quasi il valore di uno shibboleth che separa gli innatisti dai comportamentisti. È quindi logico che Chomsky, Roberts e Watumull utilizzino questo esempio per affermare che il modello probabilistico dell’IA neurale è destinato a fallire per l’acquisizione completa del linguaggio.

Avete indovinato: basta chiedere a ChatGPT di parafrasare questa frase per ottenere un risultato che suggerisce che l’agente conversazionale ha perfettamente “compreso” lo stimolo. DeepL, quando gli viene chiesto di tradurre questa frase in francese, fornisce due soluzioni: “John è troppo testardo per parlargli” come soluzione preferita e “John è troppo testardo per parlare” come soluzione alternativa. Fuori dal contesto, cioè senza sapere chi è “lui”, questa seconda soluzione non è affatto soddisfacente. La prima, invece, è totalmente soddisfacente.

Le deviazioni via DeepL ci mostrano, tuttavia, i limiti di questo piccolo test, che tuttavia ha confutato Chomsky, Roberts e Watumull: comprendere, qui, non significa altro che “fornire una parafrasi equivalente”, nella stessa lingua (nel caso dell’obiezione che è stata subito fatta ai tre autori) o in un’altra (con DeepL), il problema è che i due equivalenti forniti da DeepL non sono proprio equivalenti tra loro, poiché uno è referenzialmente univoco e corretto, mentre l’altro è potenzialmente referenzialmente ambiguo, a seconda di come si intende “lui”. L’argomento avanzato da Chomsky, Roberts e Watumull è proprio quello dell’opacità del complemento oggetto… I tre autori sono stati ovviamente colti in fallo; resta il fatto che il test utilizzato, proprio perché tipicamente comportamentista (osservazione esterna dell’adeguatezza di una reazione a uno stimolo), lascia aperta una questione importante che non viene spesso sollevata nelle discussioni tra linguisti: esiste una semantica degli enunciati prodotti dal ChatGPT, e se sì, qual è? Chomsky e i suoi coautori non dicono che ChatGPT “capisce” o “non capisce” lo stimolo, ma che “predice il significato” (buono o cattivo). La questione del riferimento, presente nella discussione filosofica del ChatGPT ma poco presente nel dibattito linguistico, non è poi così lontana.

Sintassi e semantica di ChatGPT

ChatGPT ha una sintassi e una semantica: la sua sintassi è omologa ai modelli proposti per il linguaggio naturale che invocano modelli formali quantitativamente osservabili. In questo campo delle “grammatiche di costruzione”, l’uso di dati quantitativi è ormai standard, in particolare quando si utilizzano le risorse fornite da “grandi corpora” di diverse decine di milioni o addirittura miliardi di parole (quindici miliardi di parole per il corpus francese TenTen, cinquantadue miliardi per il suo equivalente inglese). Da un certo punto di vista, ChatGPT non fa altro che ripetere l’approccio dei modelli costruzionisti più radicali, che partono dalle co-occorrenze statistiche in grandi corpora per isolare i modelli, e lo riproduce in senso opposto, producendo dati a partire da questi modelli.

Correlativamente, ChatGPT ha anche una semantica, dal momento che queste teorie della sintassi si basano in gran parte sui cosiddetti modelli di “semantica delle cornici“, uno dei cui ispiratori è stato nientemeno che Marvin Minsky, un pioniere dell’intelligenza artificiale se mai ce n’è stato uno: il movimento tra la linguistica e l’intelligenza artificiale è quindi di lungo periodo e non è unilaterale. Anche in questo caso, la questione è più che altro di riferimento: la semantica in questione è in gran parte nozionale e ci permette di costruire un’affermazione verosimilmente vera o falsa solo aggiornandola attraverso operazioni di identificazione (anche solo temporale) che coinvolgono la saturazione grammaticale o contestuale di un certo numero di variabili “deittiche”, cioè variabili che assumono significato solo se riferite a un io-qui-ora del discorso.

Qui ci imbattiamo in un problema trasversale alle divisioni sopra descritte: i modelli “costruzionisti” sono più inclini a fare spazio alla variazione contestuale, ma sotto forma di variabili situazionali la cui inclusione nella descrizione non incontra consenso; le grammatiche generative hanno per lungo tempo escluso queste questioni dalla loro sfera di interesse, ma le considerazioni pragmatiche sono fiorite in esse negli ultimi vent’anni circa, a costo di una crescente invocazione dell’io-qui-ora nell’analisi grammaticale, almeno in certe correnti. Di conseguenza, l’inclusione o meno di questioni referenziali e deittiche nella definizione stessa del linguaggio come facoltà umana rappresenta una spaccatura largamente indipendente da quella che prevale nella teoria dell’acquisizione.

Scuola per pappagalli

La domanda giusta, e in ogni caso la più fertile per confrontare le produzioni linguistiche umane e quelle dei principali modelli linguistici, non è probabilmente se ChatGPT parla o se le prestazioni delle IA neurali convalidano o invalidano un particolare quadro teorico. Un approccio più interessante, dal punto di vista dello studio della cognizione umana e del linguaggio, è quello di confrontare queste produzioni su diversi livelli: i meccanismi di acquisizione; le regolarità semantiche in tutta la loro diversità, senza ridurle a questioni di riferimento e coinvolgendo, ad esempio, la concettualizzazione metaforica di entità e situazioni designate; la capacità di navigare tra registri e varietà della stessa lingua, che è parte integrante della padronanza di un sistema; l’adattamento a ontologie specifiche o a vincoli comunicativi circostanziali… La formula del “pappagallo stocastico”, presa alla lettera, fornisce un modello di quello che può essere un confronto scientifico tra il linguaggio dell’IA e quello umano.

Da alcuni decenni esiste una linguistica, una psicolinguistica e una pragmatica della comunicazione animale, che comprende ricerche che mettono a confronto umani e animali. I progressi nello studio della comunicazione animale ci hanno permesso di affinare la nostra comprensione della facoltà di linguaggio, dei moduli che la compongono e dei suoi prerequisiti cognitivi e fisiologici. Questi studi non ci dicono se “gli animali parlano”, così come non ci dicono se la comunicazione dei corvi è più vicina a quella degli esseri umani rispetto a quella dei pappagalli. D’altro canto, ci dicono come le varie caratteristiche etologiche, genetiche e cognitive siano distribuite tra le specie e come la loro combinazione produca specifiche modalità di comunicazione. Fornendo un campo di sperimentazione senza precedenti, questo lavoro ci fornisce informazioni su ciò che forma sempre un sistema e su ciò che può essere disgiunto nella facoltà del linguaggio. Lungi dall’essere “false promesse”, i principali modelli linguistici e le IA neurali possono offrirci l’opportunità di estendere il campo di riflessione sull’architettura dei possibili sistemi di cognizione, comunicazione e interazione.

__________________

Pierre-Yves Modicom è professore di linguistica all’Università di Lione 3 Jean Moulin. La sua ricerca si concentra sull’analisi semantica delle lingue germaniche.


https://www.asterios.it/catalogo/epimente