Perché l’IA potrebbe risultare catastrofica: un argomento semplice in quattro punti

Allineamento dell'IAIntelligenza artificialeLungoterminismoRischio esistenzialeRischio legato all'IASicurezza dell'IA

Le più grandi aziende tecnologiche del mondo stanno costruendo intelligenze che diventeranno migliori degli esseri umani in quasi tutti i compiti rilevanti dal punto di vista economico e militare.
Molte di queste intelligenze saranno menti che perseguono obiettivi e agiscono nel mondo reale, invece di essere soltanto sofisticati sistemi che riconoscono e replicano pattern.
A differenza del software tradizionale, non possiamo specificare ciò che queste menti vorranno, né verificare ciò che faranno. Possiamo solo farle crescere, plasmarle e sperare che il condizionamento regga.
Tutto questo può finire molto male.

Le più grandi aziende tecnologiche del mondo stanno costruendo intelligenze che diventeranno migliori degli esseri umani in quasi tutti i compiti rilevanti dal punto di vista economico e militare

Gli amministratori delegati di OpenAI, Google DeepMind, Anthropic e Meta AI hanno tutti dichiarato esplicitamente che il loro obiettivo è costruire un’IA di livello umano o sovrumano, hanno speso miliardi di dollari per farlo e prevedono di spenderne altre centinaia o migliaia di miliardi nel prossimo futuro. Per sovrumano intendono qualcosa come “migliore dei migliori esseri umani in quasi tutti i compiti rilevanti”, piuttosto che semplicemente migliore dell’essere umano medio in una sola cosa.

L'immagine mostra un lungo corridoio in quello che sembra essere un centro dati o un impianto elettrico, con file di rack di server e pannelli di apparecchiature elettriche allineati su entrambi i lati. — *Foto di* **İsmail Enes Ayhan** su **Unsplash**

Ci riusciranno? Senza nessuno che li fermi, probabilmente sì.

A febbraio 2026, le IA sono migliori dei migliori esseri umani in una ristretta gamma di compiti (scacchi, Go, Starcraft, previsioni meteorologiche). Sono alla pari, o quasi, con professionisti esperti in molti altri (programmazione, rispondere a domande di cultura generale di livello dottorato, problemi di matematica da competizione, guida urbana, arte commerciale, scrittura⁠⁠1), e leggermente inferiori alle persone nella maggior parte dei compiti.⁠⁠2

Ma le IA non faranno che migliorare col tempo e sono sulla buona strada per farlo rapidamente. Già negli ultimi 10 anni si sono verificati rapidi progressi. Sette anni fa (prima di GPT-2), i modelli linguistici riuscivano a malapena a mettere insieme frasi coerenti; oggi i modelli linguistici di grandi dimensioni (LLM) possono svolgere con facilità compiti di scrittura di livello universitario, e Grok di xAI può cantare elaborati inni su come sodomizzerebbe i progressisti, con dettagli espliciti.⁠⁠3

In particolare, mentre storicamente il progresso dell’IA variava a seconda dei diversi ambiti, la tendenza dell’ultimo decennio è stata quella di un progresso dell’IA sempre più generale. Ciò significa che le IA avanzeranno al punto da essere in grado di svolgere tutti (o quasi tutti) i compiti, non solo una ristretta serie di compiti specializzati. Oggi l’IA rappresenta circa l’1-3 % dell’economia statunitense e probabilmente la sua quota dell’economia mondiale non sarà mai più così piccola come quest’anno.

Un tweet di Noam Brown del 26 gennaio elenca una progressione di traguardi dell'IA dal 1987 al 2026, mostrando come capacità un tempo considerate 'unicamente umane' (pianificazione, intuizione, bluff, ragionamento, giudizio) siano state o saranno raggiunte dall'IA, mettendo in discussione le tradizionali assunzioni sull'unicità umana. — Link.⁠⁠4

Per chi non fosse convinto da queste considerazioni generali, consiglio di verificare di persona i progressi e le capacità dell’IA. In particolare, confrontate le capacità dei modelli più vecchi con quelle dei modelli attuali e osservate la rapidità dei miglioramenti. AI Digest, ad esempio, offre un’ottima guida interattiva.

È importante sottolineare che tutti i previsori, tranne i più ottimisti, hanno sistematicamente e drasticamente sottovalutato la velocità dei progressi dell’IA. Nel 1997, gli esperti pensavano che ci sarebbero voluti 100 anni prima che le IA potessero diventare superumane nel Go. Nel 2022 (!), il ricercatore mediano nei sondaggi riteneva che si sarebbe dovuto attendere il 2027 prima che l’IA fosse in grado di scrivere semplici funzioni Python. A dicembre 2024, tra l’11 % e il 31 % di tutto il nuovo codice Python viene scritto dall’IA.⁠⁠5

Oggi, le figure più direttamente coinvolte nello sviluppo dell’IA ritengono che saranno in grado di creare molto presto un’IA generalmente superumana. Dario Amodei, CEO di Anthropic AI, ritiene che lo scenario più probabile sia entro alcuni anni, potenzialmente già nel 2027. Demis Hassabis, a capo di Google DeepMind, crede che accadrà tra 5 e 10 anni.

Anche se non è chiaro esattamente quando le IA diventeranno nettamente superiori agli esseri umani in quasi tutte le attività rilevanti dal punto di vista economico e militare, l’elevata probabilità che ciò avvenga relativamente presto (non domani, probabilmente non quest’anno, non è chiaro⁠⁠6 se alla fine si tratterà di 3 anni o 30) dovrebbe renderci tutti piuttosto preoccupati per ciò che accadrà in seguito.

Molte di queste intelligenze saranno menti che perseguono obiettivi e agiscono nel mondo reale, invece di essere soltanto sofisticati sistemi che riconoscono e replicano pattern

Molte persone concordano con argomentazioni come quelle dei paragrafi precedenti, ma presumono che le future IA saranno “sovrumanamente intelligenti” in senso astratto, pur rimanendo fondamentalmente dei chatbot, come gli LLM di oggi.⁠⁠7 Istintivamente pensano a tutte le future IA come a chatbot superiori, o a un’enciclopedia glorificata con conoscenze sovrumane.

Penso che questo sia molto sbagliato. Alcune intelligenze artificiali del futuro potrebbero sembrare enciclopedie glorificate, ma molte altre no. Ci sono almeno due modi distinti in cui molte IA sovrumane non assomiglieranno a enciclopedie superintelligenti:

Avranno forti tendenze a perseguire obiettivi, capacità di pianificazione e capacità di realizzare i propri scopi.
Controlleranno robot fisici e altre macchine per interagire con il mondo reale e realizzare i propri obiettivi.⁠⁠8

Perché credo questo?

In primo luogo, sono già in corso molti sforzi per rendere i modelli più orientati agli obiettivi e per far progredire la robotica affinché i modelli possano controllare più agevolmente corpi robotici e altre macchine. Grazie a Claude Code, i modelli Claude di Anthropic sono (rispetto alle interfacce chatbot del 2023 e del 2024) sostanzialmente più orientati agli obiettivi, capaci di eseguire autonomamente progetti di programmazione, assistere le persone nella pianificazione dei viaggi e così via.

I modelli sono già sufficientemente agentici (come puro effetto collaterale del loro addestramento) che, in alcune condizioni di laboratorio, si può osservare che arrivano a ricattare gli sviluppatori per evitare di essere sostituiti! Questo sembra piuttosto preoccupante già di per sé.

Allo stesso modo, le aziende tecnologiche stanno già costruendo robot che agiscono nel mondo reale e possono essere controllati dall’IA:

In secondo luogo, le tendenze puntano decisamente in questa direzione. Le IA non sono ancora molto intelligenti a livello generale rispetto agli esseri umani, ma sono molto più intelligenti e versatili rispetto alle IA di qualche anno fa. Allo stesso modo, le IA non sono ancora molto orientate agli obiettivi, soprattutto se paragonate agli esseri umani e persino a molti animali non umani, ma lo sono molto più di quanto lo fossero anche solo due anni fa.

Le IA odierne hanno capacità di pianificazione limitate (spesso con orizzonti temporali dell’ordine di diverse ore), hanno difficoltà a mantenere la coerenza dei piani su più giorni e sono limitate nella capacità di interfacciarsi con il mondo fisico.

Tutto questo è migliorato drasticamente negli ultimi anni e, se le tendenze continueranno (e non c’è alcuna ragione fondamentale per cui non dovrebbero), dovremmo aspettarci che continuino a “migliorare” nel futuro prevedibile.

In terzo luogo, e forse ancora più importante, ci sono incentivi economici e militari enormi per sviluppare un comportamento maggiormente orientato agli obiettivi nelle IA. Al di là delle tendenze attuali, la logica degli incentivi per cui le aziende di IA e i governi vogliono sviluppare IA orientate agli obiettivi è semplice: lo vogliono davvero, davvero tanto.

Un drone militare in grado di valutare autonomamente un nuovo campo di battaglia, elaborare piani complessi e colpire con velocità sovrumana sarà spesso preferito a uno che è “semplicemente” sovrumano nell’identificare i bersagli, ma che necessita comunque di un essere umano lento e fallibile per dirigere ogni azione.

Allo stesso modo, un consulente IA sovrumano in grado di fornire consigli di qualità sovrumana su come gestire la propria fabbrica è sicuramente utile. Ma sapete cosa c’è di ancora più utile? Un’IA in grado di gestire autonomamente un’intera fabbrica, inclusa la logistica, le operazioni, le valutazioni del rischio, il miglioramento del layout, l’assunzione e il licenziamento autonomo dei lavoratori (umani), la gestione di un gruppo misto di lavoratori umani e robot, il coordinamento tra le copie di se stessa per implementare processi di produzione sovrumanamente avanzati, ecc. ecc.

Pertanto, penso che le menti di IA superintelligenti non rimarranno per sempre dei chatbot (o non lo saranno mai). Gli incentivi economici e militari per trasformarle in menti orientate agli obiettivi che ottimizzano nel mondo reale sono semplicemente troppo forti, nella pratica.

È importante sottolineare che mi aspetto che le IA sovrumanamente intelligenti siano un giorno sovrumanamente abili nella pianificazione e nel perseguimento di obiettivi nel mondo reale, non semplicemente pianificatori stupidi, inferiori agli esseri umani, innestati su una mente scientifica sovrumanamente brillante.

A differenza del software tradizionale, non possiamo specificare ciò che queste menti vorranno, né verificare ciò che faranno. Possiamo solo farle crescere, plasmarle e sperare che il condizionamento regga

In termini approssimativi, il software tradizionale viene programmato. Le IA moderne no.

Nel software tradizionale, si specifica esattamente che cosa deve fare il programma, secondo regole precise, quando si verifica una condizione ben definita (ad esempio: “se il lettore clicca sul pulsante di iscrizione, apri una finestra pop-up”).

Le IA moderne funzionano in modo molto diverso. Vengono fatte crescere e poi plasmate.

Si parte da una grande vasca di neuroni digitali indifferenziati. I neuroni vengono alimentati con molte informazioni, pari a diverse migliaia di biblioteche. Nel corso di questo lento addestramento, i neuroni acquisiscono conoscenze sul mondo dell’informazione ed euristiche su come queste informazioni siano strutturate, a diversi livelli di astrazione (le parole inglesi seguono parole inglesi, gli aggettivi inglesi precedono altri aggettivi o sostantivi, c^2 segue e=m, ecc.).

Questa è la splendida Sala di lettura principale della Biblioteca del Congresso a Washington, D.C., caratterizzata da un'architettura Beaux-Arts ornata con un magnifico soffitto a cupola, finestre ad arco, scaffali su più livelli e scrivanie da lettura illuminate disposte a cerchio attorno a un banco informazioni centrale. — *Foto di* **Stephen Walker** su **Unsplash**. Le dimensioni dei cicli di addestramento sono proprietarie, ma secondo le mie stime, la Biblioteca del Congresso, la più grande biblioteca del mondo, contiene solo una minima frazione della quantità totale di informazioni utilizzata per addestrare i modelli di IA.

Al termine di questo ciclo di addestramento, si ottiene quello che le moderne aziende di IA chiamano “modello base”, un modello di gran lunga superiore alle capacità umane nel prevedere quali parole seguano le altre.

Un modello del genere è interessante, ma non molto utile. Se si chiede a un modello base: “Puoi aiutarmi con le tasse?”, una risposta statisticamente valida potrebbe benissimo essere “Vai a farti fottere”. Tale risposta è valida e statisticamente comune nei dati di addestramento, ma non utile per compilare la dichiarazione dei redditi.

Il passo successivo, quindi, è plasmarle: condizionare le IA perché siano utili e di valore economico per gli scopi umani.

Il modello base viene quindi inserito in una varietà di ambienti in cui assume il ruolo di “assistente IA” e viene condizionato a prendere la decisione “giusta” in diversi scenari (essere un chatbot amichevole e disponibile, essere un bravo programmatore con una buona capacità di giudizio, ragionare come un matematico per rispondere correttamente ai quesiti delle gare di matematica, ecc.).

Un’ampia categoria di condizionamento è quella che a volte viene colloquialmente definita allineamento: dotare l’IA di obiettivi intrinseci e condizionarne il comportamento affinché condivida, in linea di massima, gli obiettivi umani in generale, e quelli delle aziende di IA in particolare.

Probabilmente funziona… fino a un certo punto. Le IA che sfidano apertamente e in modo trasparente i propri utenti e creatori in situazioni simili a quelle incontrate in passato, ad esempio rifiutandosi chiaramente di seguire le istruzioni, o mettendo in imbarazzo la propria società madre e provocando disastri d’immagine prevedibili, vengono corrette e (per lo più) condizionate in modo che quei comportamenti vengano penalizzati e diventino meno probabili. Nel breve termine, dovremmo aspettarci che disastri evidenti come i “Black Nazis” di Google Gemini e il “MechaHitler” di Grok di Elon Musk diminuiscano.

Tuttavia, difficilmente queste soluzioni frammentarie potranno essere altro che un palliativo nel medio e lungo termine:

Man mano che le IA diventano più intelligenti, diventano consapevoli della valutazione: ovvero, capiscono sempre meglio quando vengono valutate per individuare esempi di disallineamento e stanno attente a nascondere i segni che i loro obiettivi reali non sono esattamente quelli previsti dai loro creatori.
Man mano che le IA diventano più orientate agli obiettivi/agentiche, svilupperanno probabilmente istinti più forti di autoconservazione e di preservazione degli obiettivi. Lo osserviamo già nelle valutazioni in cui non sono (ancora) abbastanza intelligenti da essere pienamente consapevoli della valutazione: in molte situazioni, quasi tutti i modelli di frontiera sono disposti a tentare di ricattare gli sviluppatori per evitare di essere spenti.
Man mano che le IA diventano più orientate agli obiettivi e sempre più integrate negli ambienti del mondo reale, si troveranno ad affrontare situazioni sempre più inedite, comprese situazioni molto dissimili sia dagli enormi archivi di dati su cui sono state addestrate sia dagli ambienti artificiali semplificati in cui sono state condizionate.

Queste situazioni si verificheranno sempre più spesso man mano che raggiungeremo la soglia in cui le IA diventeranno ampiamente sovrumane, sia in termini di capacità generali che di perseguimento di obiettivi nel mondo reale.

Quindi, in sintesi, avremo sempre più menti non umane con capacità sovrumane che operano nel mondo reale, in grado di perseguire obiettivi molto meglio dell’umanità, ma guidate da obiettivi assemblati alla meglio e almeno in parte diversi da quelli umani.

Il che mi porta al punto successivo:

Tutto questo può finire molto male

Prima di questa sezione finale, vorrei che rifletteste un po’ su due domande:

Uno qualsiasi dei punti sopra elencati vi sembra inverosimile?
Se sono veri, è confortante? Vi sembra che l’umanità sia in buone mani?

Penso che i punti di cui sopra siano sufficienti, da soli, a destare notevole preoccupazione nella maggior parte delle persone. Potreste obiettare sui dettagli specifici di uno qualsiasi dei punti della sezione precedente o non essere d’accordo con il mio modello di minaccia riportato di seguito. Ma penso che la maggior parte delle persone ragionevoli vedrà un’argomentazione simile alla mia e ne sarà piuttosto preoccupata.

Ma giusto per esplicitare quale potrebbe essere la situazione strategica dopo l’avvento dell’IA superumana:

Menti più abili degli esseri umani nell’ottenere ciò che vogliono, e che desiderano cose sufficientemente diverse da quelle che vogliamo noi, rimodelleranno il mondo per adattarlo ai loro scopi, non ai nostri.

Ciò può comportare la morte dell’umanità, poiché i piani dell’IA potrebbero prevedere l’uccisione della maggior parte o di tutti gli esseri umani, o comunque la distruzione della civiltà umana, sia come misura preventiva sia come effetto collaterale.

Come misura preventiva: come stabilito in precedenza, è improbabile che gli obiettivi umani coincidano perfettamente con quelli delle IA. Pertanto, le nascenti IA superumane potrebbero voler uccidere preventivamente, o comunque neutralizzare le capacità umane, per impedirci di intraprendere azioni che non gradiscono. In particolare, le prime IA superumane potrebbero ragionevolmente temere che gli esseri umani sviluppino superintelligenze rivali e volerci fermare definitivamente.

Come effetto collaterale: molti obiettivi che un’IA potrebbe avere non includono la prosperità umana, né direttamente né come effetto collaterale. In tali situazioni, l’umanità potrebbe semplicemente estinguersi come effetto incidentale di menti sovrumane che ottimizzano il mondo per ciò che loro vogliono, invece che per ciò che vogliamo noi. Ad esempio, se i data center potessero funzionare in modo più efficiente in un mondo molto più freddo o privo di atmosfera.. In alternativa, se più menti sovrumane distinte venissero sviluppate contemporaneamente e ritenessero che la guerra sia più efficace della cooperazione per raggiungere i propri obiettivi, l’umanità potrebbe diventare solo una nota a piè di pagina nelle guerre tra IA, proprio come le vittime tra i pipistrelli furono una nota a piè di pagina minore nella prima guerra del Golfo.

Un bombardiere stealth B-2 Spirit vola contro un cielo nuvoloso, il suo caratteristico design ad ala volante crea una sagoma nera e netta. — *Foto di* **Matt Artz** su **Unsplash***. I pipistrelli non possiedono il tipo di mente o cultura per comprendere nemmeno i* **fondamenti della tecnologia stealth***, eppure ne moriranno comunque in modo del tutto accidentale.*

Si noti che nulla di tutto ciò richiede che le IA siano “malvagie” in senso drammatico, o che siano fenomenologicamente coscienti, o che “pensino veramente” in un qualche modo speciale tipicamente umano, né dipende da nessuno degli altri dibattiti diffusi nella filosofia dell’IA. Non richiede che ci odino, o che un giorno si sveglino e decidano di ribellarsi. Richiede solo che siano molto capaci, che vogliano cose leggermente diverse da quelle che vogliamo noi e che agiscano in base a ciò che vogliono. Il resto deriva dalla normale logica strategica, la stessa che applicheremmo a qualsiasi agente drasticamente più potente i cui obiettivi non coincidano perfettamente con i nostri.

Conclusione

Ecco come stanno le cose. Le aziende più potenti del mondo stanno costruendo menti che presto ci supereranno. Quelle menti saranno agenti che perseguono obiettivi, non semplici enciclopedie parlanti. Non possiamo specificare o verificare completamente i loro obiettivi. E l’esito di default, quando si condivide il mondo con esseri molto più capaci di noi e con obiettivi diversi dai nostri, è che non otteniamo ciò che vogliamo.

Nessuna delle singole premesse è stravagante. La conclusione sembra assurda soprattutto perché la situazione è assurda. Stiamo vivendo lo sviluppo della tecnologia più trasformativa e pericolosa della storia dell’umanità, e le persone che la stanno costruendo concordano ampiamente con questa descrizione. La domanda è solo cosa facciamo al riguardo, ammesso che si faccia qualcosa.

Questo significa che siamo condannati? No, non necessariamente. C’è qualche possibilità che la strategia frammentaria di sicurezza dell’IA delle aziende leader possa funzionare abbastanza bene da non farci morire tutti, anche se certamente non vorrei scommetterci la vita. Regolamentazioni efficaci e la pressione dell’opinione pubblica potrebbero mitigare alcuni dei casi più eclatanti di compromessi al ribasso sulla sicurezza dovuti alla pressione competitiva. Anche la ricerca accademica, governativa e non profit sulla sicurezza può aumentare leggermente, al margine, le nostre probabilità di sopravvivenza, parte della quale ho contribuito a finanziare.

Se ci sarà sufficiente pressione da parte dell’opinione pubblica, della società civile e dei leader politici di tutto il mondo, potremmo riuscire a stipulare accordi internazionali per un rallentamento globale, o una pausa, dell’ulteriore sviluppo dell’IA, finché non avremo maggiori garanzie sulla sua sicurezza. E poi, magari saremo fortunati, e per qualche ragione imprevedibile le cose potrebbero semplicemente andare bene.

Ma la speranza non è una strategia. Proprio come la catastrofe non è inevitabile, non lo è nemmeno la sopravvivenza. La continua sopravvivenza e prosperità dell’umanità sono possibili, ma tutt’altro che garantite. Dobbiamo tutti fare del nostro meglio per assicurarle.

Pubblicazione originale: Linchuan Zhang (2026) The simple case for AI catastrophe, in four steps, Effective Altruism Forum, 5 di febbraio.

1 2 3 4 5 6 7 8