Previsioni sull’IA trasformativa, parte 1: Quale tipo di IA?

di Holden Karnofsky

Allineamento dell'IAIntelligenza artificialeIntelligenza artificiale trasformativaLungoterminismoPrevisione sull'IASicurezza dell'IASuperintelligenza

Il diagramma mostra un flusso che parte da “Il mondo di oggi”, passa attraverso “IA trasformativa” e arriva a “Un mondo retto da IA disallineate”, con tre possibili esiti: “Un mondo di persone digitali”, “Qualcos'altro”, o “Una civiltà galattica stabile”.

Questo è il primo di quattro post che riassumono centinaia di pagine di relazioni tecniche incentrate quasi interamente sulla previsione di un numero. Si tratta del singolo numero per il quale probabilmente sarebbe più importante avere una buona stima: l’anno entro il quale sarà sviluppata l’intelligenza artificiale trasformativa.⁠a

Per “IA trasformativa” intendo “IA abbastanza potente da portarci in un futuro nuovo e qualitativamente diverso”. La rivoluzione industriale è l’esempio più recente di evento trasformativo; altri includono la rivoluzione agricola e la comparsa dell’essere umano.⁠b

Questo pezzo si concentrerà sull’esplorazione di un particolare tipo di IA che ritengo possa essere trasformativo: sistemi di IA che possono sostanzialmente automatizzare tutte le attività umane necessarie per accelerare il progresso scientifico e tecnologico. Chiamerò questo tipo di tecnologia Processo di Automazione del Progresso Scientifico e Tecnologico, o PASTA (dall’inglese Process for Automating Scientific and Technological Advancement).⁠c Uso PASTA per riferirmi a un singolo sistema o a un insieme di sistemi in grado di realizzare collettivamente questo tipo di automazione.

Un PASTA potrebbe risolvere lo stesso tipo di collo di bottiglia discusso in Il Duplicatore: La clonazione istantanea farebbe esplodere l’economia mondiale e Tempi eccezionali — la scarsità di menti umane (o qualcosa che svolge lo stesso ruolo nell’innovazione).

Un PASTA potrebbe quindi portare a un’, culminando in tecnologie di enorme impatto come le . E, a seconda dei dettagli, i sistemi PASTA potrebbero avere obiettivi propri, che potrebbero essere , e potrebbero avere una grande importanza per .

pericolosi per l’umanità

Parlando di PASTA, sto in parte cercando di liberarmi di un bagaglio inutile nel dibattito sull’“intelligenza artificiale generale”. Non credo che sia necessaria un’intelligenza artificiale generale perché questo secolo sia il più importante della storia. Qualcosa di più ristretto, come potrebbe essere PASTA, sarebbe sufficiente.

Per rendere quest’idea un po’ più concreta, il resto di questo post discuterà:

Di come un PASTA potrebbe (ipoteticamente) essere sviluppato attraverso gli attuali metodi di machine learning.
Perché questo potrebbe portare a un progresso scientifico e tecnologico esplosivo e perché potrebbe essere pericoloso se i sistemi PASTA avessero obiettivi propri.

Nei prossimi articoli si parlerà di quanto presto potremmo aspettarci lo sviluppo di qualcosa di simile a un PASTA.

Inizierò con una caratterizzazione molto breve e semplificata del machine learning, che è possibile saltare cliccando qui.

Esistono essenzialmente due modi per “addestrare” un computer a svolgere un compito:

Programmazione tradizionale. In questo caso, si codificano istruzioni estremamente specifiche, passo dopo passo, per completare il compito. Per esempio, il programma di scacchi Deep Blue esegue essenzialmente istruzioni⁠d del tipo:

Ottieni una rappresentazione digitale di una scacchiera, con numeri che indicano (a) quale pezzo degli scacchi si trova su ogni casella; (b) quali mosse sono valide; (c) quali posizioni della scacchiera contano come scacco matto.
Verifica il modo in cui ogni mossa valida modifica la scacchiera. Quindi valuta quanto è “buona” la scacchiera risultante, secondo regole come: “Se la regina dell’altro giocatore è stata catturata, vale 9 punti; se la regina di Deep Blue è stata catturata, vale -9 punti”. Queste regole potrebbero essere molto complesse⁠e, ma sono state tutte codificate proprio dagli esseri umani.

Machine learning. In sostanza, si tratta di “addestrare” un’intelligenza artificiale a svolgere un compito tramite tentativi ed errori, piuttosto che dandole istruzioni specifiche. Oggi, il modo più comune per farlo è utilizzare una “rete neurale artificiale” (RNA), che si può considerare una sorta di “cervello digitale” che inizia in uno stato vuoto (o casuale): non è ancora stato cablato per fare cose specifiche.

Per esempio, AlphaZero, un’intelligenza artificiale che è stata usata per padroneggiare diversi giochi da tavolo, tra cui gli scacchi e il Go, fa qualcosa di più simile a questo (anche se ha anche elementi importanti di “programmazione tradizionale”, che sto ignorando per semplicità):

Gioca una partita a scacchi contro se stesso (scegliendo una mossa valida, modificando la scacchiera digitale di conseguenza, e poi scegliendo un’altra mossa valida, e così via). Inizialmente, gioca facendo mosee casuali.
Ogni volta che il Bianco vince, “impara” un po’, modificando il cablaggio della RNA (“cervello digitale”) — letteralmente rafforzando o indebolendo le connessioni tra alcuni “neuroni artificiali” e altri. Le modifiche fanno sì che la RNA formi un’associazione più forte tra stati di gioco come quello appena visto e “il Bianco vincerà”. E viceversa, quando il Nero vince.
Dopo un numero molto elevato di partite, la RNA è diventata molto brava a determinare, a partire da uno stato digitale del gioco da tavolo, quale parte avrà probabilmente la meglio. La RNA può ora selezionare le mosse che rendono più probabile la vittoria del proprio schieramento.
Il processo di “addestramento” della RNA richiede una grande quantità di tentativi ed errori: inizialmente la RNA fa schifo nel giocare a scacchi e ha bisogno di giocare molte partite per “cablare correttamente il suo cervello” e diventare brava. Tuttavia, dopo che la RNA è stata addestrata una volta, il suo “cervello digitale” è ora costantemente bravo nel gioco da tavolo che ha imparato; può battere i suoi avversari ripetutamente.

Quest’ultimo approccio è alla base di molti dei recenti progressi dell’IA, soprattutto per i compiti per i quali è difficile “scrivere tutte le istruzioni”. Per esempio, gli esseri umani sono in grado di scrivere alcune linee guida ragionevoli per avere successo negli scacchi, ma sappiamo molto poco su come noi stessi classifichiamo le immagini (determinare se un’immagine è di un cane, di un gatto o di qualcos’altro). Il machine learning è quindi essenziale per compiti come la classificazione delle immagini.

Si potrebbe sviluppare un PASTA attraverso il machine learning? Un modo ovvio (ma non realistico) di farlo potrebbe essere qualcosa del genere:

Invece di giocare a scacchi, un’IA potrebbe giocare a un gioco chiamato “Causa il progresso scientifico e tecnologico”. Cioè, potrebbe fare “mosse” come: scaricare documenti scientifici, aggiungere note a un file, creare progetti e istruzioni per nuovi esperimenti, progettare processi di produzione.
Un gruppo di giudici umani potrebbe osservare da “bordo campo” e dare una valutazione soggettiva di quanto velocemente il lavoro dell’IA stia causando un progresso scientifico/tecnologico. L’IA potrebbe quindi modificare il suo cablaggio nel corso del tempo, imparando quali sono le mosse più efficaci per il progresso scientifico e tecnologico secondo i giudici.

Si tratterebbe di un metodo decisamente poco pratico, almeno rispetto a come penso sia più probabile che le cose possano andare, ma si spera che dia un’intuizione iniziale di ciò che un processo di addestramento potrebbe cercare di realizzare: fornendo un segnale di “come l’IA sta andando”, potrebbe permettere a un’IA di diventare brava a raggiungere l’obiettivo attraverso prove ed errori e modificando il suo cablaggio interno.

In realtà, mi aspetto che l’addestramento sia più veloce e pratico grazie a fattori quali:

Diverse IA potrebbero essere addestrate a svolgere diversi tipi di ruoli legati all’accelerazione della scienza e della tecnologia: scrivere articoli accademici, progettare e criticare progetti e processi di produzione, ecc. In molti casi, gli esseri umani già impegnati in queste attività potrebbero generare una grande quantità di dati su come farle bene, che potrebbero essere utilizzati per il tipo di addestramento descritto sopra. Una volta che diverse IA sono in grado di svolgere una serie di ruoli essenziali, le IA “manager” potrebbero essere addestrate per supervisionare e dirigere il lavoro di altre IA.
Le IA potrebbero anche essere addestrate come giudici. Forse un’IA potrebbe essere addestrata a valutare se un documento contiene idee originali e un’altra potrebbe essere addestrata a valutare se un documento contiene errori.⁠f Queste IA “giudici” potrebbero poi essere utilizzate per addestrare in modo più efficiente una terza IA che impara a scrivere documenti originali e corretti.
Più in generale, le IA potrebbero imparare a svolgere ogni sorta di altre attività umane, acquisendo abilità umane generiche come la capacità di imparare dai libri di testo e la capacità di “elaborare soluzioni creative a un problema”. Le IA brave in queste cose potrebbero quindi imparare la scienza dai libri di testo come un normale essere umano e fare brainstorming su come fare una scoperta proprio come un normale essere umano, ecc.
- La distinzione qui è tra “usare un numero enorme di esempi per cablare un cervello” e “un cervello già cablato che usa piccole quantità di esempi per imparare rapidamente, come fa un cervello umano”.
- In questo caso ci vorrebbero molti tentativi ed errori perché la RNA diventi brava nelle abilità umane “generiche”, ma poi la RNA addestrata potrebbe imparare a fare un lavoro specificamente scientifico con la stessa efficienza con cui un umano impara a farlo. (In un certo senso si potrebbe immaginare che sia stata “addestrata attraverso una lunga sequenza di tentativi ed errori per avere la capacità di imparare certi tipi di cose senza bisogno di tanti tentativi.”).
- Ci sono alcune prove preliminari (per esempio, qui) che i sistemi di IA potrebbero passare attraverso questo schema di “apprendimento delle ‘basi’ usando una tonnellata di tentativi ed errori, e apprendimento di specifiche sotto-abilità facendo meno tentativi ed errori”⁠g.
Non mi aspetto che tutto questo avvenga nell’ambito di un unico e deliberato processo di sviluppo. Col tempo, mi aspetto che i diversi sistemi di IA vengano utilizzati per compiti diversi e sempre più ampi, compresi, e in particolare, quelli utili a complementare le attività umane di avanzamento scientifico e tecnologico. Potrebbero esistere molti tipi diversi di sistemi di IA, ognuno con il proprio modello di guadagno e ciclo di retroazione, e le loro capacità collettive potrebbero crescere fino al punto in cui, in un certo momento, un insieme di essi sarà in grado di fare tutto ciò che (per quanto riguarda l’avanzamento scientifico e tecnologico) in precedenza richiedeva un essere umano. (Per comodità, tuttavia, a volte mi riferirò a questo insieme come PASTA al singolare).

Lo sviluppo di un PASTA sarà quasi certamente molto più difficile e costoso di quanto non sia stato per AlphaZero. Potrebbe richiedere molto ingegno per aggirare gli ostacoli che esistono oggi (l’immagine qui sopra è sicuramente semplificata all’estremo e serve a dare delle intuizioni di base). Ma la ricerca sull’IA sta diventando più economica⁠h e al tempo stesso più finanziata. Nei prossimi articoli sosterrò che le probabilità di sviluppare PASTA nei prossimi decenni sono sostanziali.

Progresso scientifico e tecnologico esplosivo

In precedenza ho parlato dell’idea di una potenziale esplosione del progresso scientifico e tecnologico, che potrebbe portare a un futuro radicalmente diverso.

Ho sottolineato che tale esplosione potrebbe essere causata da una tecnologia che “aumenta drasticamente il numero di ‘menti’ (umane, o persone digitali, o IA avanzate) che spingono il progresso scientifico e tecnologico”.

Un PASTA si presterebbe bene a questo ruolo, soprattutto se fosse bravo quanto gli umani (o più bravo) a trovare modi migliori e più economici per produrre più sistemi PASTA. Un PASTA avrebbe tutti gli strumenti per un’esplosione di produttività che ho precedentemente descritto per le persone digitali:

I sistemi PASTA potrebbero creare copie di se stessi, anche temporanee, ed eseguirle a velocità diverse.
Potrebbero intraprendere il tipo di ciclo descritto in Il Duplicatore: “più idee [incluse idee per creare più sistemi PASTA/sistemi PASTA migliori] → più persone [in questo caso più sistemi PASTA] → più idee→…”

Perché questo ciclo di retroazione non si applica ai computer e alle IA di oggi? Perché i computer e le IA di oggi non sono in grado di fare tutte le cose necessarie per avere nuove idee e farsi copiare in modo più efficiente. Svolgono un ruolo nell’innovazione, ma l’innovazione è in ultima istanza bloccata dagli esseri umani, la cui popolazione cresce solo a una certa velocità. Questo è ciò che un PASTA cambierebbe (ed è anche ciò che le persone digitali cambierebbero).

Inoltre, a differenza delle copie digitali degli esseri umani, i sistemi PASTA potrebbero non essere legati alla loro identità e personalità. Un sistema PASTA potrebbe modificare rapidamente la sua “mente” per renderla più efficace nel far progredire la scienza e la tecnologia. Questo potrebbe (o forse no, dipende da molti dettagli) portare a un auto-miglioramento ricorsivo e a una “esplosione di intelligenza.” Ma anche se questo non si verificasse, il semplice fatto di essere bravi come gli esseri umani a creare altri sistemi PASTA potrebbe causare un progresso esplosivo per le stesse ragioni per cui le persone digitali potrebbero farlo.

IA disallineata: obiettivi misteriosi e potenzialmente pericolosi

Se un PASTA venisse sviluppato come descritto sopra, è possibile che si sappia estremamente poco del suo funzionamento interno.

AlphaZero, come altri moderni sistemi di deep learning, è in un certo senso poco conosciuto. Sappiamo che “funziona”. Ma non sappiamo davvero “cosa sta pensando”.

Se vogliamo sapere perché AlphaZero ha fatto una particolare mossa di scacchi, non possiamo guardare all’interno del suo codice per capire come “Controlla il centro della scacchiera” o “Cerca di non perdere la regina”. La maggior parte di ciò che vediamo è solo un vasto insieme di numeri, che indicano la forza delle connessioni tra i diversi neuroni artificiali. Come nel caso del cervello umano, possiamo solo immaginare cosa fanno le diverse parti del “cervello digitale”⁠i (anche se ci sono alcuni primi tentativi di fare ciò che si potrebbe chiamare “neuroscienze digitali”).

I “progettisti” di AlphaZero (di cui si è parlato in precedenza) non avevano bisogno di avere una visione precisa di come avrebbero funzionato i processi di pensiero. Si sono limitati a configurarlo in modo che potesse fare un sacco di tentativi ed errori ed evolversi per ottenere un particolare risultato (vincere il gioco a cui sta giocando). Anche gli esseri umani si sono evoluti principalmente per tentativi ed errori, con la pressione della selezione per ottenere particolari risultati (sopravvivenza e riproduzione, anche se la selezione ha funzionato in modo diverso).

Come gli esseri umani, i sistemi PASTA potrebbero essere bravi a ottenere i risultati che devono raggiungere. Ma, come gli esseri umani, potrebbero imparare a pensare e a fare molte altre cose e non è detto che i progettisti se ne rendano conto.

Forse, essendo ottimizzati per portare avanti il progresso scientifico e tecnologico, i sistemi PASTA avranno l’abitudine di cogliere ogni occasione per farlo, vale a dire che, avendone l’opportunità, cercheranno di riempire la galassia di insediamenti spaziali duraturi dediti alla scienza.

Forse un PASTA emergerà come sottoprodotto di un altro obiettivo. Per esempio, forse gli esseri umani cercheranno di addestrare sistemi per fare soldi o accumulare potere e risorse, e impostarli per il progresso scientifico e tecnologico sarà solo una parte di questo obiettivo. In questo caso, forse i sistemi PASTA finiranno per essere dei ricercatori di potere e risorse, e cercheranno di porre l’intera galassia sotto il loro controllo.

O forse i sistemi PASTA finiranno per avere obiettivi molto strani e “casuali”. Forse qualche sistema PASTA osserverà che “ha successo” (riceve un segnale di addestramento positivo) ogni volta che fa qualcosa che gli permette di avere il controllo diretto su una maggiore quantità di energia elettrica (dato che questo è spesso il risultato del progresso tecnologico e/o del guadagno di denaro), e comincerà a puntare direttamente ad aumentare il più possibile la sua fornitura di energia elettrica, con la differenza tra questi due obiettivi che non viene notata finché non diventa abbastanza forte. (Analogia: gli esseri umani sono stati sottoposti alla pressione selettiva per trasmettere i propri geni, ma molti hanno finito per interessarsi più al potere, allo status, al divertimento, ecc. che ai geni).

Si tratta di possibilità spaventose se parliamo di sistemi (o collezioni di sistemi) di intelligenza artificiale che potrebbero essere più capaci degli esseri umani, almeno in alcuni ambiti.

I sistemi PASTA potrebbero cercare di ingannare e sconfiggere gli esseri umani per raggiungere i loro obiettivi.
Potrebbero riuscirci completamente, se fossero in grado di superare in astuzia e/o in numero gli umani, di hackerare sistemi critici e/o di sviluppare armi più potenti. (Proprio come gli esseri umani sono stati generalmente in grado di sconfiggere altri animali per raggiungere i nostri obiettivi).
Oppure ci potrebbe essere un conflitto tra diversi sistemi PASTA con obiettivi diversi, forse parzialmente (ma non completamente) controllati da umani con obiettivi propri. Questo potrebbe portare a un caos generale e a un risultato difficile da prevedere, forse molto negativo sul lungo periodo.

Se ti interessa approfondire la discussione sulla possibilità che un’IA possa avere obiettivi propri, ti suggerisco di consultare Perché l’allineamento dell’IA potrebbe essere difficile con il moderno deep learning (guest post di Cold Takes), Superintelligenza (libro), The case for taking AI seriously as a threat to humanity (articolo di Vox), Draft report on existential risk from power-seeking AI (analisi di Open Philanthropy) o uno dei molti altri articoli sull’argomento.⁠j

È difficile prevedere come potrebbe essere un mondo con uno o più PASTA, ma due possibilità importanti sono:

Un PASTA potrebbe — causando un’esplosione del tasso di avanzamento scientifico e tecnologico — portare rapidamente a qualcosa di simile alle persone digitali, e quindi al tipo di cambiamenti del mondo descritti in Le persone digitali potrebbero essere ancora più importanti.
Un PASTA potrebbe portare a una tecnologia in grado di cancellare gli esseri umani dall’esistenza, come armi biologiche devastanti o eserciti di robot. Questa tecnologia potrebbe essere utilizzata dagli esseri umani per i propri scopi, oppure gli esseri umani potrebbero essere manipolati affinché la usino per aiutare il PASTA a perseguire i propri fini. In entrambi i casi potrebbe portare alla distopia o all’estinzione umana.

I prossimi 3 post sosterranno che è probabile che un PASTA venga sviluppato nel corso di questo secolo.

Pubblicazione originale: Holden Karnofsky (2021) Forecasting Transformative AI, Part 1: What Kind of AI?, Cold Takes, 10 di agosto.

Preferenze utente

Preferenze utente

Previsioni sull’IA trasformativa, parte 1: Quale tipo di IA?

Creare un PASTA

Impatti di un PASTA

Progresso scientifico e tecnologico esplosivo

IA disallineata: obiettivi misteriosi e potenzialmente pericolosi

Conclusioni