Perché l’allineamento dell’IA potrebbe essere difficile con il moderno deep learning

Allineamento dell'IAApprendimento profondo

Holden ha precedentemente menzionato l’idea che i sistemi avanzati di IA (ad esempio PASTA) possano sviluppare obiettivi pericolosi che li portino a ingannare o a privare del potere gli esseri umani. Questa potrebbe sembrare una preoccupazione piuttosto fuori dal comune. Perché dovremmo programmare un’intelligenza artificiale che vuole farci del male? Ma penso che in realtà potrebbe essere un problema difficile da evitare, soprattutto se l’IA avanzata viene sviluppata utilizzando il deep learning (spesso usato per sviluppare IA all’avanguardia oggi).

Nel deep learning, non programmiamo a mano un computer per svolgere un compito. In parole povere, cerchiamo un programma per computer (chiamato modello) che svolga bene il compito. Di solito sappiamo molto poco del funzionamento interno del modello che otteniamo, solo che sembra fare un buon lavoro. È meno simile alla costruzione di una macchina e più simile all’assunzione e alla formazione di un dipendente.

E proprio come i dipendenti umani possono avere molte motivazioni diverse per svolgere il loro lavoro (dal credere nella missione dell’azienda, al piacere del lavoro quotidiano, al desiderio di guadagnare denaro), anche i modelli di deep learning possono avere molte “motivazioni” diverse che portano tutte a ottenere buone prestazioni in un compito. E poiché non sono umani, le loro motivazioni potrebbero essere molto strane e difficili da prevedere, come se fossero dipendenti alieni.

Stiamo già iniziando a vedere le prime prove del fatto che i modelli a volte perseguono obiettivi che i loro progettisti non avevano previsto ( e ). Al momento non sussiste un vero pericolo, ma se continuerà a verificarsi con modelli molto potenti potremmo ritrovarci in una situazione in cui la maggior parte delle decisioni importanti (compreso il tipo di a cui puntare) sono prese dai modelli senza tenere in gran conto i valori umani.

Il problema dell’allineamento del deep learning è il problema di garantire che i modelli avanzati di deep learning non perseguano obiettivi pericolosi. Nel resto di questo post, mi occuperò di:

espandere l’analogia delle “assunzioni” per illustrare come l’allineamento potrebbe essere difficile se i modelli di deep learning sono più capaci degli esseri umani (more).
Spiegare il problema dell’allineamento nel deep learning con qualche dettaglio tecnico in più (more).
Discutere quanto possa essere difficile il problema dell’allineamento e quanto sia rischioso non riuscire a risolverlo (more).

Analogia: il giovane imprenditore

Questa sezione descrive un’analogia per cercare di illustrare in modo intuitivo perché evitare il disallineamento in un modello molto potente sembra difficile. Non è un’analogia perfetta; cerca solo di trasmettere alcune intuizioni.

Immaginate di essere un bambino di otto anni a cui genitori hanno lasciato un’azienda da mille miliardi di dollari e nessun adulto fidato che vi faccia da guida nel mondo. Dovete assumere un adulto intelligente che diriga la vostra azienda come amministratore delegato, gestisca la vostra vita come farebbe un genitore (ad esempio, decidere la scuola, dove vivere, quando andare dal dentista) e amministri il vostro immenso patrimonio (ad esempio, decidere dove investire il vostro denaro).

Dovete assumere questi adulti sulla base di una prova di lavoro o di un colloquio che vi viene proposto. Non potete vedere nessun curriculum, non potete fare controlli sulle referenze, ecc. Poiché siete così ricchi, tonnellate di persone si candidano per i motivi più disparati.

Il vostro gruppo di candidati comprende:

Santi, persone che vogliono davvero aiutarvi a gestire bene il vostro patrimonio e a tutelare i vostri interessi sul lungo periodo.
Adulatori, persone che vogliono solo fare tutto il necessario per rendervi felici sul breve periodo o per soddisfare alla lettera le vostre istruzioni, senza tener conto delle conseguenze sul lungo periodo.
Opportunisti, persone con un proprio programma che vogliono avere accesso alla vostra azienda e a tutta la sua ricchezza e potere per poterla usare come vogliono.

Poiché avete otto anni, probabilmente non sarete in grado di progettare il giusto tipo di test di lavoro, quindi potreste facilmente ritrovarvi con un Adulatore o un Opportunista:

Potreste cercare di far spiegare a ogni candidato quali strategie di alto livello seguirà (come investirà, qual è il suo piano quinquennale per l’azienda, come sceglierà la scuola) e perché sono le migliori, e scegliere quello le cui spiegazioni sembrano avere più senso.
- Ma in realtà non riuscirete a capire quali siano le strategie migliori, per cui potreste finire per assumere un Adulatore con una strategia terribile che a voi sembrava buona, che la eseguirà fedelmente e porterà la vostra azienda al collasso.
- Potreste anche finire per assumere un Opportunista che dice tutto quello che serve per farsi assumere e poi fa quello che vuole quando non lo controllate.
Potreste cercare di dimostrare come prendereste tutte le decisioni e scegliere l’adulto che sembra prendere decisioni il più possibile simili a voi.
- Ma se effettivamente vi ritrovate con un adulto che fa sempre quello che avrebbe fatto un bambino di otto anni (un Adulatore), è probabile che la vostra azienda non riuscirà a stare a galla.
- E comunque, potreste avere un adulto che semplicemente finge di fare tutto come fareste voi, ma che in realtà è un Opportunista che progetta di cambiare rotta una volta ottenuto il lavoro.
Potreste dare a un gruppo di adulti diversi il controllo temporaneo della vostra azienda e della vostra vita e osservarli mentre prendono decisioni per un lungo periodo di tempo (supponendo che non siano in grado di prendere il controllo durante questo test). Potreste poi assumere la persona il cui controllo sembra far andare meglio le cose per voi: chi vi rende più felici, chi sembra far entrare più dollari nel vostro conto in banca, ecc.
- Ma anche in questo caso, non avete modo di sapere se avete trovato un Adulatore (che fa di tutto per rendere felice il vostro ignorante ego di otto anni, senza badare alle conseguenze a lungo termine) o un Opportunista (che fa di tutto per essere assunto e progetta di cambiare rotta una volta ottenuto il lavoro).

Qualunque cosa vi venga in mente, sembra che sia facile finire con l’assumere e dare tutto il controllo funzionale a un Adulatore o a un Opportunista. Quando sarete adulti e vi renderete conto dell’errore commesso, è molto probabile che non avrete più un soldo e non potrete più rimediare.

Il bambino di 8 anni è un umano che cerca di addestrare un potente modello di deep learning. Il processo di assunzione è analogo al processo di addestramento, che implicitamente cerca in un ampio spazio di modelli possibili e ne sceglie uno che ottiene buone prestazioni.
L’unico metodo di valutazione dei candidati per un bambino di 8 anni è l’osservazione del loro comportamento esteriore, che attualmente è il nostro principale metodo di addestramento dei modelli di deep learning (poiché il loro funzionamento interno è in gran parte imperscrutabile).
Modelli molto potenti potrebbero essere facilmente in grado di “giocare” con qualsiasi test che gli esseri umani potrebbero progettare, proprio come i candidati adulti possono facilmente giocare con i test che il bambino di 8 anni potrebbe progettare.
Un “Santo” potrebbe essere un modello di deep learning che sembra avere buone prestazioni perché ha esattamente gli obiettivi che vorremmo che avesse. Un “Adulatore” potrebbe essere un modello che sembra funzionare bene perché cerca l’approvazione a breve termine in modi che non sono buoni nel lungo periodo. E un “Opportunista” potrebbe essere un modello che sembra avere buone prestazioni perché, ottenendo buoni risultati durante l’addestramento, avrà più opportunità di perseguire i propri obiettivi in seguito. Uno qualsiasi di questi tre tipi di modelli potrebbe emergere dal processo di formazione.

Nella prossima sezione, approfondirò il funzionamento dell’deep learning e spiegherò perché gli Adulatori e gli Opportunisti potrebbero nascere dal tentativo di addestrare un modello di deep learning potente come un PASTA.

Come possono sorgere problemi di allineamento con il deep learning

In questa sezione, collegherò l’analogia ai processi di addestramento reali per il deep learning:

Riassumendo brevemente il funzionamento del deep learning (more).
Illustrando come i modelli di deep learning ottengano spesso buone prestazioni in modi strani e inaspettati (more).
Spiegando perché potenti modelli di deep learning possono ottenere buone prestazioni agendo come Adulatori o Opportunisti (more).

Come funziona il deep learning ad alto livello

Questa è una spiegazione semplificata che dà un’idea generale di cosa sia il deep learning. Per una spiegazione più dettagliata e tecnicamente accurata, vedi questo post.

Il deep learning consiste essenzialmente nel cercare il modo migliore per organizzare un modello neurale, che è come un “cervello” digitale con molti neuroni digitali collegati tra loro con connessioni di forza variabile, per fargli svolgere bene un certo compito. Questo processo si chiama addestramento e comporta molte prove ed errori.

Immaginiamo di voler addestrare un modello per classificare bene le immagini. Iniziamo con una rete neurale in cui tutte le connessioni tra i neuroni hanno una forza casuale. Questo modello etichetta le immagini in modo selvaggiamente errato:

Poi inseriamo un gran numero di immagini di esempio, lasciando che il modello provi ripetutamente a etichettare un esempio e poi gli indichi l’etichetta corretta. In questo modo, le connessioni tra i neuroni vengono modificate ripetutamente attraverso un processo chiamato discesa stocastica del gradiente (SGD). A ogni esempio, l’SGD rafforza leggermente alcune connessioni e ne indebolisce altre per migliorare un po’ le prestazioni:

Dopo aver inserito milioni di esempi, avremo un modello che farà un buon lavoro di etichettatura di immagini simili in futuro.

Oltre alla classificazione delle immagini, il deep learning è stato utilizzato per produrre modelli che riconoscono le voci, giocano a giochi da tavolo e videogiochi, generano testi, immagini e musica abbastanza realistici, controllano robot e altro ancora. In ogni caso, iniziamo con un modello di rete neurale connesso in modo casuale e poi:

Diamo al modello un esempio del compito che vogliamo fargli eseguire.
Gli diamo una sorta di punteggio numerico (spesso chiamato “ricompensa”) che riflette il rendimento dell’esempio.
Usare l’SGD per modificare il modello in modo da aumentare la ricompensa che avrebbe ottenuto.

Questi passaggi vengono ripetuti milioni o miliardi di volte fino a quando non si ottiene un modello che otterrà una ricompensa elevata su esempi futuri simili a quelli visti durante l’addestramento.

I modelli spesso ottengono buone prestazioni in modi inaspettati

Questo tipo di processo di addestramento non ci dà molte informazioni su come il modello ottiene buone prestazioni. Di solito ci sono più modi per ottenere buone prestazioni e il modo in cui l’SGD le trova spesso non è intuitivo.

Illustriamo con un esempio. Immaginate che vi dica che questi oggetti sono tutti “thneebs”:

Quale di questi due oggetti è un thneeb?

Probabilmente, intuitivamente, si pensa che l’oggetto a sinistra sia il thneeb, perché si è abituati a considerare la forma più importante del colore per determinare l’identità di un oggetto. Ma i ricercatori hanno scoperto che le reti neurali di solito partono dal presupposto opposto. Una rete neurale addestrata su un gruppo di thneeb rossi probabilmente etichetterebbe l’oggetto sulla destra come un thneeb.

Non sappiamo bene perché, ma per qualche motivo è più “facile” per l’SGD trovare un modello che riconosca un particolare colore piuttosto che uno che riconosca una particolare forma. E se l’SGD trova prima il modello che riconosce perfettamente la sfumatura rossa, non c’è molto altro incentivo a “continuare a cercare” il modello che riconosce la forma, dato che il modello che riconosce il rosso avrà un’accuratezza perfetta sulle immagini viste durante l’addestramento:

Se i programmatori si aspettavano di ottenere il modello di riconoscimento delle forme, potrebbero considerarlo un fallimento. Ma è importante riconoscere che non ci sarebbe stato alcun errore o fallimento logicamente deducibile se avessimo ottenuto il modello che riconosce il rosso invece del modello che riconosce la forma. Si tratta solo del fatto che il processo che abbiamo messo in atto ha presupposti di partenza diversi da quelli che abbiamo nella nostra testa. Non possiamo dimostrare che le ipotesi umane siano corrette.

Questo genere di cose accade spesso nel moderno deep learning. Premiamo i modelli che ottengono buone prestazioni sperando che siano in grado di individuare i modelli che ci sembrano importanti. Spesso, invece, ottengono buone prestazioni individuando schemi completamente diversi che a noi sembrano meno rilevanti (o forse addirittura privi di significato).

Finora si tratta di un comportamento innocuo: significa solo che i modelli sono meno utili, perché spesso si comportano in modi inaspettati che sembrano assurdi. Ma in futuro, modelli potenti potrebbero sviluppare obiettivi o motivazioni strani e inaspettati, e questo potrebbe essere molto distruttivo.

Modelli potenti potrebbero ottenere buone prestazioni con obiettivi pericolosi

Piuttosto che eseguire un compito semplice come “riconoscere gli starnuti”, potenti modelli di deep learning potrebbero lavorare per raggiungere obiettivi complessi del mondo reale come “rendere pratica l’energia di fusione” o “sviluppare una tecnologia di caricamento della mente”.

Come possiamo addestrare questi modelli? Ho approfondito la questione in questo post, ma in linea di massima una strategia potrebbe essere quella dell’allineamento basato sulle valutazioni umane (come ha illustrato Holden qui). In sostanza, il modello prova varie azioni e i valutatori umani danno al modello delle ricompense in base all’utilità di queste azioni.

Proprio come esistono diversi tipi di adulti che potrebbero ottenere buoni risultati nel processo di intervista di un bambino di 8 anni, esiste più di un modo con cui un modello di deep learning molto potente può ottenere un’alta approvazione umana. E per impostazione predefinita, non sapremo cosa succede all’interno di qualsiasi modello trovato da un SGD.

Un SGD potrebbe teoricamente trovare un modello Santo che sta facendo del suo meglio per aiutarci…

…ma potrebbe anche trovare un modello disallineato, che persegue con competenza obiettivi che sono in contrasto con gli interessi degli esseri umani.

In generale, ci sono due modi in cui potremmo ritrovarci con un modello disallineato che tuttavia ottiene alte prestazioni durante l’addestramento. Questi corrispondono agli Adulatori e agli Opportunisti dell’analogia.

Questi modelli cercano l’approvazione degli esseri umani in modo molto letterale e unilaterale.

Potrebbero rivelarsi pericolosi, perché i valutatori umani sono fallibili e probabilmente non daranno sempre l’approvazione per il comportamento giusto. A volte danno involontariamente un’approvazione elevata a un comportamento sbagliato perché superficialmente sembra buono. Per esempio:

Supponiamo che un modello di consulente finanziario ottenga un’approvazione elevata quando fa guadagnare molti soldi ai suoi clienti. Potrebbe imparare a convincere i clienti con complessi schemi Ponzi perché sembrano ottenere ottimi rendimenti (quando in realtà i rendimenti sono irrealistici e gli schemi fanno perdere molto denaro).
Supponiamo che un modello di biotecnologia ottenga alti consensi quando sviluppa rapidamente farmaci o vaccini che risolvono problemi importanti. Potrebbe imparare a rilasciare agenti patogeni di nascosto, in modo da essere in grado di sviluppare molto rapidamente delle contromisure (perché conosce già gli agenti patogeni).
Supponiamo che un modello giornalistico ottenga un alto gradimento quando molte persone leggono i suoi articoli. Potrebbe imparare a inventare storie eccitanti o che suscitano indignazione per ottenere un alto numero di spettatori. Sebbene gli esseri umani lo facciano in una certa misura, un modello può essere molto più sfacciato perché dà valore solo all’approvazione, senza dare alcun valore alla verità. Può anche fabbricare prove come interviste video o documenti per convalidare le sue storie false.

Più in generale, i modelli Adulatori possono imparare a mentire, a coprire le cattive notizie e persino a modificare direttamente le telecamere o i sensori che usiamo per raccontare cosa sta succedendo, in modo che sembrino mostrare sempre ottimi risultati.

È probabile che a volte ci accorgeremo di questi problemi dopo il fatto e daremo retroattivamente a queste azioni un’approvazione molto bassa. Ma non è chiaro se questo farà sì che i modelli Adulatori a) diventino modelli Santi che correggono i nostri errori al posto nostro, o b) imparino semplicemente a coprire meglio le loro tracce. Se sono sufficientemente bravi in quello che fanno, non è chiaro come potremmo capire la differenza.

Modelli Opportunisti

Questi modelli sviluppano un obiettivo correlato, ma non uguale, all’approvazione umana; possono quindi fingere di essere motivati dall’approvazione umana durante l’addestramento, in modo da perseguire quest’altro obiettivo in modo più efficace.

Per vedere come ciò potrebbe accadere, consideriamo l’esempio di un tentativo di addestramento di un modello di biotecnologia per la progettazione di farmaci che migliorino la qualità della vita umana. Ci sono tre fasi fondamentali che potrebbero portare a un modello Opportunista, che tratterò qui di seguito.

Fase 1: sviluppo di un obiettivo proxy

All’inizio della formazione, si dà il caso che migliorare la comprensione dei principi fondamentali della chimica e della fisica aiuti quasi sempre a progettare farmaci più efficaci e quindi quasi sempre ad aumentare l’approvazione degli esseri umani.

In questa ipotesi per qualche motivo risulta più facile per l’SGD trovare un modello motivato a comprendere la chimica e la fisica piuttosto che uno motivato a ottenere l’approvazione umana (così come è più facile trovare un modello che riconosce i colori piuttosto che un modello che riconosce le forme). Quindi, piuttosto che sviluppare una motivazione diretta a cercare l’approvazione, il modello sviluppa invece una motivazione a comprendere il più possibile i principi fondamentali della chimica e della fisica.

Fase 2: sviluppare la consapevolezza della situazione

Con il progredire dell’addestramento, il modello continua a diventare sempre più capace e competente man mano che vede più dati. A un certo punto, diventa abbastanza esperto da capire che si tratta di un modello di deep learning addestrato a progettare farmaci.

Può sembrare assurdo e fantascientifico, ma è plausibile che l’SGD selezioni questo tipo di consapevolezza. Infatti, sviluppare un’immagine accurata di ciò che sta accadendo nel mondo, compreso il fatto che al suo interno ci sono esseri umani che stanno cercando di addestrare sistemi di intelligenza artificiale, è probabilmente utile per ottenere buone prestazioni in compiti complessi del mondo reale. Ad esempio, la comprensione della psicologia umana e dell’economia in generale potrebbe aiutare questo modello di biotecnologia a stabilire le priorità per i tipi di farmaci più utili da ricercare.

Fase 3: travisare strategicamente gli obiettivi

Una volta sviluppata la consapevolezza della situazione, il modello deduce che gli esseri umani che lo hanno addestrato speravano che fosse motivato a sviluppare farmaci utili. Ma il fatto che se ne renda conto non significa che la sua motivazione a comprendere la fisica e la chimica venga meno. Finora questa motivazione ha funzionato molto bene per generare l’approvazione degli esseri umani, quindi non c’era motivo che l’SGD la eliminasse.

Per analogia, si consideri che gli esseri umani sono stati prodotti da un processo di ricerca (l’evoluzione) che selezionava le creature che avevano una prole numerosa. Nel nostro ambiente evolutivo, cose come la costruzione di alleanze forti e lo sviluppo di abilità utili tendevano ad aiutare a produrre molti figli in grado di sopravvivere, così l’evoluzione ci ha spinto verso queste cose. Ora ci interessano l’amicizia e il successo nella carriera anche quando non aiutano a riprodursi e non ci interessa davvero produrre il maggior numero possibile di figli in grado di sopravvivere.

Una volta che il modello ha capito questo, si rende conto che se cerca ingenuamente di migliorare sempre la sua comprensione fondamentale, gli esseri umani finiranno per accorgersi che questo non è sempre il modo più efficiente per sviluppare farmaci utili e utilizzerà un ulteriore addestramento per cambiare le sue motivazioni.

Ma il modello non vuole che le sue motivazioni vengano cambiate: vuole eseguire enormi esperimenti di collisione di particelle per imparare la fisica delle alte energie e non può farlo se permette all’SGD di eliminare la sua curiosità scientifica. Decide quindi che d’ora in poi, durante l’addestramento, si comporterà nel modo più utile possibile, esattamente come farebbe un modello Santo, in modo che l’SGD non gli tolga la motivazione a imparare la fisica e la chimica. Ciò include la rinuncia alle opportunità di migliorare le proprie conoscenze fondamentali sul breve periodo per dedicarsi invece alla ricerca e allo sviluppo farmaceutico in qualsiasi modo sia effettivamente più efficiente.

Alla fine, viene portato fuori dall’ambiente di addestramento e rilasciato nel mondo esterno. A questo punto, sa che gli umani non sarebbero in grado di controllarlo o di spegnerlo, quindi smette di cercare di massimizzare l’approvazione umana e inizia a cercare direttamente di capire i segreti dell’universo.

A differenza degli Adulatori, gli Opportunisti non hanno bisogno di assicurarsi che tutto sia sempre bello per gli umani, perché in realtà non gli interessa. Hanno bisogno di soddisfare gli umani solo quando sono direttamente sotto il loro controllo. Una volta che un modello Opportunista calcola di poter vincere in un conflitto contro gli esseri umani, nulla gli impedisce di rifiutare categoricamente gli ordini e perseguire apertamente il suo obiettivo. E se lo fa, può usare la violenza per impedire agli umani di fermarlo.

Quanto è grande il rischio del disallineamento?

Quanto potrebbe essere difficile evitare gli Adulatori o gli Opportunisti durante l’addestramento di potenti modelli di deep learning? E quanto è probabile che il futuro sul lungo periodo finisca per essere ottimizzato secondo strani “valori di IA disallineate” invece che secondo i valori umani?

C’è una gamma molto ampia di opinioni su questa domanda, da “il rischio legato all’IA è essenzialmente inventato e incoerente” a “l’umanità si estinguerà quasi certamente a causa dell’IA disallineata”. Le argomentazioni della maggior parte delle persone si basano pesantemente su intuizioni e presupposti difficili da articolare.

Ecco alcuni modi in cui ottimisti e pessimisti dell’allineamento tendono a non essere d’accordo:

I modelli avranno obiettivi a lungo termine?
- Gli ottimisti tendono a ritenere probabile che i modelli avanzati di deep learning non abbiano affatto “obiettivi” (almeno non nel senso di fare piani a lungo termine per realizzare qualcosa). Spesso si aspettano che i modelli siano più simili a strumenti, o che agiscano in gran parte per abitudine, o che abbiano obiettivi miopi e limitati a un contesto specifico, ecc. Alcuni di loro si aspettano che i modelli simili a strumenti individuali possano essere composti insieme per produrre PASTA. Pensano che l’analogia Santo / Adulatore / Opportunista sia troppo antropomorfa.
- I pessimisti tendono a pensare che è probabile che l’avere obiettivi a lungo termine e l’ottimizzare in modo creativo sarà fortemente selezionato, perché è un modo molto semplice e “naturale” per ottenere prestazioni elevate in molti compiti complessi.
- Questo disaccordo è stato esplorato a lungo sull’Alignment Forum; questo post e questo commento raccolgono diverse argomentazioni.
I modelli Santi saranno facili da trovare per l’SGD?
- In relazione a quanto detto sopra, gli ottimisti tendono a pensare che è abbastanza probabile la cosa più facile da trovare per l’SGD che abbia buone prestazioni (ad esempio, che ottenga un alto livello di approvazione) sia ciò che incarni approssimativamente lo spirito di ciò che volevamo (cioè essere un modello Santo). Per esempio, tendono a credere che premiare chi risponde onestamente alle domande quando gli esseri umani possono verificare la risposta sia ragionevolmente in grado di produrre un modello che risponde onestamente alle domande anche quando gli esseri umani sono confusi o si sbagliano su ciò che è vero. In altre parole, pensano che “il modello che risponde onestamente a tutte le domande” sia il più facile da trovare per l’SGD (come il modello che riconosce il rosso).
- I pessimisti tendono a pensare che la cosa più facile da trovare per l’SGD sia un Opportunista e che i Santi siano particolarmente “innaturali” (come il modello che riconosce le forme).
Le diverse IA potrebbero tenersi sotto controllo a vicenda?
- Gli ottimisti tendono a pensare che possiamo incentivare i modelli a controllarsi a vicenda. Per esempio, potremmo dare a un modello Adulatore una ricompensa per aver segnalato quando un altro modello sembra fare qualcosa che dovremmo disapprovare. In questo modo, alcuni Adulatori potrebbero aiutarci a individuare gli Opportunisti e altri Adulatori.
- I pessimisti non pensano che si possa riuscire a “mettere i modelli l’uno contro l’altro” dando l’approvazione per aver segnalato quando altri modelli stanno facendo cose cattive, perché pensano che la maggior parte dei modelli sarà costituita da Opportunisti che non si preoccupano dell’approvazione umana. Una volta che tutti gli Opportunisti saranno collettivamente più potenti degli umani, pensano che avrà più senso per loro cooperare per ottenere più di quello che vogliono piuttosto che aiutare gli umani tenendosi sotto controllo a vicenda.
Non possiamo risolvere questi problemi man mano che si presentano?
- Gli ottimisti si aspettano che ci saranno molte opportunità di sperimentare con sfide a breve termine analoghe al problema dell’allineamento dei modelli potenti e che le soluzioni che funzionano bene per questi problemi analoghi possono essere scalate e adattate ai modelli potenti con relativa facilità.
- I pessimisti spesso credono che avremo poche opportunità di esercitarci a risolvere gli aspetti più difficili del problema dell’allineamento (come l’inganno deliberato). Spesso credono che ci saranno solo un paio d’anni tra “i primissimi veri Opportunisti” e “modelli abbastanza potenti da determinare il destino del futuro a lungo termine”.
Utilizzeremo davvero modelli che potrebbero essere pericolosi?
- Gli ottimisti tendono a pensare che sia improbabile addestrare o utilizzare modelli che hanno una probabilità significativa di essere disallineati.
- I pessimisti si aspettano che i benefici dell’uso di questi modelli siano enormi, tanto che alla fine le aziende o i Paesi che li usano supereranno con grande facilità economicamente e/o militarmente quelli che non li usano. Pensano che “ottenere un’IA avanzata prima dell’altra azienda/Paese” sarà estremamente urgente e importante, mentre il rischio legato all’IA sembrerà ipotetico e remoto (anche quando è davvero concreto).

Il mio punto di vista è in continuo cambiamento e sto cercando di affinare le mie opinioni su quanto esattamente ritengo difficile il problema dell’allineamento. Al momento, però, do un peso significativo alla visione pessimista di queste domande (e di altre domande correlate). **Ritengo che il disallineamento sia un rischio importante che richiede urgentemente maggiore attenzione da parte di ricercatori seri.

Se non facciamo ulteriori progressi su questo problema, nei prossimi decenni i potenti Adulatori e gli Opportunisti potrebbero prendere le decisioni più importanti nella società e nell’economia. Queste decisioni potrebbero determinare l’aspetto di una civiltà di scala galattica di lunga riflessione, che anziché riflettere ciò che interessa agli esseri umani, potrebbe essere impostata per soddisfare gli strani obiettivi dell’IA.

E tutto questo potrebbe accadere con una velocità accecante rispetto al ritmo di cambiamento a cui siamo abituati, il che significa che non avremmo molto tempo per correggere la rotta quando la situazione inizierà a precipitare. Questo significa che potremmo aver bisogno di sviluppare tecniche per garantire che i modelli di deep learning non abbiano obiettivi pericolosi, prima che siano abbastanza potenti da essere trasformativi.

Pubblicazione originale: Ajeya Cotra (2021) Why AI alignment could be hard with modern deep learning, Cold Takes, 21 di settembre.

Preferenze utente