Estrazione delle conoscenze latenti
L’estrazione delle conoscenze latenti è un problema legato alla sicurezza dell’IA identificato da Paul Christiano, Ajeya Cotra e Mark Xu in un rapporto omonimo. Gli autori lo caratterizzano come segue:1
Supponiamo di addestrare un modello per prevedere come sarà il futuro in base a telecamere e altri sensori. Utilizziamo quindi algoritmi di pianificazione per trovare una sequenza di azioni che portino a futuri previsti che ci sembrano buoni.
Ma alcune sequenze di azioni potrebbero manomettere le telecamere in modo da mostrare esseri umani felici indipendentemente da ciò che sta realmente accadendo. Più in generale, alcuni futuri sembrano fantastici secondo le telecamere, ma in realtà sono catastroficamente negativi.
In questi casi, il modello di previsione “conosce” dei fatti (come “la telecamera è stata manomessa”) che non sono visibili dalla telecamera, ma che cambierebbero la nostra valutazione del futuro previsto se li apprendessimo. Come possiamo addestrare questo modello a segnalare la sua conoscenza latente di eventi che non sono sullo schermo?
Paul Christiano, Ajeya Cotra & Mark Xu (2021) Eliciting Latent Knowledge, Alignment Research Center.
Marius Hobbhahn (2022) Eliciting Latent Knowledge (ELK) - Distillation/summary, AI Alignment Forum, 8 di giugno.