Gli attuali sistemi di machine learning non sono in genere molto trasparenti o interpretabili. È possibile utilizzare l’output di un modello, ma quest’ultimo non è in grado di dire perché ha prodotto quell’output. Questo rende difficile determinare la causa delle distorsioni nei modelli di machine learning.2
L’interpretabilità è al centro del lavoro di Chris Olah e Antropica, anche se molte organizzazioni che si occupano di allineamento dell’IA lavorano in qualche misura sull’interpretabilità.3 .