Interpretabilità dell’IA

L’interpretabilità dell’IA (o interpretabilità, in breve) è la capacità, da parte degli esseri umani o altri osservatori esterni, di comprendere i processi decisionali e il funzionamento interno dei sistemi di IA e di machine learning.⁠1

Gli attuali sistemi di machine learning non sono in genere molto trasparenti o interpretabili. È possibile utilizzare l’output di un modello, ma quest’ultimo non è in grado di dire perché ha prodotto quell’output. Questo rende difficile determinare la causa delle distorsioni nei modelli di machine learning.⁠2

L’interpretabilità è al centro del lavoro di Chris Olah e Antropica, anche se molte organizzazioni che si occupano di allineamento dell’IA lavorano in qualche misura sull’interpretabilità.⁠3 .

Voci correlate

rischio dell’IA • sicurezza dell’IA • intelligenza artificiale • estrazione delle conoscenze latenti