Interpretabilità dell’IA
L’interpretabilità dell’IA (o interpretabilità, in breve) è la capacità, da parte degli esseri umani o altri osservatori esterni, di comprendere i processi decisionali e il funzionamento interno dei sistemi di IA e di machine learning.1
Gli attuali sistemi di machine learning non sono in genere molto trasparenti o interpretabili. È possibile utilizzare l’output di un modello, ma quest’ultimo non è in grado di dire perché ha prodotto quell’output. Questo rende difficile determinare la causa delle distorsioni nei modelli di machine learning.2
L’interpretabilità è al centro del lavoro di Chris Olah e Antropica, anche se molte organizzazioni che si occupano di allineamento dell’IA lavorano in qualche misura sull’interpretabilità.3 .
Voci correlate
rischio dell’IA • sicurezza dell’IA • intelligenza artificiale • estrazione delle conoscenze latenti