Ipotesi di scalemento
L’ ipotesi di scalamento sostiene che, con l’attuale paradigma dell’apprendimento profondo, è possibile ottenere modelli sempre più capaci semplicemente addestrando reti neurali sempre più grandi. Nelle parole di Gwern Branwen, che ha reso popolare l’ipotesi di scalamento, “le reti neurali più potenti sono ‘solo’ reti neurali deboli scalate, proprio come i cervelli umani assomigliano a cervelli di primati scalati”1.
Rohin Shah, ricercatore di sicurezza dell’IA, ritiene che l’ipotesi di scalemento sia l’ipotesi più importante per la previsione sull’IA2.
Gwern Branwen (2020) The scaling hypothesis, Gwern.Net, 28 di maggio (ultimo aggiornamento: 2 di gennaio di 2022).
Jared Kaplan et al. (2020) Scaling Laws for Neural Language Models, arXiv:2001.08361 [cs, stat].