OpenAI sbircia nella “scatola nera” delle reti neurali con nuove ricerche

Benj Edwards - 11 maggio 2023 21:25 UTC

Martedì, OpenAI ha pubblicato un nuovo documento di ricerca che descrive in dettaglio una tecnica che utilizza il suo modello linguistico GPT-4 per scrivere spiegazioni sul comportamento dei neuroni nel suo vecchio modello GPT-2, anche se in modo imperfetto. È un passo avanti per l'"interpretabilità", un campo dell'intelligenza artificiale che cerca di spiegare perché le reti neurali creano gli output che creano.

Mentre i modelli linguistici di grandi dimensioni (LLM) stanno conquistando il mondo della tecnologia, i ricercatori dell’intelligenza artificiale non sanno ancora molto sulle loro funzionalità e capacità. Nella prima frase dell'articolo di OpenAI, gli autori scrivono: "I modelli linguistici sono diventati più capaci e più ampiamente utilizzati, ma non capiamo come funzionano".

Per gli estranei, ciò probabilmente suona come un’ammissione sbalorditiva da parte di un’azienda che non solo dipende dalle entrate dei LLM, ma spera anche di accelerarli verso livelli di capacità di ragionamento oltre quelli umani.

Ma questa proprietà di “non sapere” esattamente come i singoli neuroni di una rete neurale lavorano insieme per produrre i suoi output ha un nome ben noto: scatola nera. Alimenti gli input della rete (come una domanda) e ottieni output (come una risposta), ma qualunque cosa accada nel mezzo (all'interno della "scatola nera") è un mistero.

Nel tentativo di sbirciare all'interno della scatola nera, i ricercatori di OpenAI hanno utilizzato il suo modello linguistico GPT-4 per generare e valutare spiegazioni in linguaggio naturale per il comportamento dei neuroni in un modello linguistico molto meno complesso, come GPT-2. Idealmente, avere un modello di intelligenza artificiale interpretabile aiuterebbe a contribuire all’obiettivo più ampio di quello che alcuni chiamano “allineamento dell’intelligenza artificiale”, garantendo che i sistemi di intelligenza artificiale si comportino come previsto e riflettano i valori umani. E automatizzando il processo di interpretazione, OpenAI cerca di superare i limiti della tradizionale ispezione manuale umana, che non è scalabile per reti neurali più grandi con miliardi di parametri.

La tecnica di OpenAI "cerca di spiegare quali schemi nel testo causano l'attivazione di un neurone". La sua metodologia si compone di tre fasi:

Per capire come funziona il metodo di OpenAI è necessario conoscere alcuni termini: neurone, circuito e testa di attenzione. In una rete neurale, un neurone è come una piccola unità decisionale che assorbe informazioni, le elabora e produce un output, proprio come una piccola cellula cerebrale che prende una decisione in base ai segnali che riceve. Un circuito in una rete neurale è come una rete di neuroni interconnessi che lavorano insieme, trasmettendo informazioni e prendendo decisioni collettivamente, simile a un gruppo di persone che collaborano e comunicano per risolvere un problema. E una testa di attenzione è come un riflettore che aiuta un modello linguistico a prestare maggiore attenzione a parole specifiche o parti di una frase, permettendogli di comprendere e acquisire meglio informazioni importanti durante l’elaborazione del testo.

Identificando neuroni e punti di attenzione specifici all'interno del modello che devono essere interpretati, GPT-4 crea spiegazioni leggibili dall'uomo per la funzione o il ruolo di questi componenti. Genera anche un punteggio esplicativo, che OpenAI chiama "una misura della capacità di un modello linguistico di comprimere e ricostruire le attivazioni dei neuroni utilizzando il linguaggio naturale". I ricercatori sperano che la natura quantificabile del sistema di punteggio consentirà progressi misurabili nel rendere comprensibili agli esseri umani i calcoli della rete neurale.

Quindi, quanto funziona? In questo momento, non è così eccezionale. Durante i test, OpenAI ha confrontato la sua tecnica con un appaltatore umano che ha eseguito manualmente valutazioni simili e ha scoperto che sia GPT-4 che l'appaltatore umano "hanno ottenuto punteggi scarsi in termini assoluti", il che significa che l'interpretazione dei neuroni è difficile.

Una spiegazione avanzata da OpenAI per questo fallimento è che i neuroni potrebbero essere "polisemanti", il che significa che il neurone tipico nel contesto dello studio può mostrare più significati o essere associato a più concetti. In una sezione sulle limitazioni, i ricercatori di OpenAI discutono sia dei neuroni polisemantici che delle "caratteristiche aliene" come limitazioni del loro metodo: