Test di Turing e altre valutazioni per l' "intelligenza" dell'IA

Giulio_M

Oggi si parla molto di Intelligenza Artificiale, abbiamo visto ChatGPT, poi Google Bard, ImageAI ecc.

Facciamo ora il punto della situazione per quanto riguarda i test di valutazione dell'IA delle macchine, con le varie classificazioni e commenti.

Per prima cosa, questa importantissima distinzione:

IA forte: macchina in grado di emulare/superare le capacità cognitive dell'uomo (autocoscienza, ecc). Oggi NON esiste ancora e probabilmente siamo molto lontani, anche proprio dal punto di vista concettuale, come approccio allo sviluppo dei software (ora come ora, possono avere un database sempre più grande, pescare nel database e fornire la risposta su base probabilistica); vedi la mia risposta alla discussione Non riusciremo MAI a produrre una vera Intelligenza artificiale?
IA debole: risolvere compiti specifici, entro vincoli e confini ben specifici; questo anche se la risposta "si presenta bene", come "funzionamento profondo" del software, la base è sempre molto semplicistica e diciamo, semplicemente "si vende bene"; con prompt diversi, domande un po' più specifiche dimostriamo facilmente le varie lacune presenti, soprattutto il fatto che il software NON ragiona, non comprende realmente l'input fornito

Parliamo ora di test: come possiamo valutare un Intelligenza Artificiale?

Test di Turing - versione tradizionale: pubblicato nel 1950 da Alan Turing, si tratta di ritenere intelligente una macchina se può ingannare un essere umano nella conversazione (ad esempio un chatbot): se l'umano che valuta non riesce a capire se sta parlando con un essere umano oppure una macchina, significa che la macchina è sufficientemente "intelligente" e ha superato il test. Dal punto di vista concettuale, andava bene forse nel 1950, oggi ha più senso valutare test differenti, anche per il diverso sviluppo che ha seguito l'IA (non necessariamente lo scopo è quello linguistico di "sembrare un essere umano"); quindi sono nate delle varianti al test di Turing (dato che il software Eugene Goostman ha superato il test nel 2014, "fregando i giudici", approfondimento):
- Turing test totale: elaborato nel 2010, oltre al test tradizionale vengono aggiunte due prove: la capacità di percezione tramite visione artificiale e manipolare oggetti quindi robotica
- Test di Turing dell'esperto: più che universalità è invece una restrizione, vale a dire che all'interno di un determinato ambito, un esperto del settore non riesce a discriminare fra macchina e umano (interessa solo il risultato in quel campo)
- Test del minimo segnale intelligente: ci si concentra solo sulla capacità di pensiero, risposta binaria (vero/falso) quindi diciamo, non è consentito provare a "vendersi bene" 😁 assomiglia più ad un test del QI e in genere viene usato per comparare i risultati ottenuti da diverse intelligenze artificiali
- Test di Turing inverso e CAPTCHA: il CAPTCHA è conosciuto (e odiato) da tutti, lo possiamo intendere come un test di Turing inverso poiché viene chiesto all'umano di dimostrare di non essere un robot (appunto per evitare la presenza di programmi automatici): quindi è la macchina a valutare noi
Test Hutter Prize: la comprensione del testo in linguaggio naturale è stata ritenuta più efficace rispetto alle precedenti varianti del test di Turing
Test di Lovelace: nel 2001 è stata sviluppata questa idea, basata sul concetto di creatività (chiedere al software di creare qualcosa, una poesia, una storia, ecc); il test si considera superato se il programmatore dell'IA non fosse stato in grado di spiegare come sia stata possibile tale risposta; una nuova versione invece compara la capacità di inventare a ruota libera (creatività) con la capacità di inventare attenendosi a delle regole ("raccontami una storia/poesia che parla di questo..."); approfondimento: loveleace.pdf
Schema di Winograd (WSC): sviluppato nel 2012, l'aspetto chiave è che le domande derivano da "schemi di Winograd", strutturati in modo da discriminare buonsenso e ragionamento in vari campi diversi; scritti in modo tale da evitare ambiguità linguistiche che potrebbero incidere sul risultato; un esempio è questo (in inglese):

The city councilmen refused the demonstrators a permit because they [feared/advocated] violence
The choices of "feared" and "advocated" turn the schema into its two instances:
The city councilmen refused the demonstrators a permit because they feared violence.
The city councilmen refused the demonstrators a permit because they advocated violence.
The schema challenge question is, "Does the pronoun 'they' refer to the city councilmen or the demonstrators?" Switching between the two instances of the schema changes the answer

In particolare quest'ultimo test, WSC sembra essere quello più accreditato al momento (una volta compreso, può anche essere interessante provarlo fai-da-te, magari con varianti, comparare ChatGPT, Google Bard così come altri tool di IA, creare una statistica di dati e comparare poi i risultati, ricordando che in lingua inglese generalmente il risultato è sempre più accurato rispetto alla lingua italiana).

Secondo studi del 2023 (fonte: paperswithcode.com) i risultati sono questi:

GPT-4 (OpenAI, ChatGPT Plus): 87,5%
PaLM 2-L (Google): 83%
GPT-3.5 (OpenAI, ChatGPT Free): 81,6%

Cosa ne pensate? 🙂 Quale vi sembra un criterio valido e/o cosa avrebbe senso valutare secondo voi (fra questi elencati oppure altri) per poter giudicare, valutare un'Intelligenza Artificiale?

Apple Lover - I am Kenough

Giulio_M prende il nome da Alan Turing? Un grandissimo uomo.

𝙏𝙝𝙚 𝙊𝙣𝙚 𝙁𝙧𝙤𝙢 𝙏𝙝𝙚 𝙑𝙖𝙪𝙡𝙩 ®

Giulio_M Secondo me un test interessante sarebbe chiedere all'intelligenza artificiale di inventare qualcosa. Che cosa? Questo è il punto, non bisogna fornire alcuna indicazione. Le AI sono brave ad esempio a creare storie, immagini, ecc. partendo da indicazioni ben specifiche che usano come dati di riferimento. Ma se la richiesta alla AI è: "inventa qualcosa, quello che vuoi tu", questo sì che sarebbe interessante. Secondo me inizierebbe a sparare cose a random perché non avrebbe dei dati da cui partire oppure, semplicemente, direbbe che non capisce la domanda perché non ha abbastanza informazioni.
Un altro test interessante sarebbe mettere la AI di fronte a una situazione completamente nuova, che non può analizzare con i dati che già ha disposizione, e vedere la sua reazione. Un umano probabilmente inizierebbe ad analizzare il contesto e cercare informazioni ma, se queste non dovessero rivelarsi sufficienti, finirebbe per reagire d'istinto. Questa è un aspetto che manca alle AI, quindi sarebbe interessante vedere cosa farebbero in quel caso.
Propongo infine un ulteriore test. Fin'ora abbiamo parlato di Inventiva e Istinto, ora proviamo con un'altra I, ossia l'Intuito. Metterei la AI di fronte a un caso da risolvere e vedrei come reagirebbe e se sarebbe in grado di mettere insieme i pezzi, come farebbe un detective umano, per scovare il colpevole.

PS: so che scrivo sempre AI e non IA ma sono ormai abituato a scriverlo all'inglese per deformazione professionale 😅

Giulio_M

𝙏𝙝𝙚 𝙊𝙣𝙚 𝙁𝙧𝙤𝙢 𝙏𝙝𝙚 𝙑𝙖𝙪𝙡𝙩 ® davvero interessanti come spunti! 🙂 in effetti, come dici tu, la creatività totalmente libera (priva di contesto, limiti ecc) sarebbe problematica e difficile, allo stato attuale, vedi quanto ho spiegato nella differenza fra IA debole e IA forte (o se preferisci, uso i termini Weak AI vs Strong AI 😁 ).
Insomma potremmo definire un nuovo test proprietario! 🙂
Anche per quanto riguarda la "situazione completamente nuova", anziché pescare da un database avrebbe quindi maggiore rilevanza la capacità di ragionamento deduttivo; diciamo, quindi anche se in senso stretto non possiamo dire "il software ragiona", concettualmente ci siamo vicini.
Credo siano test complessi al momento attuale, indicati infatti per riconoscere un IA forte che, come detto, non esiste ancora. Non credo comunque ci sia un salto netto 0-1 fra un caso e l'altro, quindi anche ripetere questi test con il progresso evolutivo, può mostrare l'andamento, quale software si sta avvicinando di più al risultato desiderato. Idea interessante comunque!

𝙏𝙝𝙚 𝙊𝙣𝙚 𝙁𝙧𝙤𝙢 𝙏𝙝𝙚 𝙑𝙖𝙪𝙡𝙩 ®

Giulio_M Sì infatti i miei esempi erano indirizzati ad analizzare una AI forte. Diciamo che se anche attualmente non esistono (e non esisteranno per molto tempo probabilmente), penso che un giorno o l'altro lo diventeranno, essendo praticamente il prossimo step evolutivo. E aggiungo: quando avverrà saranno cavoli amari, speriamo solo non finisca come con Skynet 😅
Grazie per la MR 🙂

Giulio_M

La storia dell'IA: le date simboliche

Da un articolo di wired.it, vediamo alcune date che hanno caratterizzato la storia dell'Intelligenza Artificiale, che non è certo nata ieri anche se ovviamente le implicazioni più grandi a larga scala le abbiamo viste di recente (diciamo, fine 2022 con ChatGPT).

1943: la prima rete neurale artificiale
1950: il test di Turing
1956: nasce in termine "Intelligenza Artificiale", <<come ogni aspetto dell’apprendimento o qualunque altra caratteristica dell’intelligenza possa, in linea di principio, essere descritta in maniera talmente precisa da costruire una macchina in grado di simularla>>
1958: nasce il Mark I Perceptron, cervello elettronico che insegna a sé stesso (di fatto, una macchina militare di grandi dimensionI)
1966: Eliza, il primo chatbot della storia (molto semplicistico ma è il primo software in grado di interagire con l'essere umano, ripete le affermazioni degli utenti trasformandole in domande)
1969: l'inverno delle intelligenze artificiali (le aspettative più grandi sono state deluse, calano gli investimenti che portano ad una interruzione degli studi che dura decenni)
1997: DeepBlue sconfigge Gary Kasparov (Partite di scacchi memorabili), un risultato storico
2012: AlexNet vince la gara di riconoscimento immagini, evento importantissimo per il deep learning che dimostra superiorità rispetto ad altri sistemi informatici
2016: AlphaGo di Google, sconfigge il campione mondiale di Go
2020: OpenAI presenta GPT-3 e due anni dopo verrà rilasciato ChatGPT basato su GPT-3.5 (evoluzione di GPT-3) per poi dare vita ad una strada che ancora oggi continua a correre, nuovi chatbot sempre più evoluti, risultati sempre più accurati, maggiore integrazione in tutti i settori, nella vita di tutti i giorni (come lo è stato il computer, internet, lo smartphone, ora anche l'IA fa parte delle nostre vite)