Un percorso a ostacoli verso il segreto dell’intelligenza
Questo articolo è pubblicato sul numero 1-2024 di Aspenia
Sono occorsi circa settanta anni affinché l’intelligenza artificiale arrivasse ai sorprendenti successi che la vedono oggi – solo per citare alcuni esempi – governare l’atterraggio di razzi in posizione verticale, riconoscere i tumori e i danni alla retina, guidare veicoli autonomi per migliaia di chilometri su strada, identificare da immagini satellitari le zone agricole che richiedono irrigazione.
Contrariamente a quanto oggi appare, l’intelligenza artificiale si è affermata dopo una lunga serie di aspettative non mantenute, di fallimenti, di campagne denigratorie e di delusioni, che si sono continuamente riproposte nel corso degli anni. È dunque inevitabile domandarsi “perché ora?” e “in cosa si differenzi l’intelligenza artificiale moderna esplosa nell’ultimo decennio, centrata sul deep learning, rispetto a quanto si provò a ottenere nei sessanta anni precedenti?”
BREVE STORIA DELLO SVILUPPO DELL’IA. Possiamo individuare quattro fasi principali che si sono succedute nello sviluppo dell’intelligenza artificiale. Nella prima fase, i padri fondatori dell’informatica come John Von Neumann e Alan Turing crearono la prima generazione di computer. Successivamente, nella seconda fase, con la nascita della ricerca nel campo dell’intelligenza artificiale a partire dal 1954, si ottennero i primi risultati e si posero le basi di nuove idee rivoluzionarie. La terza fase – maturata intorno agli anni Ottanta del secolo scorso – fu contraddistinta dal cosiddetto “inverno dell’IA”, durante il quale si assisté a un forte calo dei finanziamenti e della fiducia nelle sue potenzialità tecnologiche. Infine, con lo sviluppo del deep learning e di hardware moderno a suo supporto, l’IA ha raggiunto a partire dal 2014-2015 una pervasività esponenziale, fino ai successi sopra citati e all’invisibile azione dietro i sipari della nostra vita quotidiana.
Per comprendere i fattori che hanno determinato questo travolgente successo tecnologico – e conseguentemente anche le relative sfide etiche e normative che ne sono scaturite – occorre quindi compiere un passo indietro nel tempo e tornare al periodo in cui furono sviluppati i primi calcolatori elettronici.
Non tutti ricordano che i primi computer nascono durante la seconda guerra mondiale. La generazione dei padri fondatori dei moderni calcolatori era consapevole di impegnarsi per replicare le facoltà della mente umana per via artificiale. In Europa l’inventore Konrad Zuse nel 1941 costruì il primo computer dalle caratteristiche funzionali, ancora in vigore, così come fece poco dopo John Von Neumann negli Stati Uniti, di pari passo con Norbert Wiener e Warren McCulloch, inventando l’architettura usata ancora oggi nei laptop e nei telefoni cellulari. Di questa prima generazione Alan Turing nel Regno Unito è ricordato per la macchina per decifrare Enigma e per la definizione di macchina universale (oggi detta di Turing).
Fu una seconda generazione di scienziati ad avviare la fase successiva, a partire da un preciso evento del 1956 che si tenne a Dartmouth nel New Hampshire, a cui parteciparono i pionieri della programmazione delle macchine, cui seguì il simposio all’MIT intitolato Symposium on Information Theory, cui presero parte, oltre agli esperti programmatori, anche celebrità di altri campi come lo psicologo George Miller e il padre della linguistica Noam Chomsky. Per ammissione dei protagonisti, con quest’ultimo evento si fondarono le scienze cognitive. Tra i partecipanti vi era John McCarthy che fondò il laboratorio di IA dell’MIT e coniò l’espressione intelligenza artificiale, il futuro direttore dello stesso laboratorio Marvin Minsky, oltre che scienziati della RAND Corporation, di IBM e altri ancora.
Grazie al loro impegno nello sviluppo dei software, divenne possibile programmare i calcolatori ottenendo successi fino ad allora sconosciuti – come automi per giocare a dama e scacchi – e dimostrare i teoremi di Euclide in modo automatizzato. Tra loro vi era anche un certo Rochester, che invece stava sviluppando un modello di reti neurali artificiali e senza saperlo stava ponendo le basi per il deep learning con circa cinquanta anni di anticipo. In quel periodo in Italia stavamo per assistere all’occasione mancata dell’Olivetti, con la creazione del primo computer interamente a transistor da parte dell’Ing. Pier Giorgio Perotto – poi impiegato dalla NASA per gestire la missione Apollo 11. L’azienda fu colpita nel giro di pochi anni dalla morte improvvisa di Adriano Olivetti e del suo ingegnere Mario Tchou e la sua Divisione elettronica fu ceduta nel 1965 – per fermo volere di Vittorio Valletta, presidente della Fiat che era subentrata nel controllo dell’azienda – alla General Electric, che decise di smembrare e chiudere il cuore italiano dell’informatica.
L’INVERNO DELL’INTELLIGENZA ARTIFICIALE. Negli Stati Uniti di lì a breve l’intelligenza artificiale subì una battuta di arresto destinata a durare molti anni, ora ricordata come l’inverno dell’intelligenza artificiale. Secondo gli storiografi dell’IA, questa fu inizialmente generata dallo stesso Minsky, che era uno dei suoi fondatori. Minsky, infatti, insieme a Seymour Papert, pubblicò nel 1969 il libro An introduction to computational geometry, in cui si dimostravano matematicamente i limiti intrinseci della possibilità di impiegare i mattoni base delle reti neurali (chiamati percettroni) per risolvere anche problemi elementari. Questi risultati erano frutto della limitata conoscenza di allora, visto che -come si dimostrò molti anni dopo – questi limiti potevano facilmente essere aggirati con le idee giuste.
Tuttavia, per la sua autorevolezza la tesi di Minsky finì per paralizzare il sistema di finanziamenti a tutta la disciplina, arrivando al punto che determinati temi connessi con l’intelligenza artificiale finirono all’indice nella comunità scientifica. Dichiarare di occuparsene implicava rovinarsi la carriera. Alcuni dei padri fondatori del deep learning hanno raccontato di aver dovuto usare perifrasi nei titoli delle loro pubblicazioni e mascherarne parzialmente i risultati, per sfuggire alle maglie della revisione delle riviste scientifiche. È curioso notare che in seguito si è scoperto che la ricerca sulle reti neurali in certi ambienti non si era affatto arrestata: solo molti anni dopo si è venuti a conoscenza che la Carnegie Mellon University nel 1984 era finanziata dal DARPA Strategic Computing Initiative per la realizzazione di un veicolo a guida autonoma chiamato NAVAB, basato sulle reti neurali. Di quegli anni si ricorda il lavoro di John Hopfield che nel 1982 con una serie di pubblicazioni riuscì a riaccendere un progressivo interesse della comunità scientifica verso le reti neurali.
Vi era però dietro l’angolo una nuova deviazione di percorso, destinata a generare incomprensione e perdita di chiarezza sugli obiettivi dell’intelligenza artificiale. Nel 1980 John Searle, un filosofo e attivista politico di Berkeley, riuscì con i suoi scritti a convogliare tutto il dibattito pubblico sull’IA intorno al concetto di intelligenza artificiale forte, oggi chiamata intelligenza artificiale generale – in grado di risolvere compiti strutturati assimilabili a quelli che compie un umano, anche fino al punto di possedere complete facoltà cognitive. Searle dapprima considerò gli sviluppi conseguiti nella programmazione dei calcolatori come centrali per la riproduzione di stati mentali, a prescindere dal supporto fisico programmato – fosse esso fatto di neuroni, di transistor o di lattine collegate da fili di ferro: avendo definito (in modo a posteriori discutibile) come obiettivo dell’intelligenza artificiale forte di divenire assimilabile a una mente grazie a una ipotetica sapiente programmazione, si occupò di confutarne la realizzabilità.
Leggi anche: Come pensano le macchine
In chiave moderna, questo ambito di ricerca riguarda lo sviluppo dell’intelligenza artificiale generale ed è un obiettivo che oggi viene considerato di lungo termine rispetto a ben più urgenti applicazioni concrete possibili con modelli di intelligenza artificiale concentrati su un singolo task (ad esempio riconoscere i volti). Searle invece catalizzò tutto il dibattito sulla sua confutazione dell’intelligenza artificiale forte, trascurando gli sviluppi in ambito neurobiologico e le implicazioni che questi avevano sulle reti neurali, che smentivano senza ombra di dubbio che la mente corrispondesse a un programma costituito da una sequenza di istruzioni.
Il risultato fu un’ulteriore paralisi di altri dieci anni nello sviluppo della teoria dell’intelligenza artificiale, innescando un dibattito pluridecennale ripreso da eminenti studiosi come Douglas Hofstadter e Daniel Dennett. Il grande pubblico è stato coinvolto in questo dibattito sull’IA forte per almeno venticinque anni, alimentato da sempre nuovi saggi e film di fantascienza ispirati al tema, dove appaiono computer e robot senzienti con nomi differenti, da HAL9000 di 2001 Odissea nello Spazio, a D.A.R.Y.L., Tron, War Games, Automan e Supercar fino agli anni Ottanta, e poi in film come Trascendence o HER fino ai giorni nostri, riproponendo sempre il medesimo concetto.
LA RISCOSSA DELLE RETI NEURALI. Il mondo si accorge che, nel frattempo, qualcosa è successo nei garage e nei seminterrati dell’intelligenza artificiale quando finalmente nel 2012 all’ImageNet Contest un modello di rete neurale di tipo chiamato convoluzionale e denominata dagli autori AlexNet sbaraglia la concorrenza, incrementando di molto in un solo colpo le performance di riconoscimento immagini rispetto ai migliori risultati dei vincitori degli anni precedenti. Nonostante gli elementi che costituivano AlexNet fossero già presenti nella letteratura scientifica e in diverse realizzazioni, fu grazie a quel risultato che avvenne una vera a propria esplosione nell’applicazione industriale.
In realtà, il deep learning affonda le sue radici nei lavori sviluppati negli anni Ottanta da Fukushima, Hopfield, Hinton e da altri ancora che non abbandonarono questo campo, nonostante il rischio di compromettere la propria carriera accademica che incombeva su chi si occupava di reti neurali. Questa nicchia aveva preso un nuovo nome, il connessionismo, per riproporsi per vie diverse e contrapponendosi al simbolismo, che invece operava sulle stringhe di dati manipolate dai programmi. Andando ancora più a ritroso, le reti neurali si basavano sui lavori di modellizzazione dei neuroni del 1943 sviluppati da McCulloch e Pitts e sulla plasticità dei neuroni scoperta da Webb nel 1949, trasferiti in chiave di sistema di neuroni artificiali nel 1958 a opera di Frank Rosenblatt, che chiamò questo oggetto percettrone.
Il connessionismo riproponeva la potenza di calcolo del cervello imitandone la struttura connettiva. Il deep learning riprende questa architettura base in forma evoluta, ispirandosi alla struttura della corteccia visiva. Le idee di Rosenblatt furono rilanciate durante l’inverno dell’IA nel 1980 da Fukushima che propose il neocognitron, poi utilizzato nel 1998 da Yann LeCun, Léon Bottou, Yoshua Bengio e Patrick Haffner per le prime reti neurali strutturate come quelle impiegate oggi. La potenza di questo metodo di processare l’informazione ha portato ad AlphaGo, l’algoritmo che nel 2016 ha battuto nel gioco del Go sia il geniale Lee Sedol che lo stesso campione del mondo in carica. Sempre la medesima architettura ha comportato una nuova ondata di sviluppi centrata sul riconoscimento dei linguaggi, che vanno sotto il nome di Large Language Models (LLM) come ChatGPT di OpenAI, che oggi sono divenuti pervasivi in termini di intelligenza artificiale generativa.
Si tratta di reti neurali basate su elementi di base analoghi a quelli impiegati con l’avvento del deep learning, ma organizzate e impiegate in modo differente. Esse consentono di restituire testi coerenti rispetto a quelli con cui vengono interrogate, al punto di dare l’illusione che sia avvenuta una comprensione da parte dell’algoritmo, o di elaborare immagini consistenti con il testo immesso. Questi modelli hanno grandi potenzialità nella generazione di contenuti, fermo restando che il contenuto che sono in grado di generare sarà sempre un’interpolazione dell’informazione immessa in precedenza.
I TRE MOTIVI DEL BOOM DELL’IA. È possibile delineare tre principali ragioni che hanno portato agli sviluppi straordinari delle applicazioni dell’intelligenza artificiale negli ultimi dieci anni rispetto alla staticità dei sessant’anni precedenti.
In primo luogo, si deve considerare come lo sviluppo di nuovi teoremi matematici e di nuovi modelli più evoluti sia stato determinante: le reti convoluzionali, le reti profonde (deep), le reti a grafo, teoremi che mostrano l’universalità delle reti e danno la garanzia che esse saranno sempre in grado di distinguere patterns che differiscono per particolari via via sempre più fini. Sicuramente la base matematica ha fatto da padrona nello sviluppo dell’intelligenza artificiale e oggi si avvantaggia di modelli che semplicemente prima non esistevano, e che hanno impiegato un certo tempo prima di affermarsi e diventare virali.
Un secondo aspetto fondamentale è che per svolgere tutti i calcoli richiesti per processare una rete neurale i computer di una volta non erano sufficienti, né in termini di velocità né soprattutto di numero di operazioni che si potevano svolgere in contemporanea. Questo aspetto è semplice da intuire se si pensa che nel cervello – che il deep learning cerca di imitare su piccola scala – tutte le sinapsi operano contemporaneamente, generando di fatto un calcolo distribuito biologico. Allo stesso modo, è necessario per elaborare una rete neurale artificiale che tutte le operazioni si svolgano quanto più possibile insieme per potere efficientemente calcolare a ogni passo lo stato successivo della rete neurale.
I computer di oggi sono dotati di processori che gestiscono i programmi ma anche di co-processori dedicati alla gestione di grandi flussi di dati, come quelli di video digitalizzati dove il colore di tutti i pixel deve essere determinato in un solo colpo per ciascun fotogramma: questi co-processori vanno sotto il nome di Graphics Processing Unit (GPU) e possono essere riprogrammati per ospitare, invece delle immagini, i calcoli delle sinapsi artificiali dei neuroni artificiali delle reti neurali. La potenza di calcolo di una GPU da 100 euro è smisuratamente superiore rispetto a quella dei più grandi elaboratori dell’epoca precedente. I modelli più evoluti richiedono chiaramente ancora i grandi datacenter di oggi, ma è possibile raggiungere risultati stupefacenti anche impiegando un semplice laptop o un cellulare.
Leggi anche: Intelligenza Artificiale, automazione e concentrazione di potere
Infine, vi è un terzo fattore che ha reso pervasiva l’intelligenza artificiale, che si aggiunge ai nuovi modelli e all’hardware potente a bassissimo costo. Si tratta dei progetti di software open source che già includono modelli di intelligenza artificiale consolidati. La nuova generazione di programmatori di intelligenza artificiale non deve crearsi dei programmi da zero per replicare i modelli più efficaci, ma può fare affidamento su grandi progetti a cui contribuiscono i migliori programmatori di Google, di Microsoft, di Facebook e altri ancora, e scaricare librerie di software già pronte all’uso da adattare al proprio problema. Nella maggior parte dei casi, esiste già una soluzione al proprio problema, adattando un software esistente al proprio caso d’uso. Inoltre, per eseguire i modelli più complessi e onerosi in termini di risorse è possibile affittare a basso costo risorse in cloud tramite servizi come quelli di AWS, Azure e così via, ciò che consente di limitare i costi al solo consumo della potenza di calcolo necessaria al progetto, senza dover acquistare hardware dedicato che invecchia rapidamente.
Tutti questi sviluppi hanno comportato la centralità dei dati che si utilizzano nell’addestramento e hanno portato alla specializzazione della figura del data scientist che si affianca al programmatore dei modelli di intelligenza artificiale, dal momento che la stessa pipeline di gestione, selezione e formattazione del flusso di dati diventa parte integrante del processo di messa a terra di un progetto industriale di intelligenza artificiale. Questo aspetto di gestione di grandi dati comporta l’entrata in scena di attori non strettamente coinvolti nella tecnologia dell’intelligenza artificiale. Infatti, mentre non si configurano problemi nel caso di applicazione di modelli a dati pubblici o a dati aziendali riferiti a un processo, la situazione cambia nel momento in cui i dati possono essere sensibili. Di caso in caso diventa allora necessario garantire il rispetto della privacy, del copyright, dell’etica, richiedendo quindi l’intervento di esperti che esaminano tali aspetti, ed eventualmente anche del legislatore.
GLI SVILUPPI FUTURI. È difficile prevedere il futuro dell’intelligenza artificiale, ma si possono delineare tre ambiti che sicuramente saranno contraddistinti da molti sviluppi e che già oggi vengono finanziati in misura significativa. La prima connessione è quella con i sistemi biologici: è possibile integrare in prospettiva le reti neurali artificiali con quelle biologiche, andando a sviluppare quindi protesi neurali come estremo esempio di body machine interface, come sta facendo ad esempio Neuralink di Elon Musk. In questo caso l’intelligenza artificiale può essere programmata, anziché su chip convenzionali, su un nuovo tipo di hardware dedicato, ad architettura neuromorfica, che potrebbe non essere basato su semiconduttori ma ad esempio su sostanze organiche opportunamente funzionalizzate. È difficile immaginare le conseguenze di lungo termine di una integrazione uomo-macchina a livello cognitivo (che possono andare dalla visione aumentata alla memoria aumentata, alla sensibilità al campo magnetico terrestre come è il caso degli squali) ma certamente saranno necessari, insieme agli sviluppi tecnologici, anche adeguamenti normativi e considerazioni di natura etica.
In secondo luogo, l’avvento dei computer quantistici sta offrendo nuove opportunità di espansione della teoria e dei modelli nella forma di algoritmi quantistici, che per definizione possono funzionare solo su un computer quantistico. Questa è una ricerca in corso e una delle sue finalità è di dimostrare in quali condizioni si ereditano nell’intelligenza artificiale quantistica – a volte chiamata quantum machine learning – i vantaggi attribuiti ai computer quantistici. Si può speculare che in futuro i modelli di intelligenza artificiale potranno essere eseguiti più rapidamente, o anche a molto minore potenza impiegata, o ancora essere estesi anche a quantum data derivanti da sensori quantistici.
Infine, come terzo ambito di possibili sviluppi, vi è quello dell’intelligenza artificiale generale (AGI). Come anticipato, nella sua accezione più vasta l’intelligenza artificiale comprende l’emulazione di comportamenti e funzioni intelligenti riferiti a persone e animali. I livelli di complessità da superare spaziano da compiti di scopo limitato, come il riconoscimento di immagini, fino a funzioni cognitive di alto livello il cui estremo superiore è costituito dall’autocoscienza. Quest’ultimo obiettivo oggi risulta ancora lontano, ma alcuni lo stanno perseguendo – come proposto nel 2018 da Phillip Alveda di Brainworks Foundry. L’obiettivo non sembra irrealizzabile, visto che il connettoma umano, costituito da 180 regioni collegate ad alto livello tra loro, è stato mappato per intero su numerosi individui, ed è quindi in via di principio possibile emulare artificialmente le parti cruciali della rete di reti di neuroni biologici del cervello deputate a organizzare le funzioni superiori.
Facendo nostre le parole del fisico Freeman Dyson (1923-2020): “La funzione della valutazione della tecnologia non è quella di misurarla ma quella di mettere in guardia. Noi non possiamo prevedere quantitativamente il valore o il costo della nuova tecnologia: ciò che possiamo fare è guardare avanti e prevedere insidie e trappole. Con un po’ di fortuna, possiamo vedere i tranelli molto tempo prima, così da poterli evitare mentre avanziamo.”[1]
Nota:
[1] Freeman Dyson, Infinito in tutte le direzioni, Rizzoli, 1989.
*Questo articolo è pubblicato sul numero 1-2024 di Aspenia