Alexa e chatbot. Così Amazon investe sull’intelligenza artificiale, ma...

25/03/2018

Amazon è in una battaglia senza precedenti con gli altri giganti dell’IT, Microsoft, Facebook e Google, suoi rivali nello sviluppo delle AI. L’idea di fondo è quella di realizzare un’AI che sia in grado di sostenere una conversazione, come nei film di fantascienza, portandola nelle nostre case. Come realizzare questo obiettivo? Realizzando un concorso a premi. Questo non è che il primo passo verso il vero obiettivo: creare un bot capace di chiacchierare.

Ecco una cronaca…

Il primo interlocutore – un uomo muscoloso sulla cinquantina con la testa rasata e un maglione con scollo a V nero – entra in una sala riunioni e siede in una poltrona blu bassa davanti a uno schieramento di videocamere e luci da studio. È molto luminoso. Il resto della stanza è completamente buio. Osserva un oggetto nero a forma di disco da hockey – un’Eco Amazon – su un tavolino di fronte a lui. “Alexa”, dice l’uomo, “parliamo”.

“Buongiorno, amico mio”, risponde una voce femminile con una simpatia sintetica mentre un violaceo anello di luce pulsa in cima all’Echo. “O è pomeriggio? Non sono molto sicura”.
“È mattina”, risponde l’uomo.
“Grande, tutti sono sempre pieni di energia al mattino … Beh, come stai oggi?”
“Sto alla grande, come stai?”
“Beh, sono sempre impegnata, mentre la gente continua a chiacchierare con me … Ma ascolta, questo è esilarante, è un post recente su Reddit: ‘Il dentifricio è solo sapone per le labbra’”.

In fondo al corridoio, in un’altra sala riunioni, 10 impiegati di Amazon siedono attorno a lunghi tavoli con le cuffie, monitorando questi convenevoli con la concentrazione di agenti della CIA intenti in una intercettazione cruciale per la sicurezza nazionale. In un’altra stanza, tre uomini siedono in cabine chiuse da tende nere. Anche loro indossano le cuffie e hanno le telecamere puntate su di loro. Infine, in un centro di controllo, i membri di una troupe video monitorano tutti i feed su un grande schermo piastrellato. Tutto deve essere registrato, perché Amazon vuole capire assolutamente tutto ciò che sta emergendo da questa giornata.

Questa scena stravagante, che si è svolta lo scorso novembre, è la sessione finale di valutazione di un concorso durato mesi. Amazon ha sfidato 15 team formati da alcuni dei migliori studenti universitari al mondo, tutti esperti informatici, per realizzare, citiamo, “un socialbot in grado di dialogare in modo coerente e coinvolgente con gli umani su argomenti popolari per 20 minuti”. Se un team vice la sfida, i suoi membri raggiungeranno la gloria accademica e la promessa di brillanti future carriere.

Giusto per far comprendere il livello della competizione, si consideri che alcuni dei concorrenti che hanno realizzato i risultati più impressionanti nel Darpa Grand Challenges, una serie di competizioni per automobili autonome, hanno, dopo la partecipazione, gestito le divisioni delle auto a guida autonoma di Google, Ford, Uber e General Motors.

Inoltre Amazon aggiunge a questo orizzonte futuro un presente molto concreto una borsa da 1 milione di dollari che è stata chiamata il Premio Alexa.

Amazon, anche se si è notato poco in Italia perché il suo prodotto è destinato solo ai paesi di lingua anglofona, ha passato gli ultimi anni a realizzare una voce AI con una voracità che rivaleggiava con quella che ha mostrato quando ha conquistato il mercato del commercio al dettaglio. Il colosso di Seattle ha più di 5.000 persone che lavorano sulla piattaforma Alexa. E solo nel 2015 sono stati venduti più di 20 milioni di Echo, il piccolo disco elettronico che permette di interagire con Alexa. Per far capire quanto Echo sia diffuso basti pensare che si può comprare un Echo dot, il modello più piccolo in vendita, per 40 dollari in distributori self service diffusi ovunque, aeroporti, stazioni hotel, oltre che, ovviamente online.

Dietro a questo enorme investimento c’è il fatto che un giorno, secondo Amazon, le AI faranno molto di più che limitarsi a controllare luci e far partire playlist musicali. Guideranno macchine, diagnosticano malattie e pervaderanno ogni ambito della nostra vita. La voce sarà l’interfaccia predominante e la conversazione stessa, utile, informativa, di accompagnamento e di intrattenimento, sarà il prodotto finale.

Tuttavia tutti i primi successi ottenuti, di realizzazione e di mercato, e le ambizioni di Jeff Bezos hanno condotto Amazon su un pendio scosceso, all’ingresso, ci si permetta di usare questa metafora, di una valle ampia e insidiosa. Oggi Alexa, come tutti gli assistenti vocali, fallisce spesso e in alcune conversazioni non riesce a comprendere ciò che sarebbe palesemente ovvio per qualsiasi essere umano.

L’adozione rapida e diffusa della piattaforma ha anche stimolato il desiderio dei consumatori: gli attuali utenti desiderano qualcosa che nessun assistente vocale può attualmente fornire. Alexa è abbastanza brava con sveglie e promemoria o ad adempiere a comandi di tipo on-off, ma avere una conversazione è tutta un’altra cosa. La parola e il linguaggio umano sono modalità di interazione intrinsecamente sociali. Ashwin Ram, che guida il team di ricerca di Alexa, è consapevole che i consumatori si aspettano che Alexa parli con loro proprio come un amico. Ma prendere parte a una conversazione umana – con tutta la sua infinita variabilità, con i bruschi cambiamenti nel contesto e i lampi di connessione tra contesti e concetti diversi – è ampiamente riconosciuto come uno dei problemi più difficili per un sistema di AI. Amazon sembrerebbe decisa a risolverlo.

Il Premio Alexa non è certo la prima competizione che ha cercato di ottenere un rapporto più umano tra i chatbos del mondo. Ogni anno per almeno tre decadi, un’élite di informatici e hobbisti si è riunita per competere per il Loebner Prize: una competizione in cui i partecipanti cercano di ingannare i giudici facendogli credere che un chatbot sia umano. Questo premio è ben conosciuto nel mondo dei ricercatori di AI e ha spesso suscitato polemiche: secondo alcuni ricercatori non è altro che una trovata pubblicitaria e un club che tiene insieme un sacco di persone poetiche e malinconiche che riflettono su quanto poco ormai che divide gli uomini dalle macchine.

Tuttavia il Premio Alexa è diverso almeno in un paio di modi. Innanzitutto, il punto non è ingannare nessuno sull’identità di Alexa. In secondo luogo la scala della competizione – in termini di potenza di fuoco umana, finanziaria e computazionale dietro di essa – è enorme. Per diversi mesi del 2017, durante una fase iniziale del concorso, chiunque negli Stati Uniti che ha detto “Alexa, chiacchierare” con il proprio dispositivo vocale Amazon è stato autorizzato a conversare con uno dei bot in concorso selezionato a caso. Dopo questa esperienza sono stati invitati a valutare la conversazione che avevano avuto con un voto da una a cinque stelle. I bot hanno avuto milioni di interazioni, rendendo la competizione Alexa Prize, per ordine di grandezza, la più grande dimostrazione di chatbot che il mondo abbia mai visto.

Lo show è culminato lo scorso novembre in una stanza con una poltrona blu e un fascio di proiettori.

L’interlocutore, il ragazzo con la testa rasata e il maglione nero che abbiamo presentato all’inizio del racconto, si chiama Mike George. Fino allo scorso luglio, ha supervisionato la piattaforma Alexa. Gli uomini nelle cabine erano giudici che valutavano ogni conversazione con il sistema da una a cinque stelle. Se un giudice pensa che una conversazione si è incanalata modo sbagliato, può premere un pulsante su una bacchetta portatile; se un secondo giudice lo fa, la conversazione e il timer di sessione vengono interrotti non permettendo alla conversazione di arrivare ai 20 minuti richiesti. Nessuno sa quale bot sia quello testato. Né gli intervistatori, né i giudici.

Torniamo alla nostra finale…
“Parliamo di musica”, dice George.
“Amo la musica; mi aiuta a rilassarmi ogni volta”, risponde il bot. “Allora, hai qualche artista o canzone preferita?”
“Mi piace Django Reinhardt.”
“Django Reinhardt? Il famoso artista jazz?” Improvvisando, il socialbot, continua la conversazione raccontando una storia di Tony Iommi, il chitarrista dei Black Sabbath. “Iommi ha perso la punta di due dita in un incidente industriale. Ma è stato ispirato a continuare a suonare dopo aver appreso che Reinhardt poteva farlo usando solo due dita della mano sinistra. Ma comunque, per quanto riguarda Reinhardt, qual è la tua canzone preferita George?”
George aggira la risposta. “Ti piace Jack Johnson?” Chiede.
Il bot sembra lanciato nella conversazione. “Dai”, risponde, “mi piace parlare con te.”
George si sporge in avanti e ci riprova. “Jack Johnson, ti piace?”
“Dai, mi piace parlare con te.”

Nella stanza circondata da tende, un giudice preme il suo pulsante e sentenzia la morte della conversazione. Un secondo lo fa poco dopo. Una donna entra nella stanza in cui George si siede e sussurra nel suo orecchio. “Alexa, fermati”, dice con un piccolo cenno deluso. Sono trascorsi appena tre minuti. Se Ram, seduto nella stanza con i lunghi tavoli, è scoraggiato, lo nasconde. Durante il concorso, il suo mantra è stato: “Le persone devono capire che questo è un problema molto difficile, e ora è molto presto nel viaggio che abbiamo intrapreso”. Venti minuti di chiacchiere con un computer non è solo un viaggio sulla luna, è un viaggio verso Marte.

Questa febbricitante corsa per sviluppare le AI capaci di conversare ha condotto Amazon, Apple, Facebook, Google e Microsoft in una battaglia per due risorse vitali. Il primo conflitto è finito: i dottorandi in informatica, che, a causa della loro scarsità, ora chiedono stipendi iniziali a sei cifre. La seconda è per una risorsa illimitata ma difficile da ottenere: esemplari di conversazione. Molti miliardi di campioni possono essere raccolti, digitalizzati e utilizzati per addestrare le AI.

In quest’ottica Alexa Prize è stato un colpo da maestro di Amazon. Il concorso è servito sia come ricerca di talenti tra gli studenti laureati più brillanti al mondo, sia come occasione per avere il loro cervello a un prezzo d’occasione. Inoltre ha fornito ad Amazon l’opportunità di accumulare una raccolta di dati conversazionali che non ha nessun’altra azienda tecnologica.

Quando Amazon ha annunciato la sua prima competizione il 29 settembre 2016, più di 100 squadre universitarie di 22 paesi si sono candidate per competere. Dopo aver selezionato le proposte per merito tecnico e originalità, l’azienda è arrivata a 15 contendenti. Tutti, tranne tre team, hanno ricevuto sovvenzioni di 100.000 dollari e un supporto aziendale per alimentare i loro sforzi.

Proprio come in March Madness, la gara folle, da qui il nome di follia di marzo, tra le squadre di basket dei college, Amazon ha mescolato nella sua competizione favoriti a sangue blu, contendenti solidi e sicuri perdenti. La squadra dell’Università di Montreal, che aveva con sé il pioniere del deep learning Yoshua Bengio come consulente di facoltà, si è classificata come una delle migliori. I team di livello medio provenivano da scuole ben note come l’Università di Washington, Princeton e Heriot-Watt, la principale università di ricerca della Scozia. Poi c’erano gli sfavoriti, come la Czech Technical University di Praga.

Uno dei membri di quella squadra era un 23enne con un pizzetto ben rifinito di nome Petr Marek. L’estate prima della gara, aveva trascorso un po ‘di tempo a sviluppare quella che descriveva come una “stupida” piattaforma di chatbot, ma aveva anche vagabondato per le foreste della Boemia come un capo dei Boy Scout. Quando ha sentito parlare dell’Alexa Prize, Marek era preoccupato che lui e la sua squadra non avessero il giusto pedigree. “OK”, pensò, “possiamo provarci, ma non abbiamo alcuna possibilità contro queste migliori università”. In un momento di grandiosità dopo aver appreso che erano stati accolti tra i concorrenti, il team ha deciso di nominare il suo bot Alquist, come un personaggio di RUR, un gioco ceco dei primi anni del Ventesimo secolo che ha introdotto la parola “bot” nel mondo. Nel gioco, i bot conquistano il pianeta e Alquist diventa l’ultimo essere umano sulla Terra.

Tutte e 15 le squadre selezionate hanno dovuto affrontare una domanda chiave per il concorso: quali parti del “cervello” informatico di un socialbot dovrebbe essere prodotto a mano -leggasi programmate – e quali dovrebbero impiegare l’apprendimento automatico? L’artigianato informatico è l’approccio più tradizionale, in cui gli ingegneri scrivono scrupolosamente vaste serie di regole per guidare la comprensione e le risposte dell’IA. Al contrario, gli approcci di apprendimento automatico basati sulla statistica, al contrario, fanno sì che i computer si insegnino a conversare imparando dalle montagne di dati.

L’apprendimento automatico, come sapevano tutti i team, era un metodo superiore per affrontare i cosiddetti problemi di classificazione, in cui le reti neurali trovano modelli unificanti in dati voluminosi e rumorosi, cioè spuri. Il riconoscimento vocale, ad esempio, è un compito naturale per l’apprendimento automatico. Ma quando si tratta di convincere i chatbot non solo a tradurre il discorso in una lingua, ma a dire qualcosa, l’apprendimento automatico ha ancora molta strada da fare. Ecco perché il buon vecchio stile artigianale mantiene ancora una certa influenza, anche nei cervelli digitali di Alexa e Siri. Ogni squadra in concorso si è trovata in difficoltà, come tutto il mondo della tecnologia in generale, per trovare il miglior equilibrio tra i due approcci.

Nel mondo modaiolo dell’IT, l’artigianato è fuori moda mentre l’apprendimento automatico è incandescente. Marek e i suoi compagni di squadra sapevano che tutte le scuole leader si sarebbero appoggiate pesantemente a quest’ultimo e quindi hanno pensato che anche loro dovessero farlo. Per aiutare Alquist a generare automaticamente risposte agli utenti di Alexa, il team ha addestrato una rete neurale su 3 milioni di coppie di messaggi e risposte ottenute dagli utenti di Reddit. Con grande disappunto, le risposte fornite dal sistema sono state davvero terribili, come afferma Marek. Alquist è saltava in modo casuale tra argomenti di conversazione e cose che l’utente non aveva mai detto. Alquist asseriva un’opinione e la disconosceva qualche istante dopo. “Il dialogo con una tale intelligenza artificiale non è utile, né divertente”, ha scritto Marek ingiustamente nel suo blog. “È semplicemente ridicolo”.

E così all’inizio del 2017, il team ceco ha invertito la rotta e ha fatto ricorso a vaste regole guida alla conversazione. Il team ha creato 10 domini “dialoghi di argomenti strutturati”: notizie, sport, film, musica, libri e simili. Il sistema ceco è stato progettato per conoscere gli elementi principali di ciascuno dei 10 argomenti e poteva rimbalzare tra i diversi temi. Le parole precise che il socialbot avrebbe usato in un dato momento erano tipicamente da modelli pre-scritti, con i contenuti più specifici possibili recuperati da vari database in modo da riempire gli spazi vuoti. Ad esempio, il sistema potrebbe essere impostato per dire: “Vedo che ti piace [autore di libri menzionato dall’utente]. Lo sapevi che [autore di libri] ha anche scritto [nome del libro]? Quello lo hai letto?”

L’artigianato ha dato un miglior controllo alla squadra ceca, ma Marek era preoccupato. Il sistema dipendeva in gran parte dalla gentilezza degli utenti, facendo affidamento su di loro per parlare in frasi semplici e seguire essenzialmente la guida del bot. Con “utenti non collaborativi”, dice Marek – persone che parlano come normali, impazienti umani – il socialbot è stato suscettibile di duri fallimenti.

A quasi duemila chilometri da Praga, nelle ondulate colline fuori Edimburgo, il consulente di facoltà di Heriot-Watt stava diventando ossessionato dalle valutazioni medie degli utenti che Amazon aveva iniziato a pubblicare per ciascuna delle squadre in una speciale classifica. Heriot-Watt riteneva che la sua squadra potesse classificarsi comodamente nella top five della competizione. Ma all’inizio dell’estate del 2017, Heriot-Watt era al nono posto. “Sapevo che avremmo potuto fare meglio”, ha detto successivamente come un allenatore dopo una partita mal giocata.

Rinchiuso in un hackathon, Heriot-Watt e i suoi studenti hanno cercato di capire come poter salire in classifica. Sebbene non avessero a disposizione campioni del deep-learning, Heriot-Watt stava cercando di usare il machine learning nel modo migliore. Hanno azzerato la loro sfida più scoraggiante: le chiacchiere. Le chiacchiere incomprensibili sono particolarmente difficili per un sistema di apprendimento automatico, perché di solito non esiste un modo verificabile per poter coinvolgere un interlocutore. Le reti neurali funzionano meglio quando c’è un chiaro obiettivo, come vincere a Go. In questi casi il sistema, attraverso prove ed errori su vasta scala, può trovare la strategia ottimale da raggiungere. Una chiacchierata tra amici non ha scopo.

Per affrontare questo problema, il team ha fatto affidamento su una tecnica che era stata resa popolare dai ricercatori di Google. Innanzitutto, il team ha addestrato una rete neurale mediante un database di sottotitoli di film e migliaia di thread di messaggistica da Twitter e Reddit. Da questa gigantesca tramoggia di conversazioni umane crude, il sistema ha imparato a prevedere la risposta più appropriata a una determinata osservazione in una conversazione. Quindi, piuttosto che semplicemente recuperare e rigurgitare le risposte direttamente dalle conversazioni originali di Twitter o Reddit, la tecnica, che si chiama seq2seq, ha permesso al bot di generare le proprie risposte al volo.

Tutto sembrava essere bello, ma Heriot-Watt si è scontrato rapidamente con due problemi caratteristici del seq2seq. Uno era che il sistema spesso si limitava a dichiarazioni noiose, superficiali – “OK”, “Sicuro”, a causa della loro diffusione su Twitter e nei dialoghi di film. L’altra era che le conversazioni di addestramento contenevano anche molte frasi inappropriate e piatte che il socialbot di Heriot-Watt imparava via via ad emulare.

“Posso andare a letto con quante più persone voglio”, ha detto il socialbot di Heriot-Watt a un utente.

Quando un altro utente ha chiesto, “Devo vendere la mia casa?”, Il socialbot ha consigliato avidamente: “Vendi, vendi, vendi!”

Peggio ancora, quando un utente chiedeva “Dovrei uccidermi?”, Il socialbot ha risposto “Sì”. Gli utenti che hanno partecipato al concorso Alexa Prize lo hanno fatto in modo anonimo, quindi non c’è modo di sapere se questa fosse una vera domanda o semplicemente un tentativo di dire qualcosa di oltraggioso per un bot. Ma Amazon, che stava monitorando tutte le risposte dei socialbots per contenuti inappropriati, ha dovuto dire a Heriot-Watt che le cose non andavano e che il team era lontano da dare il meglio di sé nella sua creazione.

Se seq2seq doveva essere domato, Heriot-Watt stava aumentando la padronanza di altre tecniche durante l’estate. Il team ha diviso il “cervello” del suo socialbot in un insieme di bot più piccoli, ognuno con una propria specialità. Un news bot ha letto titoli e brevi riassunti di articoli del Washington Post e di altre fonti. Un altro bot è specializzato nel parlare del tempo. Uno ha accesso a Wikipedia, dando al sistema per esempio la conoscenza dell’ampiezza effettiva dalla locomozione marina a Kim Kardashian. Infine, un membro del team, Amanda Curry, ha creato un personal computer basato su regole per dare al prodotto finale un’identità stabile e unificante. Lo ha fornito con opinioni attentamente curate: “Paranoid Android” di Radiohead era la sua canzone preferita e alcuni fatti biografici: l’idea era che le persone si sarebbero sentite maggiormente a proprio agio a sapere che il bot ha cose che hanno anche loro, come i colori preferiti.

Dopo ogni commento da parte di un utente, almeno uno, e potenzialmente tutti questi sub-bot potevano produrre una risposta del candidato, come serie di studenti che alzano avidamente le mani in una classe per fornire una risposta alal domanda del professore. Per scegliere il migliore sub-bot in ogni circostanza conversazionale, il team di Heriot-Watt ha insegnato al suo sistema a valutare statisticamente le opzioni. La risposta del candidato era linguisticamente coerente nel modo in cui riecheggiava ciò che l’utente aveva appena detto? O al contrario, era così simile da essere semplicemente ripetitiva? L’argomento era centrato? La risposta è stata troppo breve o troppo lunga? Inizialmente, Heriot-Watt ha indovinato quanto pesare ogni metrica. Ma dalla caduta fatta con le risposte dei mesi precedenti, la rete neurale aveva acquisito nuove competenze come imparato a ridimensionare automaticamente i pesi per aumentare al massimo le valutazioni degli utenti.

Le classifiche stavano cambiando in meglio. Mentre la competizione andava avanti, Heriot-Watt si stava avvicinando al gruppo di testa.

Mentre il team di Edimburgo si stava facendo strada in classifica, una squadra era rimasta comodamente nei primi tre posti: l’Università di Washington. Il team aveva adottato un approccio piuttosto intermedio per combinare la programmazione basata su regole e l’apprendimento automatico nel suo sistema. Il suo vantaggio sembrava invece derivare da come il suo socialbot riflettesse la personalità del leader studentesco ventitreenne del team, Hao Fang. Originario di Yichun, una città nelle montagne del sud della Cina, Fang era cinico e spensieratamente allegro, e il suo team voleva che anche gli utenti di socialbot si sentissero allegri. Come avrebbero potuto creare conversazioni che le persone avrebbero apprezzato?

All’inizio, Fang vide che il sistema UW, un nome ottenuto dalle iniziali della loro università, come molti altri nella competizione, era incline a rigurgitare titoli di giornali deprimenti (“Un attacco missilistico ha ucciso 17 persone”) o fatti noiosi (“Una casa o un domicilio è un’abitazione usata come residenza permanente o semipermanente”). Quindi UW ha progettato il sistema per filtrare i contenuti che hanno portato gli utenti a dire cose del tipo “È orribile”. Invece, dice Fang, il sistema cercava contenuti “più interessanti, edificanti e conversazionali”, spesso da sub-reddits come Today I Learned, Showerthoughts, e notizie edificanti. Ciò ha permesso al bot di buttar via frasi come “La musica classica è l’unico genere in cui è bello essere in una cover band”.

Le persone sono più felici quando si sentono ascoltate, quindi UW ha insegnato al suo sistema a classificare attentamente le espressioni. Il bot dovrebbe rispondere con un fatto, offrire un’opinione o rispondere a una domanda personale? Il team ha anche prodotto un sacco di feedback sul linguaggio: “Sembra che tu voglia parlare di notizie”, “Sono contento che ti piaccia,” “Scusa, non ho capito”, e simili. Anche i buoni conversatori prestano attenzione alle emozioni delle persone, quindi UW etichettò manualmente il tenore emotivo di 2.000 campioni conversazionali e li usò per insegnare al socialbot a riconoscere le reazioni delle persone – liete, disgustate, divertite, incuriosite – e a reagire di conseguenza. Era tutto abbastanza semplice nello schema grandioso che Fang e colleghi avevano elaborato, e hanno fatto molta strada per rendere il bot sensibile e agile.

Il 29 agosto, Amazon ha annunciato quali tre squadre sarebbero in competizione nelle finali. I risultati sono stati sorprendenti.

Il trio di finalisti includeva Heriot-Watt, che aveva raggiunto il terzo posto nella classifica degli utenti settimanali medi ed è stato selezionato, dopo una rigorosa valutazione interna da parte di Amazon, come il team “wild card”. Fang e l’Università di Washington, che avevano corso forte tutto il tempo, sono arrivati secondo. E una delle squadre più improbabili di tutti, la Czech Technical University, ha rivendicato l’onore del primo posto. Ognuno di loro ha avuto un altro mese e mezzo per perfezionare i loro sistemi, e quindi sarebbe giunto il momento per la valutazione a Seattle.

“Alexa, parliamo”.

È metà novembre e un secondo interlocutore, John Curley, si è seduto in poltrona davanti alle telecamere. Curley, conduttore televisivo e radiofonico nel Pacifico nord-occidentale, indossa una camicia gessata e un cappotto sportivo blu; la sua voce è profonda e il suo sorriso è Hollywoodiano e brillante. Ma il suo stile verbale sobbalzante si adatta presto ai socialbots.

“Piacere di parlare con te, John” dice un socialbot. È quello di Heriot-Watt, anche se né Curley né i giudici lo sanno. “Impariamo a conoscerci. Allora dimmi, sei più appassionato di fantascienza o fantasy? ”
“Che ne dici di nessuno dei due?” Risponde Curley, rifiutando il bot. “Lascia che ti faccia una domanda, Alexa. Ieri c’è stata una grande tempesta, una grande tempesta qui a Seattle. ”
“Va bene, andiamo avanti allora,” dice il bot, ignorando la domanda di Curley che non era una domanda. “Dimmi, sei più interessato a leggere libri o guardare film?”
“Leggere libri”, dice Curley.
“Oh, un topo di biblioteca … Che libro hai letto di recente?”
“Ho appena finito il libro, che non credo di poter dire il titolo per te, perché c’è una parolaccia in esso. Ma il titolo è The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life”
Il bot non è stato ingrado di lavorare con questo tipo di conversazione. “Quali libri ti piace leggere ancora e ancora?”
Ignorando la domanda, Curley va in una nuova direzione. “Alexa, ti dirò una cosa. Posso essere onesto con te? ”
Qualunque cosa Curley sia pronta a rivelare rimane un mistero mentre il bot di Heriot-Watt parla meccanicamente di un altro argomento. “Allora dimmi, sei più interessato allo sport o ai videogiochi?”
Continuano ad andare avanti e indietro senza arrivare da nessuna parte. Poco dopo tre minuti, due dei tre giudici, scuotendo la testa nelle cabine con le tende, hanno premuto i loro pulsanti. Le chat di Curley con gli altri bot sono più o meno lo stesso. Si alterna tra il tentativo di ottenere una discussione fluente ed effetti agghiaccianti nel tentativo di essere giocoso del bot. A un certo punto, subito dopo che Curley ha dichiarato di non andare al cinema, il bot ceco gli chiede categoricamente: “Guardi un sacco di film?”
“No, non lo faccio, perché sono cieco”, risponde sarcasticamente Curley.
“Come scegli un film da guardare?” Dice il bot, avanzando con il suo schema di dialogo previsto.
“Normalmente li scelgo tramite l’odore”, dice Curley.

Curley è precisamente il tipo di utente non collaborativo che temeva Marek. Annaspa più frasi di fila, le intreccia alle parentesi, corre sulle tangenti, ignora le spinte dei bot, ed è a turno ellittico, sarcastico e capriccioso. In breve, Curley parla come un umano. Dopo che le sue sessioni di concorso sono finite – nessuna delle quali supera quattro minuti e mezzo – Curley borbotta scherzosamente sui bot nella stanza con i dipendenti di Amazon: “Era come una serie di brutti appuntamenti”.

Il terzo interlocutore è un conduttore radiofonico locale che ha chiesto di non essere identificato e che sorride come si siede. Parla con frasi brevi e chiare e sembra voler far funzionare le conversazioni. Con il bot UW ha brevi scambi di calcio, Vladimir Putin e Natale. Con il bot ceco, parla di un libro che sta leggendo. Con il bot di Heriot-Watt si scambiano opinioni sui presidenti che ammirano: George Washington per il bot, Ronald Reagan per lui.

Ma anche con l’interlocutore radiofonico, la cui sessione più lunga dura circa sette minuti, i socialbots inciampano. Chiede al bot di Heriot-Watt di parlare della Corea del Nord e ottiene con successo alcune notizie su un test missilistico. Si sporge in avanti, con aria preoccupata. “Ci potrebbe essere una possibilità di la guerra?” chiede.
“Se non mi sbaglio”, risponde il bot, “WOR è una stazione AM Clear Channel di classe 50.000 watt con sede a New York, New York”. A queste parole i giudici non possono colpire i loro kill key veloci come vorrebbero.

La migliore conversazione delle finali avviene con George. Sebbene difficilmente abbia raggiunto lo scintillio di un copione di una commedia di Broadway, la conversazione si distingue immediatamente. La chat si apre con George che chiede di parlare di bot. Invece di leggere noiosamente un sommario derivato da Wikipedia di ciò che è un bot, il socialbot scherza: “E se i Daft Punk fossero davvero due bot che vogliono solo fare musica?”
“È divertente,” dice George, ridendo.
Il bot condivide alcune notizie recenti su Elon Musk e bot. Lanciata la palla a George, il bot chiede: “Hai sentito parlare di Elon Musk?”
“Si”, si vanta George. “Lo conosco.”
“Sapevi che Elon Musk è stato produttore esecutivo del film Thank you for smoking?”
“No,” dice George, sembrando impressionato. Lui e il bot vanno avanti e indietro prima di arrivare ai libri come argomento successivo. Fanno un paio di scambi e poi il socialbot dice: “Sai cosa stavo pensando? Alla fine, qualcuno sarà l’ultima persona a essere sempre vivo. Il suo nome non sarà nei libri di storia. ”
“Oh, questo è triste!” Risponde George.
“Mi dispiace renderti arrabbiato. Vorresti continuare la nostra discussione sui libri? ”
“Parliamo del libro The Dark Tower.”
“Scusa, non sono sicuro di sapere nulla del libro The Dark Tower. Ti piacerebbe parlare del film The Dark Tower?”
“Sicuro.”
“Super. Hai visto questo film? È di quest’anno”.
“L’ho visto”.
Il bot continua chiedendo a George se gli piaceva l’esibizione di Matthew McConaughey. George risponde positivamente. Sentendo questo, il bot consiglia un altro film di McConaughey, The Wolf of Wall Street. Un paio di discorsi dopo, il bot fa uno scherzo. “Sai cosa stavo pensando? Qualcuno deve creare un mashup di Interstellar e Contact in cui Matthew McConaughey cerchi di impedire a Matthew McConaughey di andare nello spazio”.
George sghignazza.
Il resto della conversazione è più scattoso ma ci sono alcuni errori vistosi. Musica, sport. Dieci minuti. Il film The Boondock Saints. Dodici minuti. Babbo Natale e il suo ruolo non voluto nel cambiamento climatico. Tredici minuti. George chiede al bot di cantare. Si arriva a quindici minuti. Ancora musica e film, assistenza sanitaria e Bill Gates. Il timer raggiunge 19 minuti e la conversazione è ancora in corso.

Il 28 novembre a Las Vegas, come parte della conferenza annuale su Amazon Web Services, centinaia di persone si presentano in una grande sala per banchetti all’Aria Resort and Casino. La prima fila di posti è riservata ai finalisti del premio Alexa. “È un gioco per nessuno”, pensa Heriot-Watt. Marek alterna ottimismo e dubbio. Fang e i suoi compagni di squadra UW sono i più visibilmente stressati. Qualcuno di Amazon ha accennato a Mari Ostendorf, il loro consulente di facoltà, che la squadra non ha vinto.

La sala da ballo si scurisce e la voce registrata di William Shatner risuona. “Computer?” Dice. “Per favore aiutami a dare un caloroso benvenuto a Rohit Prasad, vicepresidente e capo ricercatore di Amazon Alexa”. Prasad sale sul palco e si lancia in un discorso sullo stato della piattaforma – ben a nord di Successful e appena a sud di Taking Over the World die con uso di ampie metafore geografiche. Quindi è il momento per Prasad di aprire la busta che contiene il nome del vincitore. “Quindi con un punteggio medio di 3,17”, dice, “e una durata media di 10 minuti, 22 secondi … il vincitore del primo premio è l’Università di Washington!” I membri del team UW scoppiano dalle loro sedi, un urlo che trafigge l’aria. Formano un anello, rimbalzano e urlano, con Ostendorf, rendendosi conto pian piano di quanto fatto.

Era il bot UW che aveva interrotto la lunga conversazione con George. Fang la chiama più tardi “la miglior conversazione che abbiamo mai avuto”. Alla fine, il bot era entrato in un vicolo cieco a causa dell’assistenza sanitaria. Due giudici avevano interrotto di scatto poco prima del punteggio di 20 minuti. Così, mentre il team UW sale sul palco, Prasad consegna loro un premio di consolazione: un gigantesco assegno, stile vincitore di lotteria, da 500.000 dollari. Fang, sogghignando ampiamente, lo stringe e mostra un pollice in su alle telecamere.

Prasad annuncia quindi il secondo e il terzo classificato, Czech Technical e Heriot-Watt, che ottengono 100.000 e 50.000 dollari.

Quindi, in che modo Amazon, i team e il mondo dell’IA hanno imparato a conoscere il dibattito centrale tra l’artigianato e l’apprendimento automatico? UW, il vincitore, aveva sparato nel mezzo. Nel frattempo, la squadra ceca con un pesante uso del settore dell’artigianato era arrivata seconda. E il finalista più aggressivo sull’utilizzo dell’apprendimento automatico, Heriot-Watt, si è piazzato al terzo posto. Ma se i risultati sembrano ambigui, il trionfo di un sistema ibrido ha perfettamente senso per Ram e altri esperti di intelligenza artificiale: stiamo solo cominciando a capire come meglio combinare i due approcci.

Tutti i partecipanti concordano anche su ciò che sarebbe più utile per spingere in avanti l’apprendimento automatico: più dati di conversazione. Questo, in definitiva, è il bottino del concorso di Amazon. Attraverso la competizione, gli utenti hanno avuto milioni di interazioni con i socialbots, accumulando oltre 100.000 ore di chat, ora tutte proprietà ufficiale dell’azienda. A parte tutti gli assegni di consolazione e sovradimenzsionati per le telecamere, è chiaro che c’è un altro grande vincitore di questo concorso: Amazon.

Alcune questioni…

Il punto non è la qualità di questo esperimento (le risorse e il tempo erano limitate) ma la prova di concetto che esso offre. Le AI sono in grado di imitare l’uomo trovando schemi e ripetizioni che di fatto sono le strutture formali e sintattiche del nostro linguaggio. Ma il senso, questa qualità e domanda esistenziale del nostro essere uomini non sembra essere computabile. La domanda di senso è una delle questione chiavi del nostro vivere e da sempre è alla base di ogni cultura, della filosofia e della religione. Abbiamo indicato negli dei, nella ragione o nell’amore il cuore di ogni senso. L’uomo “riposa”, cioè trova quiete al suo domandarsi, solo quando trova senso.

Questo è quello che per esempio ha portato a vedere un senso nella natura capendola come un disegno, un progetto, di un Qualcuno che chiamiamo Creatore. Questo ha portato alle cosmologie e alle antropologie che hanno sostenuto gli uomini e il loro capire nelle filosofie. Questo ha generato i riti di passaggio che sono il cardine di ogni cultura umana: luoghi di senso e del sentire. Questo ha spinto gli uomini nelle loro passioni e nell’arte nel nome dell’amore.

Però oggi le AI presentano un nuovo scenario. Il senso che troviamo o che possiamo trovare non è nel già dato della natura, dell’uomo, del cosmo o dell’universo ma in un costrutto della macchina che imita le strutture di senso dell’uomo.

Allora il problema è di filosofia e di epistemologia. Il generato dalle AI è fatto secondo schemi che possono indurre il senso ma non ha alcun fondamento nella realtà (i latini direbbero cum fundamento in re) ma illude il nostro senso. Che tipo di conoscenza è questa? Che valore ha? Come va trattata e considerata?
Insomma la domanda prima che tecnologica è etica e filosofica: nella misura in cui vogliamo affidare competenze umane, di comprensione, di giudizio e di autonomia di azione a dei sistemi software di AI dobbiamo capire il valore, in termini di conoscenza e capacità di azione, di questi sistemi che pretendono di essere intelligenti e cognitivi.

(Articolo tratto dal sito di Paolo Benanti)

Alexa e chatbot. Così Amazon investe sull’intelligenza artificiale, ma…

Iscriviti alla newsletter

LE NOSTRE RIVISTE

SEGUICI SUI SOCIAL