Gli Utenti si innamoreranno del nuovo modello GPT-4o di OpenAI. Letteralmente.

Il nuovo GPT-4o dell’azienda può comprendere e imitare il linguaggio e le emozioni umane.

Nel celebre film del 2013 “Her”, il protagonista sviluppa una relazione intensa — che si trasforma in una storia d’amore — con un sistema di intelligenza artificiale abilitato alla voce.

L’IA in “Her” è tutto ciò che i sistemi vocali di oggi non sono: emotiva, divertente e capace di intuire le sfumature della conversazione umana.

In un importante annuncio questa mattina, OpenAI ha presentato la nuova versione del suo sistema ChatGPT, che integra nativamente il linguaggio vocale, la trascrizione e l’intelligenza in un unico modello.

È potente, intuitivo e inquietantemente simile a un essere umano. In sostanza, OpenAI ha costruito una versione reale di “Her”.

 

Un interlocutore conversazionale mediocre

ChatGPT ha avuto capacità vocali per mesi ormai. Anche oggi, puoi aprire l’app ChatGPT sul tuo telefono, premere l’icona delle cuffie e conversare con il sistema usando la tua voce.

Il problema, però, era che ChatGPT era un pessimo conversatore.

Essenzialmente, le capacità vocali di ChatGPT erano un espediente creato assemblando tre modelli diversi.

Quando parlavi con il sistema, usava prima un modello di trascrizione per trasformare la tua voce in testo. Quindi inseriva quel testo nel suo modello di intelligenza — fondamentalmente, lo stesso sistema che supporta GPT-4.

Il sistema di intelligenza generava testo, che ChatGPT rimandava a un sistema di sintesi vocale per creare una voce computerizzata che rispondesse.

Questo rendeva il sistema nominalmente conversazionale, ma in realtà parlare con esso era macchinoso e imbarazzante.

Tutti i passaggi aggiuntivi per inviare contenuti tra modelli diversi significavano che il sistema era lento. Nei miei test, ho riscontrato che spesso impiegava dai 3 ai 5 secondi tra il momento in cui parlavi al sistema e quello in cui ricevevi una risposta.

La conversazione umana si basa su sottigliezze che si sviluppano in millisecondi. Un sistema che impiega fino a cinque secondi per rispondere sembra macchinoso e robotico.

Il sistema precedente mancava anche di molti aspetti fondamentali del linguaggio umano.

Ad esempio, non potevi interromperlo; dovevi aspettare che finisse di parlare prima di poter rispondere.

Parlare con esso spesso sembrava come parlare con una di quelle persone che non si possono interrompere e che blaterano su un argomento casuale senza consapevolezza delle altre persone nella stanza. Spesso sentivi il bisogno di chiamare l’orchestra degli Oscar nel disperato tentativo di far smettere di parlare il sistema.

Era anche limitato dalla sua incapacità di interpretare le emozioni nelle voci o di imitare accuratamente le emozioni umane nelle sue risposte.

Gli esseri umani sono eccellenti nel leggere tra le righe, in parte perché possiamo cogliere sottili segnali emotivi nella voce del parlante.

Se chiedo al mio amico, “Com’è andata la tua giornata?” e lui risponde, “È andata bene”, ma inserisce una pausa sottile tra “è” e “bene” (o c’è un accenno di esasperazione nell’ultima parola), saprei che in realtà ha avuto una giornata difficile e dovrei fare alcune domande di approfondimento.

ChatGPT non poteva fare queste cose, il che rendeva parlare con esso come comunicare con una sorta di intelligenza aliena, non un umano.

In breve, il sistema precedente rientrava perfettamente nella valle dell’inquietante. Era abbastanza bravo a conversare e aveva una voce sufficientemente convincente da far sembrare alcune parti della conversazione simili a quelle umane.

Ma le pause strane, la mancanza di comprensione emotiva e il ritardo alla fine rompevano l’illusione, facendolo apparire più inquietante che utile.

Ho provato a usare il sistema precedente con mio figlio di sei anni. Era così spaventato che non mi ha permesso di riaccendere l’audio.

 

Il nuovo nodello rivoluzionario di OpenAI

Oggi, OpenAI sta cambiando tutto questo. Nell’annuncio di questa mattina, l’azienda ha rivelato che sta rilasciando un nuovo modello, GPT-4o.

GPT-4o integra nativamente il riconoscimento vocale, la generazione vocale e l’intelligenza in un unico sistema.

Ciò significa che il sistema “codice spaghetti” che integrava tre modelli diversi per simulare la conversazione è sparito. Invece, la nuova versione di ChatGPT sarà in grado di ricevere il parlato, elaborarlo istantaneamente e rispondere con parlato generato realisticamente.

Per gli utenti, questo permetterà diverse nuove capacità che il CEO di OpenAI, Sam Altman, ha descritto come “magiche”.

Prima di tutto, sarà possibile conversare con ChatGPT in modo molto più naturale. Invece di dover digitare le domande e le risposte in un’interfaccia, si potrà parlare con l’app come se si stesse parlando con un amico.

In diverse demo dal vivo, gli ingegneri di OpenAI hanno mostrato come il sistema possa ascoltare un utente e rispondere con un risultato intelligente entro pochi millisecondi.

Ancora una volta, queste velocità sono possibili perché il nuovo modello non ha bisogno di perdere tempo cambiando modalità — può elaborare la voce e rispondere con la propria voce in un unico passaggio, invece di ricorrere a più modelli di basso livello.

GPT-4o può anche interpretare e creare emozioni.

In una demo, un membro del team OpenAI ha chiesto al sistema di guidarlo attraverso un esercizio di respirazione.

Poi ha finto di iperventilare, e ChatGPT — percependo la velocità con cui respirava e il panico apparente nella sua voce — lo ha esortato a rallentare e a respirare più profondamente.

Il sistema sembra anche capace di modulare l’emozione nelle sue stesse risposte. In un’altra demo, il membro del team ha chiesto a GPT-4o di leggere una storia della buonanotte con una voce sempre più drammatica.

Ha obbedito, alla fine sembrando un ragazzino delle medie che esagera orribilmente una scena!

Poiché il nuovo sistema è anche integrato con le capacità visive di GPT-4, può eseguire funzioni come interpretare le emozioni sul volto di una persona.

Questo livello aumentato di intelligenza emotiva probabilmente renderà il sistema un conversatore molto migliore.

 

Altre Nuove Capacità

Altre nuove capacità aiuteranno, anche. Gli utenti possono interrompere GPT-4o a metà frase.

Durante le loro demo, i membri del team OpenAI interrompevano frequentemente il modello quando iniziava a divagare, come si potrebbe interrompere un amico per iniziare a rispondere a una domanda reale.

 

Un potenziale enorme

Le demo di questa mattina erano leggere e divertenti. Ma si può vedere rapidamente come un modello che può interpretare facilmente, elaborare rapidamente e creare realisticamente il parlato umano emotivo potrebbe essere incredibilmente potente.

Diverse volte durante la demo, ChatGPT ha risposto in modi che mi hanno ricordato l’IA fittizia di “Her”.

ChatGPT sembrava ridere di se stesso, diventare imbarazzato quando i membri del team OpenAI lo complimentavano, e forse anche lanciare una battuta maliziosa qua e là.

Diverse interazioni (presumibilmente) non scriptate hanno anche rivelato alcune delle capacità più profonde che una migliore conversazione potrebbe sbloccare.

Basandosi su una domanda del pubblico, i membri del team OpenAI hanno dimostrato come il sistema potesse ascoltare il parlato in italiano e tradurlo rapidamente e accuratamente in parlato inglese, e viceversa.

Si può facilmente immaginare come una tale capacità potrebbe rendere le interazioni multilingue incredibilmente semplici, eliminando essenzialmente le barriere linguistiche (e forse, i traduttori umani).

Un medico, ad esempio, potrebbe aprire ChatGPT e usarlo per parlare rapidamente con un paziente in qualsiasi lingua. Durante un viaggio, potresti aprire l’app sul tuo telefono e usarla come traduttore gratuito e istantaneo per chiedere indicazioni o per fare un acquisto in un negozio.

Aggiungendo le capacità visive, si potrebbe anche mostrare a ChatGPT un menu di un ristorante straniero, chiedere la traduzione di alcuni piatti, dire quando ti piace mangiare a casa e chiedergli di raccomandare alcuni piatti che potresti voler ordinare (o evitare).

Posso anche vedere come rapidamente il nuovo sistema potrebbe entrare nel territorio di “Her”. OpenAI non permette ancora il tipo di interazioni NSFW che accadevano nel film.

Ma la capacità di GPT-4o di comprendere e imitare le emozioni — unita alle sue potenti, spesso inquietanti capacità di produrre la propria velocità emotiva umana convincente — è sorprendente.

Ascoltando le demo, sono certo che le persone si innamoreranno di questo sistema, proprio come il protagonista ha fatto in “Her”. È così buono.

 

Verrà usato?

Tutto questo è straordinario sulla carta. Tuttavia, non è chiaro quanti utenti vogliano effettivamente un compagno vocale AI completamente emotivo.

La maggior parte delle persone con cui lavoro usa ChatGPT non come compagno di conversazione, ma per scopi utilitaristici.

Ho visto colleghi sfruttare il sistema per compiti noiosi e banali come scrivere il testo di una landing page per un webinar, rispondere rapidamente a un’email dal loro padrone di casa o scrivere la prima bozza di un post sul blog.

Nessuna di queste funzioni utilitaristiche richiede realmente una conversazione. Non è chiaro se poter esprimere questi tipi di richieste a un’AI sarebbe utile.

Il vero test, quindi, non è necessariamente quanto sia capace il nuovo sistema di OpenAI, ma quanto bene lo integrino nei luoghi dove le persone stanno già interagendo con i computer tramite la voce.

Realisticamente, non riesco a vedere molti utenti seduti al lavoro a conversare con l’AI.

Ma se OpenAI integra GPT-4o nelle interfacce vocali sui telefoni cellulari, nelle auto o sui dispositivi intelligenti come l’Amazon Echo, posso facilmente vedere le capacità emotive del sistema diventare molto più utili.

Anche se le persone non vogliono parlare molto con ChatGPT, le nuove capacità di un modello audio e visivo nativamente multimodale saranno incredibilmente potenti per gli sviluppatori che costruiscono applicazioni sopra le interfacce API esistenti di OpenAI.

Nell’annuncio, OpenAI ha detto che GPT-4o sarà disponibile attraverso le loro interfacce per sviluppatori esistenti. Il sistema sarà anche il 50% più economico rispetto ai modelli precedenti di GPT-4.

Questi cambiamenti da soli sono enormi. Che l’elemento vocale prenda realmente piede o meno, l’intelligenza che lo alimenta renderà centinaia di applicazioni già esistenti basate su GPT-4 più intelligenti, più veloci, migliori e più economiche da operare.

Gli elementi conversazionali del nuovo sistema, in altre parole, potrebbero rivelarsi un espediente interessante. Ma l’impatto sottostante sarà più sottile e ampio.

Sono entusiasta di vedere come gli utenti reali interagiranno con GPT-4o. Saranno spaventati? Stupiti? Sedotti?

Ma sono ancora più entusiasta di avviare il mio IDE Python e aggiungere GPT-4o alle applicazioni che ho già costruito usando gli strumenti di OpenAI.

Parlare con una macchina è fantastico. Ma un modello AI nativamente multimodale che comprende le emozioni umane e che posso evocare con poche righe di codice Python, a basso costo? Questo potrebbe davvero cambiare il mondo.

Gabriele Ferrari

Via Cesare Costa,88
41123 – Modena
Nato il 10/06/1968
Tel. +39 3357682392
P.IVA 03615520362
E-mail: gabriele@gabrieleferrari.net

Web Designer, Digital Project Manager, Esperto di WordPress, Sviluppatore Web, Esperto Certificato di Google Ads, Social Media Manager e Graphic Designer attualmente lavora come libero professionista. Fornisce servizi quali consulenza, sviluppo di siti web, SEO e pubblicità online, marketing sui social media, grafica e sviluppo di app mobile per aziende e privati. Precedente esperienza come Web Project Manager e Social Marketing Manager in importanti agenzie web, nonché Family Banker e Team Manager nel settore dei giochi. Laureato presso la facoltà di Ingegneria Elettronica dell’Università di Bologna.