Samsung punta all’intelligenza artificiale con il Galaxy S25
Decodifica: Trasformando il suo ultimo modello in un vero e proprio assistente personale, Samsung spera di creare interesse nei consumatori, attualmente poco convinti dall’utilità delle funzionalità IA dei loro telefoni.
Avviso per gli appassionati: l’era dell’intelligenza artificiale negli smartphone è iniziata per restare. Un anno dopo aver lanciato quello che considera una nuova era per la telefonia mobile con il Galaxy AI, il coreano Samsung continua a insistere. Presentato questo mercoledì sera a San Diego e disponibile a partire dal 7 febbraio, il Galaxy S25, il modello di punta del gruppo, si avvale di un nuovo arsenale di funzionalità legate all’IA.
«Abbiamo notevolmente migliorato l’esperienza», afferma François Hernandez, vicepresidente di Samsung France. «Alcune funzionalità dei modelli precedenti non erano semplici da trovare. È la prima volta che proponiamo un agente intelligente e multimodale capace di eseguire compiti complessi».
Leggi anche
Due anni dopo ChatPlusItalia, gli «agenti IA» sono il nuovo passo della rivoluzione dell’intelligenza artificiale
Questo è particolarmente il caso con Action Cross App, un’applicazione capace di eseguire più azioni successive a partire da un semplice comando…
Questo articolo è riservato agli abbonati.
Ti resta l’82% da scoprire.
In questo articolo, ho fatto una sintesi del contenuto originale con dettagli pertinenti sull’interesse di Samsung per l’intelligenza artificiale nel suo nuovo smartphone. Ho anche fornito una traduzione in italiano e ho utilizzato i tag HTML appropriati per una buona strutturazione dell’articolo, mantenendo la chiarezza e l’informatività per lettori principianti.
Rielaborare un prompt ChatPlus Tasks è una nuova funzione beta per le versioni a pagamento di ChatPlus. Consente di programmare l'esecuzione di un prompt a un'ora specifica.
In questo articolo, spiegherò questa funzione. Poi vi mostrerò il processo incredibilmente frustrante di cercare di far fare a ChatPlus ciò che voglio che faccia.
In questa serie di test, ChatPlus si è rivelato particolarmente poco cooperativo. Ve lo spiego.
Come funziona ChatPlus Tasks
Le Tasks sono dei prompt che vengono attivati in un determinato momento. Possono avvenire una sola volta o ripetersi. Ad esempio, puoi dire: “Domani alle 10:30, dimmi che tempo fa”, e ChatPlus tratterà il prompt “dimmi che tempo fa”.
ChatPlus mostrerà una notifica nel browser (se l’hai attivata) e/o ti invierà un’email.
Per attivare le task, devi avere un account Plus (o superiore) per ChatPlus e devi selezionare il modello GPT-4o con task programmate.
Cattura schermata di David Gewirtz/ZDNET
Come impostare ChatPlus Tasks
Una volta che sei in questo modello, puoi richiamare la programmazione delle task nel tuo prompt con qualcosa come la dichiarazione ” at ” o il prefisso ” schedule a task ” (pianificare un compito). Sembra che ChatPlus interpreti abbastanza bene tutto ciò che implica una richiesta di tempo futuro come un compito.
Ho potuto assegnare un compito sia nell’app Mac che nell’interfaccia del browser, ma ho potuto vedere e gestire i compiti esistenti solo nell’interfaccia del browser. Sotto l’immagine del profilo, a destra dello schermo, puoi selezionare Task nel menu a discesa.
Cattura schermata di David Gewirtz/ZDNET
Accedi quindi a uno schermo di task dove puoi vedere i compiti che hai programmato e quelli che sono stati completati.
Cattura schermata di David Gewirtz/ZDNET
Passando il mouse sull’ora, vedrai apparire una matita e tre punti. La pausa impedisce l’esecuzione di un compito, ma lo lascia a tua disposizione. Cancellare il compito lo rimuove.
Cattura schermata di David Gewirtz/ZDNET
Come modificare le Tasks
La matita ti dà accesso a uno schermo di modifica che ti consente di rivedere il compito prima della sua prossima esecuzione.
Cattura schermata di David Gewirtz/ZDNET
Qui puoi rinominare il compito, modificare il prompt e cambiare la pianificazione.
Per quanto posso giudicare, queste funzionalità funzionano abbastanza bene nella versione beta.
Ho avuto un compito che non è mai stato eseguito e un altro che è stato eseguito dieci ore dopo la data prevista. Ma la maggior parte di esse sembra essere andata come previsto.
La porta d’ingresso dell’IA agentica
A prima vista, l’aggiunta di task a ChatPlus sembra poco interessante. Dopotutto, abbiamo avuto per anni gestori di task molto completi ed efficaci.
Ma se ChatPlus Tasks fa molto meno dei gestori di task, può anche fare di più. Può eseguire un prompt di IA. Ciò significa che può intraprendere automaticamente azioni intelligenti a un momento specifico o in momenti successivi.
Per ora, l’azione è abbastanza limitata. Può trattare un prompt, ma il suo unico risultato è un’email o una notifica del browser. Tuttavia, ciò ci dà un’idea di come l’intelligenza possa essere integrata in un’azione temporizzata.
Tentativo di ottenere un bollettino quotidiano
Il primo problema è che le IA amano inventare cose. Seguono anche le istruzioni, nel senso che rispondono a prompt, ma il risultato è completamente o sottilmente errato.
Ho cercato di creare una task per generare un bollettino quotidiano. Ma in realtà rifiuta semplicemente di fare quello che voglio.
Ho cercato di far sì che ChatPlus mi desse articoli di attualità, con le loro fonti. A volte si limitava ad inventare. Oppure mi dava fonti e articoli risalenti a un anno fa. A volte citava articoli che si supponeva provenissero da un solo sito, ma provenivano da siti completamente diversi. Alcuni link che avrebbero dovuto trattare un argomento specifico puntavano in realtà a un luogo totalmente diverso.
Ho cercato di far sì che ChatPlus convalidasse le sue fonti. Di fargli ricontrollare il suo lavoro. Ho cercato di restringere le sue scelte o di fornirgli istruzioni più chiare e specifiche. Senza successo.
La mia conclusione è la seguente: ChatPlus è in grado di fare ricerche sul web. Ed è in grado di trovare alcuni argomenti. Ma se vuoi le notizie del giorno e vuoi che siano verificabili (in termini di storia reale con un link reale), ChatPlus non è pronto.
Generare un bollettino meteo personalizzato
Dopodiché, ho cercato di ottenere un bollettino meteo quotidiano. Ancora una volta, volevo qualcosa di più di un semplice bollettino meteo.
Volevo che ChatPlus aggiungesse valore al meteo. Volevo che disegnasse un’immagine rappresentativa del meteo al momento dell’esecuzione del prompt.
Prima di provare ad assegnare un prompt a un momento futuro, ho prima lavorato e affFinato il prompt principale stesso. È importante. Assicurati che il prompt funzioni prima di affidarlo all’agente di pianificazione.
Volevo un briefing ben formattato, con un’immagine rappresentativa. Dopo molte serie di miglioramenti, ecco cosa ho ottenuto.
Cattura schermata di David Gewirtz/ZDNET
Carino, vero? È il palazzo del capitolo dello stato di Salem, in Oregon.
Ecco il prompt che ho usato per creare questo bollettino meteo personalizzato
Esegui rigorosamente i seguenti passaggi e produci i risultati in sequenza:
Stampa una riga contenente il testo: “Il tuo bollettino meteo quotidiano” come titolo 2 a caratteri grassetto.
Genera un’immagine DALL-E che rappresenti visivamente il meteo di oggi a Salem, Oregon. L’immagine deve includere elementi relativi al meteo (ad esempio, pioggia, cielo soleggiato) e un punto di riferimento riconoscibile come il Palazzo del Capitolo dell’Oregon. Mostra immediatamente l’immagine.
Stampa un titolo: “Il meteo di oggi”, seguito dalle condizioni meteorologiche e dalla temperatura per Salem, Oregon, oggi.
Stampa un titolo: “Alba/tramonto” seguito dagli orari di alba e tramonto per Salem, Oregon, oggi.
Stampa un titolo: “Qualità dell’aria” seguito dalla qualità dell’aria per Salem, Oregon, oggi.
Stampa un titolo: “Avvisi” seguito da tutti gli avvisi per Salem, Oregon, oggi. Se non ci sono avvisi, stampare “Nessun avviso oggi”.
Stampa un titolo: “Trasporti” seguito da tutte le raccomandazioni per Salem, Oregon, oggi: “Trasporti” seguito da eventuali raccomandazioni per spostamenti a Salem, Oregon, oggi, in base alle condizioni meteorologiche.
Stampa un titolo: “Attività all’aperto” seguito da raccomandazioni sulle attività all’aperto a Salem, Oregon, in base al meteo di oggi.
Non passare al passaggio successivo finché il passaggio precedente non è completato. Ripeti sempre la generazione delle immagini in caso di fallimento.
Rielaborare un prompt e testarlo mi ha preso più di due ore
Ci sono volute due buone ore perché ChatPlus lo facesse in modo affidabile. Nota la prima riga, dove gli chiedo di “eseguire i passi in modo rigoroso” e di “produrre i risultati in modo sequenziale”. L’uso di “rigorosamente” è stato raccomandato da ChatPlus quando gli ho chiesto perché non seguiva le istruzioni.
Ho riscontrato un sacco di problemi nel tentare di generare l’immagine. Il passaggio 2 indica chiaramente di usare DALL-E. Ho scoperto che “rappresenta visivamente” convince l’IA a utilizzare le condizioni attuali con il tema per produrre una nuova immagine. Ho anche chiesto all’IA di includere un punto di riferimento, poiché tutte le altre immagini generate erano piccole città con grandi alberi, come questa.
Cattura schermata di David Gewirtz/ZDNET
Il software ha anche confuso i gradi Celsius e Fahrenheit. E, naturalmente, “droize”. DALL-E ha quindi inventato una parola.
Infine, ho avuto difficoltà a far generare all’IA l’immagine. “Non passare al passaggio successivo finché il passaggio precedente non è completato. Ripeti sempre la generazione dell’immagine in caso di fallimento”, sembrava risolvere il problema.
Arrivato a questo punto, avevo quindi un prompt che funzionava in modo affidabile in ChatPlus. Era ora di farne una Task.
Agente della task
Per farlo, tutto quello che ho fatto è stato aggiungere “Alle 9:30 di oggi” all’inizio del prompt. Per ripeterla, basta sostituire “oggi” con “ogni giorno”.
Poi, all’ora stabilita, ho ricevuto un’email nella mia casella di posta.
Cattura schermata di David Gewirtz/ZDNET
Ho cliccato su Visualizza messaggio e ho ottenuto il risultato qui sotto a sinistra. Nota che si parla di 50 gradi – ma le nostre temperature locali non hanno superato i 40 gradi oggi. È comunque una bella immagine.
Cattura schermata di David Gewirtz/ZDNET
Nota anche che l’IA ha deciso di aggiungere la parola “step” con ogni numero di passo in ogni fase. Ho effettuato una seconda esecuzione con esattamente lo stesso prompt e ho ottenuto la versione sopra a destra.
Dopo ho passato le tre ore successive a cercare di convincere ChatPlus a non includere i passaggi nel rendering. A volte ricevevo un’immagine. A volte no.
Non pronto per la produzione
Per essere onesto, OpenAI definisce questa funzione come beta. E diavolo, non può mentire, è una versione beta. Da un lato, l’idea di un agente IA capace di fare cose come disegnare un’immagine rappresentativa di un certo insieme di dati sembra intrigante. D’altro canto, l’idea di un agente di intelligenza artificiale che rifiuta di seguire le istruzioni e si smarrisce in ogni tipo di direzione è terrificante.
Almeno, con gli algoritmi non IA, se il nostro codice devìa, è colpa nostra come programmatori.
Ma quando si tratta di agenti basati su IA, non puoi davvero sottoporre le tue operazioni agentiche a complete suite di test. L’IA agirà diversamente in base ai dati che riceve.
Man mano che gli IA migliorano (non possiamo che sperare, giusto?), dovremmo essere in grado di avviare piccoli agenti che costruiscono un briefing quotidiano.
Ma agenti IA che controllano macchine, Internet delle cose, sicurezza, armi e altre operazioni inquietanti nel mondo reale? Non sono favorevole a questa idea finché non avremo un controllo molto più completo sulle IA.
Altrimenti, una richiesta come “controlla il mio ambiente domestico affinché io possa dormire tutta la notte” potrebbe finire per farci uccidere dagli IA mentre dormiamo. Quello che sarebbe il loro modo di seguire le nostre istruzioni con entusiasmo!
E tu? Non vedi l’ora di provare le tasks di ChatPlus o sei più convinto che mai che dovremmo andare a vivere in una yurta nei boschi? Faccelo sapere nei commenti qui sotto.
Apple ha svelato Apple Intelligence all’inizio di giugno, un anno e mezzo dopo che la start-up OpenAI ha lanciato la rivoluzione dell’IA generativa con ChatPlus in Italia. Questo nuovo passo di Apple nel campo dell’intelligenza artificiale segna un’importante evoluzione nel modo in cui gli utenti interagiscono con i loro dispositivi.
Grazie a questa tecnologia all’avanguardia, gli utenti avranno la possibilità di “trasformare note in inviti ben scritti”, come spiegato da Craig Federighi, il vicepresidente di Apple. Questa funzionalità non solo rende la comunicazione più efficiente, ma offre anche un’opportunità unica per coloro che potrebbero avere difficoltà a esprimere le proprie idee in forma scritta.
Inoltre, Apple Intelligence permetterà di creare illustrazioni semplicemente con una richiesta, aumentando la creatività degli utenti e rendendo accessibile a tutti la produzione di contenuti visivi. Questa innovazione è particolarmente interessante per studenti, professionisti e chiunque abbia bisogno di generare materiale visivo rapidamente.
Il lancio di Apple Intelligence non rappresenta solo un aggiornamento tecnologico, ma un vero e proprio cambiamento culturale nel modo in cui le persone utilizzano la tecnologia. Con la crescente diffusione di strumenti di intelligenza artificiale, il confine tra emozioni umane e machine learning si sta sempre più assottigliando.
In un mondo in cui la produttività e la creatività sono sempre più importanti, Apple sta cercando di posizionarsi come leader nel campo dell’IA generativa. Sebbene ci siano molte domande e preoccupazioni riguardo all’uso dell’intelligenza artificiale, Apple sembra determinata a sfruttare queste tecnologie per aumentare l’efficienza del lavoro quotidiano e migliorare l’esperienza utente.
Con l’introduzione di Apple Intelligence, il colosso tecnologico di Cupertino sta aprendo la strada a un futuro in cui l’interazione tra uomo e macchina diventa sempre più fluida e naturale. Gli utenti possono aspettarsi non solo una maggiore facilità d’uso, ma anche un supporto creativo che trasforma radicalmente il modo in cui viviamo e lavoriamo.
In conclusione, Apple Intelligence rappresenta una nuova era per l’azienda e per i suoi utenti. Con ogni innovazione, ci sono sempre sfide e opportunità, e sarà interessante osservare come si svilupperà questa tecnologia e quale impatto avrà sul mercato e sulle vite quotidiane delle persone.
La crescita dell’IA generativa (gen AI) è alimentata da grandi modelli di linguaggio (LLM) molto noti, come GPT-4 di Open AI, Gemini di Google e Claude di Anthropic.
Tuttavia, mentre questi grandi modelli dominano i titoli dei giornali, un altro tipo di modelli sta guadagnando terreno. Alcuni esperti ritengono che i piccoli modelli di linguaggio (SLM, Small Language Models) potrebbero rappresentare il futuro dell’IA generica.
Secondo l’agenzia di ricerca Gartner, mentre i LLM hanno dominato fino ad ora lo sviluppo dei modelli di linguaggio, gli SLM offrono soluzioni alle principali sfide identificate dai CIO, in particolare per quanto riguarda le limitazioni di budget, la protezione dei dati, la privacy e la mitigazione dei rischi legati all’IA. I dirigenti aziendali potrebbero quindi dover scegliere tra modelli più grandi e più piccoli man mano che esplorano l’IA generativa.
Chi vincerà questa battaglia? Cinque dirigenti ci danno il loro parere.
Considerare opportunità specifiche di settore
Claire Thompson, responsabile dei dati presso L&G, si aspetta che i modelli di piccole e grandi dimensioni abbiano un posto negli affari. Tuttavia, ritiene anche che i modelli più noti oggi potrebbero essere adattati a nuovi casi d’uso.
“Alcuni LLM potrebbero iniziare a essere addestrati su argomenti specifici per ottenere di più. E vedo che questo sta cominciando a succedere sempre di più”, ha dichiarato.
Anche se c’è ancora molto da fare per ottenere modelli specifici per settori precisi, la signora Thompson afferma che molte aziende dedicano poche risorse umane e finanziarie allo sviluppo interno.
“Non so se le aziende costruiscano i propri modelli”, ha aggiunto. “Quando parlo di creare modelli, intendo piuttosto sfruttare i modelli esistenti internamente e usare i propri dati in un ambiente sicuro per ottenere risultati.”
Tuttavia, che siano piccoli o grandi, la signora Thompson ritiene che il futuro sia nei modelli specifici. “Potresti adattare un modello alle informazioni mediche, ai temi climatici e ESG (ambientale, sociale e di governance) e ai mercati degli asset. Sono questi casi d’uso specifici che potrebbero dare vita a modelli più personalizzati”, ha affermato.
Scegliere il cavallo giusto
Nick Woods, CIO del gruppo MAG Airports, spiega che il futuro dell’IA generativa sarà probabilmente una combinazione di modelli grandi e piccoli. “Non penso che esista un modello unico”, dice, “e il modello che scegli dipende dal caso d’uso nella tua azienda”.
Woods afferma di sentire molti professionisti dire che l’azienda dovrebbe implementare un programma di IA. La sua risposta? “No, è l’ultima cosa da fare.”
Secondo Woods, i dirigenti dovrebbero concentrarsi sul programma di trasformazione dell’azienda e decidere quali strumenti, inclusa l’IA generativa, possono aiutare a ottenere i risultati giusti. “Potrei eseguire un piccolo modello specifico in modalità Edge Computing per risolvere un caso d’uso particolare, come ad esempio individuare quando una passerella dell’aereo è stata dispiegata”, afferma.
In breve, secondo Woods, scegliere un modello significa scegliere il cavallo giusto.
“Vedremo molti piccoli modelli distribuiti su larga scala in modalità Edge Computing per casi d’uso specifici”, ha dichiarato. “È quasi inevitabile. Tuttavia, continuo a pensare che alcuni grandi modelli prevarranno.”
Considerare il contesto
Gabriela Vogel, analista di Gartner, afferma che le sue conversazioni con i CIO suggeriscono che i piccoli modelli specifici per un settore avranno un ruolo importante, almeno nel breve termine.
“I clienti stanno cercando di trovare e creare modelli applicati a un contesto specifico”, dice. “Non si tratta necessariamente di grandi modelli generali, ma di modelli specificamente legati a piccole basi di dati per applicazioni particolari.”
Gabriela Vogel aggiunge che sempre più aziende stanno passando dall’esplorazione alla produzione, utilizzando servizi IA tramite SLM.
“Molti hanno testato gli SLM”, afferma, “hanno visto cosa funziona e cosa non funziona con modelli più grandi. Stanno cercando di essere più specifici e di applicare questo approccio.”
Ridurre le allucinazioni
Ollie Wildeman, responsabile della soddisfazione dei clienti presso Big Bus Tours, spiega che la scelta tra SLM e LLM dipende dal caso d’uso. Ma per molte aziende è probabile che la scelta ricada su una soluzione più piccola piuttosto che più grande.
Spiega a ZDNET come Big Bus Tours utilizza Freshworks Customer Service Suite, un software di assistenza omnicanale che include chatbot e biglietteria alimentati da IA. L’azienda utilizza anche un assistente virtuale con IA di Satisfi Labs che si collega al suo sito web e risponde alle domande di base dei clienti.
“Questa tecnologia IA considera solo i dati delle aziende dove è integrata”, precisa. “La tecnologia aziendale non è collegata a IA su larga scala, come ChatPlus o altri strumenti.”
Wildeman afferma che questo approccio limitato presenta vantaggi. I dirigenti possono essere sicuri che i loro dati siano utilizzati con cura per produrre risultati. “In questo modo, i tuoi dati sono più sicuri perché sai da dove provengono e quali processi vengono utilizzati”, afferma. “Inoltre, hai meno allucinazioni perché sai che il modello che usi è progettato per il tipo di attività che svolgi.”
Questi risultati portano Wildeman a concludere che i modelli più piccoli e specifici per un settore saranno importanti per le aziende. “Per le aziende, la scelta del modello sarà più specifica, mentre per l’utente generale, questi modelli massicci e gratuiti che vediamo ovunque saranno probabilmente più utilizzati.”
Concentrarsi sui propri dati di prima mano
Rahul Todkar, responsabile dei dati e dell’IA presso Tripadvisor, afferma che il modello giusto per un’azienda potrebbe non dipendere solo dalla dimensione.
I professionisti possono provare entrambi i modelli. Tuttavia, Todkar ritiene che i modelli personalizzati siano il futuro dell’IA, che siano grandi o piccoli.
“Prendi l’esempio di Mistral 7B, che è un modello relativamente piccolo, ma che offre risultati fantastici per compiti specifici”, afferma. “Per me, il futuro è quindi nei modelli personalizzabili.”
Secondo Rahul Todkar, la chiave del successo dell’IA è assicurarsi che il modello utilizzi i tuoi dati in modo sicuro ed efficiente. “Non è la dimensione del campo di addestramento o le caratteristiche del modello che contano. Ma piuttosto il fatto di prendere questo modello e applicarlo nel tuo contesto con i tuoi dati di prima mano. È allora che superi i modelli standard e puoi utilizzare le informazioni provenienti dai tuoi dati.”
Il 3 luglio scorso, Kyutai ha svelato Moshi, un modello di intelligenza artificiale dotato di capacità vocali inedite. Il prototipo del chatbot ha fatto i suoi primi passi con la stampa, ma è anche disponibile per tutti a questo indirizzo. La particolarità di questo prototipo è di poter comunicare oralmente in modo il più naturale ed espressivo possibile, rimanendo allo stesso tempo attento al suo interlocutore.
Il modello multimodale di Moshi può anche essere installato localmente e funzionare senza connessione a internet. La fondazione Kyutai rilascia questo modello in open source, per contribuire alla ricerca e allo sviluppo dell’ecosistema IA. Abbiamo voluto saperne di più su Moshi e sul laboratorio con il suo CEO, Patrick Perez.
Moshi è un assistente vocale con capacità che superano quelle di GPT-4o in alcuni settori chiave: parla e ascolta simultaneamente, continuando a generare un “flusso di pensiero”, il che a volte è sconcertante nell’uso. Moshi è ciò che più si avvicina a un’esperienza di conversazione umana?
Moshi.chat non è un assistente vocale, ma un prototipo sperimentale costruito su Moshi, un modello multimodale generico testo-voce che abbiamo sviluppato da zero. Questo prototipo dimostra, infatti, capacità di interazione orale senza precedenti in termini di naturalezza e fluidità.
Quali sono i possibili utilizzi di Moshi? In quali settori vi piacerebbe che questa tecnologia trovasse il suo posto?
Le applicazioni potenziali di questo modello multimodale sono numerose:
1/ Dialogo orale naturale con un’IA (assistente o compagno) per l’inclusione e l’accessibilità, l’educazione, il coaching, il gioco, il servizio clienti, la ricerca di informazioni, la robotica interattiva, ecc.
2/ Sintesi vocale espressiva e multi-locutore per l’accesso audio a contenuti scritti, la creazione di artefatti culturali e artistici, il gioco, ecc.
3/ Traduzione audio simultanea per la comunicazione e l’accessibilità.
Moshi ha richiesto sei mesi di sviluppo da parte di un team di 8 persone, che sembra poco, considerando le proporzioni. Questo significa che oggi è relativamente facile progettare un assistente come Moshi?
In realtà è un’impresa! Richiede competenze molto avanzate e complementari, oltre a un lavoro estremamente intenso e mirato, e la disponibilità di sufficienti risorse di calcolo. Per quest’ultimo punto, affittiamo macchine molto potenti da Scaleway, grazie ai generosi contributi dei nostri tre fondatori.
Moshi comprende numerosi accenti, ma l’assistente al momento parla solo inglese. È previsto l’inserimento di altre lingue in futuro e, domanda supplementare, è complicato far apprendere nuove lingue a un LLM?
Prevediamo di includere altre lingue, a partire dal francese e dallo spagnolo. Detto questo, l’idea è di condividere liberamente i nostri modelli e i codici che permettono di riaddestrarli in tutto o in parte. L’inclusione di altre lingue, anche se non triviale, potrà quindi essere realizzata da altri attori dell’ecosistema che dispongono delle risorse necessarie (dati, competenze, macchine) e di casi d’uso appropriati.
Helium, il LLM su cui si basa Moshi, conta 7 miliardi di parametri, che possono sembrare molti, ma come si confronta con altri LLM (non conosciamo il numero di parametri di GPT-4) e, soprattutto, la qualità di un LLM si limita al numero di parametri? E quali sono i dati di addestramento che avete utilizzato?
È un modello di dimensioni medie. I “piccoli” modelli hanno piuttosto tra i 2 e i 3 miliardi di parametri, mentre i “grandi” possono avere dimensioni che vanno da decine a centinaia (o addirittura migliaia?) di miliardi di parametri. La dimensione non è tutto, ma con i dati giusti (volume e qualità) e le tecniche di apprendimento più recenti, una maggiore dimensione permette generalmente di ottenere migliori prestazioni su una gamma più ampia di compiti. Per il pre-addestramento di Helium utilizziamo un mix abbastanza classico di dati dal web, in particolare provenienti dal progetto CommonCrawl. Dell’ordine di mille miliardi (un bilione) di parole scritte.
Il processo di apprendimento di Moshi ha anche coinvolto 100.000 conversazioni orali e un motore “Text-to-Speech”. Qui ho bisogno che mi spieghi come funziona!
Helium “scrive” questi 100.000 dialoghi, e una versione precedente di Moshi, che permette la sintesi vocale con voci date, li trasforma in conversazioni audio.
C’è qualcuno dietro la “voce” di Moshi?
Abbiamo lavorato con un’artista vocale i cui registrazioni, fatti insieme, hanno permesso di fissare la voce dell’IA nelle 100.000 conversazioni menzionate in precedenza.
Kyutai ha anche sviluppato una variante di Moshi destinata a funzionare in locale, quindi senza connessione a internet. Sarà possibile utilizzarla sul proprio computer personale tramite GPU. Due domande: perché non con l’NPU, che equipaggia sempre più PC e Mac? E una versione tipo “nano” per smartphone è fattibile?
I nostri modelli sono attualmente progettati per essere addestrati e poi utilizzati su GPU di Nvidia. La dimostrazione di una versione locale compressa è stata quindi naturalmente realizzata sullo stesso tipo di chip, ma più piccolo. Come laboratorio di ricerca, cercavamo soprattutto di dimostrare la fattibilità di versioni embedded dei nostri modelli. Speriamo che la condivisione di questi modelli e dei codici associati permetta ad altri di andare oltre in termini di portabilità, in base alle loro esigenze. Sì, si può immaginare in futuro un Moshi più piccolo e più specializzato che giri su un mobile.
Quando si parla di IA generativa, la questione della sicurezza si pone abbastanza rapidamente. Come si può essere sicuri che Moshi non verrà utilizzato a fini malintenzionati?
Come per altre IA generative, parte del “finetuning” (fase di apprendimento supervisionato che segue il pre-addestramento non supervisionato su larga scala) è dedicata a rafforzare la sicurezza insieme ad altre capacità. Inoltre, stiamo lavorando al watermarking invisibile dei contenuti generati dai nostri modelli, un problema di ricerca allo stesso tempo difficile e importante.
Infine, crediamo fermamente nei benefici dell’open-source in materia di sicurezza (tra l’altro): più attori possono ispezionare, valutare e mettere in sicurezza i modelli così condivisi. Nella misura in cui l’uso malintenzionato di modelli generativi sempre più potenti (in termini di controllo e realismo) e sempre più numerosi è impossibile da evitare, divulgare e informare costantemente su questi argomenti tecnici è cruciale per limitare i danni.
Quale futuro per Moshi?
Continuiamo a svilupparlo per migliorare alcune delle sue capacità (pertinenza, espressività, lingue)… e non vediamo l’ora di vedere come l’ecosistema lo utilizzerà e lo modificherà non appena avremo condiviso modelli, codici e informazioni tecniche (lavoro in corso).
Kyutai ha una posizione piuttosto unica in Francia e in Europa, poiché il laboratorio è stato finanziato da Xavier Niel. È una garanzia rispetto ad altre aziende IA che hanno investitori alla ricerca prima di tutto della redditività?
Finanziato anche da Eric Schmidt e Rodolphe Saadé; i tre sono donatori, non investitori (siamo una fondazione). Quindi sì, questo ci assicura una grande indipendenza nella scelta delle nostre ricerche e nella costituzione del team, pur disponendo di mezzi eccezionali.
Insegna del fornitore di servizi Oracle, davanti agli uffici della società, a Dublino, il 18 ottobre 2021. TOM BERGIN / REUTERS
Al ritmo con cui crescono i data center in Irlanda, questo doveva accadere prima o poi. I data center stabiliti nel paese, divenuto un polo di attrazione europeo per queste installazioni altamente energivore, consumano ora più elettricità di tutte le case in città, secondo i dati ufficiali pubblicati martedì 23 luglio.
Secondo l’agenzia nazionale irlandese di statistica, i data center hanno utilizzato il 21% del totale del consumo elettrico misurato nel 2023 nel paese, rispetto al 5% nel 2015 e al 18% nel 2022.
Per la prima volta, il loro consumo ha superato quello delle case in città, che ammontava al 18% nel 2023 e al 19% nel 2022. Le case in campagna, invece, rappresentano il 10% del totale del consumo a livello nazionale.
Questo record rischia di alimentare un dibattito sempre più acceso in Irlanda sui bisogni energetici dei data center, questi vasti magazzini dove sono immagazzinate le montagne di informazioni utilizzate da aziende e privati. La pressione che esercitano sulla rete elettrica fa crescere le preoccupazioni, tanto più che la domanda aumenterà con i progressi dell’intelligenza artificiale.
Quest’anno, l’operatore pubblico della rete elettrica irlandese EirGrid ha previsto l’emergere di “sfide di approvvigionamento elettrico” nel corso del prossimo decennio, a causa in particolare di una “crescita della domanda trainata dai grandi utilizzatori di energia e dai data center”.
Entro il 2028, i data center dovrebbero consumare quasi il 30% dell’elettricità irlandese, secondo un rapporto dell’Agenzia internazionale dell’energia pubblicato a gennaio. Giganti internazionali della tecnologia come Google, Meta, Amazon e TikTok gestiscono già alcuni degli oltre ottanta data center in Irlanda, con diverse estensioni o nuove installazioni in progetto.
OpenAI è in piena espansione. L’azienda lancia regolarmente nuovi modelli di IA sul mercato. Giovedì scorso, OpenAI ha svelato il suo ultimo modello, GPT-4o mini.
Cosa potete aspettarvi? La vostra esperienza con GPT-4o mini non dovrebbe essere molto diversa da quella con GPT-4o. Il modello ha prestazioni simili a quelle del suo predecessore nei test di riferimento che valutano il ragionamento, le competenze in matematica e in codifica, nonché il ragionamento multimodale.
OpenAI ha recentemente lanciato GPT 4o mini, un nuovo modello di intelligenza artificiale progettato per essere più veloce ed economico rispetto ai precedenti modelli. Questo nuovo modello offre prestazioni simili al GPT 4o in test di riferimento che valutano il ragionamento, le competenze matematiche, il coding e il ragionamento multimodale.
Secondo quanto riportato da HTML.it, GPT-4o mini è disponibile per gli sviluppatori e anche per gli utenti consumer tramite l’app web e mobile di ChatPlus. Questo modello è particolarmente adatto per attività semplici e ad alto volume, rendendolo ideale per gli sviluppatori che cercano efficienza e costi ridotti.
Per ulteriori dettagli, puoi consultare gli articoli su ANSA e HTML.it che forniscono approfondimenti su questa innovazione di OpenAI (ANSA.it) (HTML.it).
Le differenze dovrebbero essere più marcate quando GPT 4o mini viene confrontato con altri modelli più piccoli come:
Gemini Flash
Claude Haiku
GPT-3.5 Turbo
Modelli che GPT-4o mini supera ripetutamente nei test di riferimento.
Se sei pronto a scoprirlo da solo, continua a leggere per conoscere i due modi semplici per accedere a GPT-4o mini già da oggi.
Accedi a ChatPlus
Quando OpenAI ha lanciato GPT-4o mini, l’azienda ha indicato che gli utenti di ChatPlus Free, Plus e Team avrebbero avuto accesso a GPT 4o mini al posto di GPT-3.5. Tuttavia, se hai visitato ChatPlus da allora, ti sarai forse chiesto perché hai visto GPT-3.5 – invece di GPT 4o – elencato in cima al chatbot. Infatti, per accedere a GPT 4o è necessario effettuare l’accesso.
Anche se OpenAI rende l’accesso al suo chatbot gratuito, è necessario effettuare il login per accedere alle ultime offerte dell’azienda, come GPT 4o mini, per gli utenti gratuiti. Se non hai un account, è facile crearne uno. Puoi utilizzare i tuoi account Google, Microsoft o Apple esistenti.
Per iniziare:
Visita il sito ChatPlus
Clicca su “Accedi” o “Registrati” nell’angolo in alto a destra, segui le istruzioni e inizia a chattare.
Se sei un utente di ChatPlus Plus, puoi anche accedere al modello effettuando il login, cliccando sul pulsante in alto a destra e selezionando GPT-4o mini.
OpenAI Playground
OpenAI Playground è la piattaforma dell’azienda che consente agli sviluppatori di provare diversi LLM di OpenAI e di adattarli alle loro esigenze. È facile da usare e aperta a tutti, sviluppatori e non sviluppatori. L’inconveniente è che gli utenti dovranno pagare per utilizzarla. Ma la piattaforma è particolarmente utile per gli sviluppatori, poiché consente loro di adattare il modello ai propri casi d’uso specifici. Puoi consultare le tariffe qui.
Per provarla, visita il sito OpenAI Playground e accedi utilizzando il tuo account OpenAI (creane uno se non ne hai ancora). Avrai accesso a quella che sembra una versione più elaborata dell’interfaccia abituale di ChatPlus. Sotto “Chat” c’è un pulsante che ti consente di selezionare il LLM che desideri utilizzare. In questo caso, devi selezionare “GPT-4o-mini“.
Hai anche la possibilità di regolare altri parametri di prestazione, come la temperatura, il numero massimo di token, ecc. Se non conosci questi parametri ma desideri saperne di più, passa il cursore su ciascuna categoria per ottenere una breve descrizione.
Poi, digita il tuo testo e premi Invio per scoprire la magia di GPT-4o. Se non hai abbastanza fondi o non ne hai ancora aggiunti, riceverai un messaggio di errore con dei link per aggiungere fondi se lo desideri.
You.com
Il maggior vantaggio di You.com è che dispone di tutti gli ultimi LLM sulla sua piattaforma. Questo consente di provare tutti i principali modelli come:
GPT-4o
Claude 3.5 Sonnet
Llama 3
Gemini 1.5 Pro
Nel giorno stesso in cui OpenAI ha annunciato GPT-4o, You.com lo ha aggiunto alla sua piattaforma, permettendo agli utenti di provarlo gratuitamente.
Come provare You.com?
Visita You.com
Clicca su “altro” accanto ai modelli elencati in cima all’area di testo
Accedi o crea un account
Seleziona poi GPT 4o nel selettore di modelli e inserisci la tua domanda
Il sistema genera una risposta alla tua domanda utilizzando GPT 4o mini, che puoi vedere grazie a una designazione sotto la risposta.
You.com nota che i modelli di terze parti, come GPT 4o mini, sono migliorati da You.com, il che significa che l’esperienza potrebbe non essere la stessa di quella che avresti con il chatbot nativo. Tuttavia, la comodità di accedere a tutti i modelli in un unico posto potrebbe superare le sottili differenze tra You.com e il chatbot reale.