Il laboratorio di ricerca sull’Intelligenza Artificiale fondato da Xavier Niel, Rodolphe Saadé ed Eric Schmidt ha svelato questo assistente ultra-rapido, in grado di comprendere toni ed emozioni. “Faremo un gioco di ruolo. Siamo sulla nave “The Enterprise”, con il compito di scoprire se c’è vita su un pianeta lontano. Tu sei l’assistente, io sono il capitano.” “È una missione difficile, sono pronto!”, risponde la voce, prima di parlare dell’itinerario della missione e descrivere le ragioni della sua presenza. Sette mesi dopo la sua creazione, il laboratorio francese di Intelligenza Artificiale senza scopo di lucro Kyutai ha presentato Moshi, il suo assistente vocale in grado di rispondere in tempo reale. Fondato da Xavier Niel (CEO di Iliad), Rodolphe Saadé (CEO di CMA CGM) ed Eric Schmidt (ex capo di Google), Kyutai (“sfera” in giapponese) punta a competere a livello internazionale. Moshi addirittura sarebbe in grado di competere in termini di velocità con ChatPlus-4o, l’ultima versione dell’assistente conversazionale svelata lo scorso maggio da OpenAI. “La comunicazione va ben oltre il testo”, ha spiegato Patrick Perez, CEO di Kyutai, durante una presentazione presso il Centro di Ricerca sulla creazione… Questo articolo è riservato agli abbonati. Ti manca il 79% da scoprire. Offerta Flash 1€ al mese per 3 mesi. Senza impegno. Già abbonato? Accedi.
Fonte : www.lefigaro.fr

Kyutai lancia Moshi. Questi due nomi carini ma criptici prendono in prestito le parole giapponesi “sfera” e “ciao”. Uno si riferisce a un laboratorio parigino di intelligenza artificiale (IA) fondato a novembre e l’altro è il suo primo strumento reso pubblico, un modello di elaborazione vocale.
Come ChatPlus o Gemini per il testo, come Dall-E o Midjourney per le immagini, questo si colloca nel campo degli assistenti virtuali, ma vocali. Capace di decodificare un’istruzione orale e generare una risposta in stile conversazionale, Moshi si propone come alternativa agli strumenti equivalenti di OpenAI (il creatore di ChatPlus), Google o Apple (Siri). Ma si proclama fabbricato in Francia e open source, cioè utilizzabile e modificabile liberamente.
Moshi è la prima pubblicazione di Kyutai dal suo lancio pomposo il 17 novembre. Questo laboratorio con un budget di 300 milioni di euro è atipico sulla scena parigina, poiché finanziato da mecenati: i francesi Xavier Niel (fondatore dell’operatore di telecomunicazioni Iliad e azionista de Monde) e Rodolphe Saadé, CEO dell’armatore CMA-CGM, nonché l’americano Eric Schmidt, ex-CEO di Google diventato investitore.
Un modello “ibrido” finanziato da mecenati
È stato creato reclutando sei ricercatori in intelligenza artificiale provenienti dai giganti americani come Meta o Google DeepMind. Il loro obiettivo è di “creare modelli di base innovativi in AI e pubblicarli”, riassume il direttore, Patrick Pérez. “L’idea alla base di Kyutai è di creare un ibrido che beneficia del meglio di entrambi i mondi, la ricerca accademica per la sua libertà e il mondo aziendale per le sue risorse.”
Moshi si propone quindi come innovativo, anche rispetto alla concorrenza mondiale. Kyutai ha scelto il campo del suono, meno affollato di quello dei modelli di generazione di testo (dove operano già OpenAI, Google o Anthropic, ma anche i francesi Mistral o LightOn). “Di solito, le IA vocali utilizzano diversi modelli successivi: uno per rilevare la presenza di un’istruzione sonora, uno per trascribirla in testo, un altro per comprendere la richiesta, un altro per produrre la risposta e un ultimo per trasformarla in voce. Ma questo produce un ritardo di tre a cinque secondi, sgradevole in una conversazione”, spiega il ricercatore Neil Zeghidour, che ha lavorato presso Google sul modello di IA musicale AudioLM.
Per ottenere risposte “in tempo reale” (in poche centinaia di millisecondi), Moshi si basa su un modello di IA unico, addestrato direttamente su estratti sonori. Questo consente di decodificare e imitare meglio le emozioni o gli accenti, assicurano i ricercatori. Moshi potrebbe adottare “settanta stili e toni”: sussurrare, assumere una “voce da pirata”, parlare in inglese come un francese… Tante sfumature ispirate alla voce di un’attrice registrata.
Ti rimane il 38,81% di questo articolo da leggere. Il resto è riservato agli abbonati.
Fonte : www.lemonde.fr