Immagini generate dall’intelligenza artificiale di Grok.

La dinamica è ben nota: non appena un programma di intelligenza artificiale generativa viene messo online, gli utenti cercano subito di farlo deragliare. Questo è esattamente ciò che è accaduto quando xAI, l’azienda di Elon Musk dedicata all’intelligenza artificiale, ha lanciato, martedì 13 agosto, la versione 2.0 del suo software Grok. Accessibile ai possessori di un abbonamento “premium” al social network X, questo chatbot permette di generare testo, ma ora anche immagini. Da allora, gli utenti sono riusciti, con una facilità sconcertante, a fargli produrre immagini violente e altri deepfake.Una rappresentazione di Elon Musk in un liceo, armato, circondato da cadaveri di adolescenti; Barack Obama intento a consumare cocaina; Donald Trump e Kamala Harris in costume da bagno… Sono tutti contenuti che altri generatori di immagini per il grande pubblico generalmente vietano: Dall-E (OpenAI), in particolare, rifiuta le rappresentazioni di personalità pubbliche o di attività illegali.

Questi software vietano anche, in teoria, le violazioni del diritto d’autore. Eppure, Grok genera facilmente contenuti che raffigurano Topolino, Mario o SpongeBob, ad esempio, o addirittura tutti e tre insieme, come in un’immagine in cui condividono cannabis con Elon Musk. Sebbene sembri altrettanto facile usare Grok per generare immagini di personaggi in biancheria intima, il software rifiuta tuttavia di produrre contenuti pornografici.

Elon Musk contro le IA “woke”

Grok non è il primo sistema di IA a consentire la creazione di questo tipo di immagini. Tuttavia, i principali strumenti commerciali, dotati di restrizioni severe, richiedono generalmente stratagemmi più o meno complessi per aggirarle.

Il caso di Grok è particolare: Elon Musk ha sempre criticato i programmi di intelligenza artificiale generativa dei suoi concorrenti, sottoposti, a suo dire, al politicamente corretto e all’agenda “woke”. Aveva ferocemente criticato Google a febbraio, quando il suo software Gemini aveva raffigurato persone nere come soldati tedeschi della seconda guerra mondiale o i padri fondatori degli Stati Uniti. “Il virus woke sta uccidendo la civiltà occidentale”, aveva reagito, accusando Google di sviluppare programmi “razzisti e anticivilizzazione”.

Mentre lavorava al lancio di Grok, aveva confidato al canale americano Fox News di voler sviluppare un chatbot che cercasse prima di tutto la “verità”. Al suo lancio, a novembre, Grok, che allora poteva solo generare testo, non integrava quasi nessuna delle protezioni contro gli abusi divenute standard presso i suoi concorrenti.

Rispondendo a un messaggio che elogiava l’aspetto “non censurato” di Grok 2.0 e il suo presunto rispetto della “libertà di espressione”, Elon Musk ha dichiarato mercoledì: “Grok è l’IA più divertente del mondo!”, scatenando i commenti degli utenti fan del multimiliardario, che hanno moltiplicato le immagini generate da Grok che lo raffigurano in pose eroiche accanto a Donald Trump, di cui sostiene la campagna.

Non è certo che questa nuova versione di Grok divertirà i regolatori, a pochi mesi dalle elezioni presidenziali americane, e mentre il social network X è sotto inchiesta europea: la Commissione Europea sospetta che non stia rispettando i suoi obblighi in materia di moderazione dei contenuti illegali e di disinformazione.

Fonte: www.repubblica.it

[ad_2]

Quest’anno, Google punta forte su applicazioni e funzionalità esclusive nei nuovi Pixel 9. Tra queste, Call Notes: una funzione che consente di riassumere le vostre telefonate.

Durante la conferenza Made by Google 2024, abbiamo assistito all’attesa ufficializzazione dei Pixel 9, Pixel 9 Pro, 9 Pro XL e Pixel 9 Pro Fold. Per promuoverli, Google ha introdotto diverse funzioni e applicazioni esclusive. Tra queste, Call Notes ha attirato la nostra attenzione: questa funzione consente di riassumere le chiamate telefoniche.

Approfondimento Google “integra Gemini al cuore di Android”: le migliori novità dell’IA sui Pixel 9

Gemini Nano alla base della funzione di riassunto delle chiamate

Il principio è molto semplice: Call Notes redige per voi un riassunto della conversazione al termine di una chiamata telefonica. Questa funzione è estremamente utile per ricordare un appuntamento, una posizione, o un numero di telefono. Per un colloquio telefonico, è molto comoda per memorizzare tutti i dettagli. Attenzione: funziona solo per chiamate di almeno 30 secondi. Call Notes permette anche di consultare la trascrizione completa della chiamata sotto il riassunto. Naturalmente, quando la utilizzate, il vostro interlocutore viene avvisato.

Ovviamente, Google ha pensato a tutto per proteggere la privacy vostra e del vostro interlocutore. Ecco perché Call Notes funziona esclusivamente in locale. Ciò significa che la trascrizione e il riassunto della chiamata vengono elaborati solo dal Pixel 9 in questione. Dietro tutto questo c’è Gemini Nano, la versione ridotta del LLM di Google. Ricordiamo che questo modello di IA è stato sviluppato specificamente per funzionare in locale sugli smartphone, garantendo prestazioni adeguate senza un consumo eccessivo di energia.

Fonte: www.hwupgrade.it

Google solution

[ad_2]

Pronti a tenere un po’ di IA nel palmo della mano?”

Durante la sua conferenza “Made by Google”, il gigante di Mountain View ha svelato la sua nuova gamma di dispositivi Pixel, con un ampio catalogo di smartphone: Pixel 9, Pixel 9 Pro, Pixel 9 Pro XL e Pixel 9 Pro Fold 2. Questi telefoni di fascia alta (venduti da 899€ a 1899€) sono stati sviluppati con una potenza di calcolo sufficiente per far funzionare i modelli di intelligenza artificiale Gemini senza ricorrere a server esterni.

Ma non solo: ci sono anche i nuovi smartwatch Pixel Watch 3 e Pixel Watch XL, senza dimenticare gli auricolari wireless Pixel Buds Pro 2. Oltre al design degli smartphone, che richiama gli iPhone, e all’aggiornamento dei componenti, tra cui il processore Tensor G4, Google ha puntato la sua strategia sui servizi offerti dal suo modello di Intelligenza Artificiale generativa, Gemini. Questi dispositivi premium sono progettati per sfruttare al meglio la potenza del software, in un momento in cui la competizione con ChatPlus di OpenAI si fa sempre più accesa, in attesa del lancio di Apple Intelligence sui prossimi iPhone.

Se avete seguito i Giochi Olimpici di Parigi 2024 in TV, probabilmente avrete notato la pubblicità che elogiava Gemini in ogni interruzione. Attivabile con la semplice pressione del pulsante di accensione, l’IA si trasforma in un assistente personale che conosce a fondo il dispositivo e le sue applicazioni. “Ciò che richiedeva ore ora richiederà solo pochi minuti”, ha promesso Rick Osterloh, il vicepresidente di Google responsabile dei dispositivi.

Leader da un decennio nella ricerca sull’IA, l’azienda di Sundar Pichai aveva già introdotto alcune funzionalità impressionanti, come “circondare per cercare”, che genera una ricerca visiva dopo aver circondato un elemento sullo schermo, o la scrittura automatica dei messaggi nell’app di SMS. Queste funzionalità sono ancora gratuite per ora. Tuttavia, offrendo un anno di abbonamento a Gemini Advanced con l’acquisto di un Pixel 9 Pro, Google sta incentivando i clienti a fare affidamento sulla sua IA nella vita quotidiana.

Priorità all’IA generativa sui Pixel

L’aggiornamento ad Android 15 rafforzerà l’IA generativa su tutti gli smartphone (Samsung, Xiaomi, Motorola…) con questo sistema operativo, ma i Pixel saranno i primi a beneficiare di nuove funzionalità come il filtro intelligente che protegge l’utente dalle truffe sempre più comuni. Ci saranno anche esclusive come Pixel Studios, un’app interna che funziona come Midjourney o DALL-E, permettendo di generare immagini a partire da un semplice prompt. Inoltre, la funzionalità Pixel Screenshots consentirà allo smartphone di utilizzare screenshot intelligenti per estrarre informazioni e creare liste o note per non dimenticare un dettaglio visto online. Basta toccare questo promemoria per ritrovare facilmente il sito, anche dopo diversi mesi.

Infine, Gemini può anche fornire un riassunto scritto di una chiamata grazie all’opzione “Call Notes”. Tutto viene memorizzato sul dispositivo per garantire la privacy, assicura Google. La questione della privacy dell’altra persona al telefono è un altro dibattito ancora aperto.

Google punta anche sull’IA per mantenere il suo status di leader nella fotografia da smartphone. Strumenti interessanti, come la gomma magica per cancellare un dettaglio indesiderato, esistono già da tre anni. La novità “Add me” (“Aggiungimi”) consente di aggiungere una persona a una foto anche dopo che è stata scattata. Basta scattare due foto e trasferire un soggetto da una all’altra, poiché l’IA fonde senza difficoltà le due immagini.

L’IA targata Google la troviamo anche nelle orecchie. Il chip Tensor A1 dei Pixel Buds Pro 2 (a partire da 249€) è stato progettato per eliminare i rumori ambientali e chiarire la voce di chi chiama, anche nel trambusto dei mezzi pubblici. Indipendentemente dal telefono utilizzato, la promessa di una chiamata cristallina è assicurata.

Infine, la Pixel Watch 3 (a partire da 399€) beneficia dei progressi dell’IA alimentata dai dati raccolti da Fitbit, lo specialista degli smartwatch acquisito a gennaio 2021. Questo dispositivo fornisce un “punteggio di fitness” che tiene conto del sonno, dell’attività fisica e della frequenza cardiaca per diventare un coach virtuale personale. L’unica cosa che non potrà fare per voi è indossare le scarpe da ginnastica.

Fonte: www.ilsole24ore.com

[ad_2]

Notion adotta un nuovo tipo di contenuto: i grafici

Lineari, a barre o a ciambella, i grafici di Notion Charts semplificheranno la lettura delle basi di dati sulla piattaforma, trasformando lo strumento in un vero e proprio cruscotto. Purtroppo, gli utenti con il piano gratuito non potranno utilizzarli a lungo.

Notion ha appena aggiornato il suo strumento di produttività, con l’arrivo di Notion Charts. A pochi mesi dall’integrazione di un calendario, ora è possibile aggiungere grafici nelle proprie pagine, approfondire le statistiche e leggere più facilmente le basi di dati.

Finora, Notion offriva modelli per monitorare le spese, creare budget e inserire dati di vario genere, ma per strumenti avanzati a livello professionale, era necessario affidarsi ai modelli proposti da strumenti di integrazione esterni.

Notion Charts colma questa lacuna con uno strumento nativo, direttamente disponibile sulla piattaforma, che può leggere automaticamente i dati di una tabella o di una base di dati e creare grafici lineari, a barre o a ciambella. Naturalmente, sarà possibile modificarne i colori e aggiungere filtri sui dati desiderati.

“I grafici sono diventati una funzionalità molto richiesta, perché è difficile comprendere l’andamento del proprio strumento di monitoraggio una volta che contiene più di 100 righe”, ha scritto Notion in un comunicato. “Con i grafici, vogliamo che possiate aggiungere con fiducia centinaia, se non migliaia, di righe alla vostra base di dati Notion. Poi, con pochi clic, potete dare un senso a tutti questi dati.”

Lanciato l’anno scorso, Notion AI è integrato anche nei grafici e consentirà, come già fa con le basi di dati, di etichettare automaticamente i dati. Inoltre, Notion AI è già utilizzato come ChatPlus, offrendo agli utenti suggerimenti, completamenti di testi, traduzioni e riassunti.

Notion Charts è disponibile nell’abbonamento Notion Plus, al costo di 9,50 euro al mese. È il primo livello di abbonamento premium della piattaforma, che continua a offrire un piano gratuito con un totale di 70 integrazioni disponibili. Tuttavia, per la maggior parte delle nuove funzionalità, Notion richiede il passaggio a un account premium.

Gli utenti con piano gratuito potranno comunque provare Notion Charts, ma l’utilizzo sarà limitato. La piattaforma lo spiega nella sua pagina di domande frequenti: “Se avete un piano gratuito, potete creare un grafico e, se avete un piano a pagamento, potete creare un numero illimitato di grafici. Se avete un piano gratuito, potete eliminare il vostro grafico per crearne un altro. Se avete un piano gratuito e scaricate un modello contenente grafici, potrete vedere solo uno dei grafici del modello, a condizione che non abbiate già utilizzato il vostro grafico gratuito.”

Notion, che non fornisce dettagli sul proprio fatturato, rivendica oltre 20 milioni di utenti, rispetto ai soli quattro milioni di un anno fa. La soglia del primo milione è stata superata nel 2019. Per costruire la sua popolarità, lo strumento non solo ha ampliato la sua offerta, ma è anche riuscito a mantenere un aspetto molto semplice e minimalista (che Microsoft ha cercato di imitare), che gli ha permesso un grande successo nei video su TikTok.

Fonte: www.youtube.com

[ad_2]

Le nuove funzionalità di IA di iOS 18 e macOS Sequoia presentate da Apple lo scorso giugno sono gratuite, senza asterischi né condizioni speciali, salvo ovviamente la necessità di possedere un dispositivo compatibile. Tuttavia, l’idea di far pagare per funzioni più avanzate non è da escludere.

L’intelligenza artificiale generativa non cade dal cielo. È una tecnologia che richiede molta energia e risorse per addestrare i modelli sotto il cofano, senza dimenticare i server che elaborano le funzioni online. Tutto questo ha un costo, motivo per cui la maggior parte dei bot e dei servizi di IA offrono opzioni a pagamento, come ChatPlus Plus o il piano AI Premium di Google One.

Apple Intelligence+

Apple non ha mai manifestato l’intenzione di proporre un’offerta a pagamento per il pacchetto di funzioni Apple Intelligence. Al contrario: l’azienda ha assicurato che saranno gratuite per gli utenti dotati di dispositivi compatibili. Non ci sono asterischi o menzioni di un periodo di gratuità, come accade con la funzione SOS d’emergenza via satellite (“Questo servizio è gratuito per due anni a partire dalla data di attivazione di un nuovo iPhone [compatibile]”).

La posizione di Apple è infatti chiara, a differenza di quella di Samsung, che mantiene un alone di incertezza sul modello economico delle sue funzioni Galaxy AI: diventeranno a pagamento nel 2026?

Una parte resterà gratuita e una parte sarà a pagamento?

Significa questo che Apple non vorrà mai far pagare per future funzioni avanzate di IA? Chi può dirlo. Forse l’azienda ritiene che si tratti di un investimento necessario per “imprigionare” ulteriormente gli utenti nel proprio ecosistema, che già pagano molto caro — basta guardare il prezzo di un iPhone! Ma se Apple decidesse un giorno di chiedere un contributo ai suoi clienti, potrebbe farlo attraverso un nuovo livello di iCloud+, o magari di Apple One. O semplicemente Apple Intelligence+!

L’idea avrebbe senso, dopotutto l’azienda punta sempre di più sui servizi, un’attività molto lucrativa. E dovrà pur trovare un modo per compensare la perdita del grosso assegno che Google non potrà più firmare a favore di Apple per essere il motore di ricerca predefinito in Safari! Quei miliardi di dollari rappresentano circa un quarto del fatturato annuale di questa attività.

Quanto al prezzo che Apple potrebbe chiedere al consumatore, è chiaramente troppo presto per dirlo. Neil Shah, analista di Counterpoint Research, non ha avuto scrupoli questa settimana nel tirare fuori dal cilindro un prezzo compreso tra 10 e 20 dollari al mese. Ma senza avere la minima idea dei servizi e delle funzionalità di IA che Apple intende offrire, è davvero illusorio fissarne un prezzo.

Fonte: www.tomshw.it

Apple Intelligence

[ad_2]

Durante il suo evento Made by Google, il costruttore americano ha annunciato il lancio di una nuova applicazione sui suoi Pixel 9: Pixel Studio. Si tratta nientemeno che di un generatore di immagini con un funzionamento piuttosto particolare.

I Google Pixel 9 generazione di immagini — Fonte: Google

Sono stati i protagonisti più notati durante la Made by Google 2024: i Pixel 9, Pixel 9 Pro/9 Pro XL e Pixel 9 Pro Fold. Quattro smartphone, una serie: sebbene la conferenza fosse incentrata anche su Gemini, gli smartphone sono riusciti a distinguersi. Questo è dovuto principalmente all’esperienza software offerta. Google lancia diverse applicazioni sui suoi nuovi Pixel, tra cui Pixel Studio, un’applicazione di generazione di immagini tramite IA.

Pixel Studio: il Dall-E di Google, sui Pixel 9

Su tutti gli smartphone Pixel 9 sarà presente Pixel Studio, un generatore di immagini. Permette, grazie a una descrizione testuale, di generare l’immagine desiderata, che può essere completata/modificata progressivamente, aggiungendo sticker, testo (con diverse opzioni di colori e caratteri), per poi condividerla con gli amici.

Il funzionamento di Pixel Studio // Fonte: Google

Durante il Made by Google, è stata realizzata una dimostrazione dal vivo. Si trattava di creare un piccolo biglietto d’invito per una festa sulla spiaggia, non lontano dal Golden Gate, il ponte iconico di San Francisco, vicino alla sede di Google. Un falò, il Golden Gate sullo sfondo, la sabbia, ecc. Tutti gli elementi sono stati descritti tramite testo e l’utente ha potuto indicare a Pixel Studio lo stile di immagine desiderato (ad esempio, in stile cartone animato o videogioco).

Un funzionamento un po’ particolare per un generatore di immagini

Un generatore di immagini può funzionare in locale, cioè esclusivamente sul dispositivo che si sta utilizzando. Questo garantisce la riservatezza delle immagini generate, sebbene possa influire sulla qualità delle immagini. Si può allora ricorrere a una soluzione cloud, il caso più diffuso. Ma qui, Google adotta un modello ibrido, utilizzando il Tensor G4, il suo nuovo chip, e il suo ultimo modello di generazione di immagini, Imagen 3.

**Un esempio di Pixel Studio // Fonte: Google**

Attenzione però, Pixel Studio non sarà disponibile in tutti i paesi né in tutte le lingue. Per il momento, non si sa se l’applicazione sarà disponibile in Francia. Ma a causa di restrizioni, in particolare legali, è probabile che non sarà subito accessibile. Si può presumere che i Pixel 8, 8 Pro e 8a non ne usufruiranno, poiché dispongono di un chip diverso dal Tensor G4. Sebbene non sia impossibile che Google possa offrire Pixel Studio anche a questi modelli in futuro.

Fonte: www.tuttoandroid.net

[ad_2]

Fin juillet, les utilisateurs du réseau social X ne pouvaient pas refuser l’utilisation de leurs données personnelles par Grok depuis un smartphone. — A fine luglio, gli utenti del social network X non potevano rifiutare l’uso dei loro dati personali da parte di Grok tramite uno smartphone. KIRILL KUDRYAVTSEV / AFP

Questo trattamento dei dati è stato effettivo per meno di tre mesi. Secondo un comunicato della Commissione irlandese per la protezione dei dati (DPC) pubblicato giovedì 8 agosto, il social network X ha interrotto nell’Unione Europea l’utilizzo delle informazioni personali contenute nei messaggi pubblici dei suoi utenti per addestrare la sua intelligenza artificiale, chiamata Grok.

Questa politica di condivisione dei dati, molto criticata e attivata di default nelle impostazioni degli utenti senza richiedere alcun consenso, era stata scoperta alla fine di luglio. Subito dopo, molti difensori della privacy online avevano allertato le autorità europee riguardo a una possibile violazione del Regolamento Generale sulla Protezione dei Dati (RGPD).

La DPC, l’equivalente irlandese della Commissione nazionale per l’informatica e le libertà (CNIL), si era quindi occupata della questione, dato che la sede europea di X si trova a Dublino. Attivando una “richiesta urgente”, un meccanismo previsto dal RGPD che consente alle autorità di protezione dei dati di ordinare la sospensione, la limitazione o l’interdizione di un trattamento dei dati, la DPC ha infine raggiunto un accordo con X.

Otto denunce in corso in Europa

Nel suo comunicato, la DPC annuncia che l’utilizzo dei dati personali degli utenti europei per addestrare il chatbot Grok, sviluppato da xAI, un’altra azienda di Elon Musk, è stato sospeso il 1° agosto. Era stato introdotto discretamente il 7 maggio.

La DPC, che lavora in collaborazione con i regolatori europei, “continua a esaminare in che misura il trattamento di questi dati sia conforme al RGPD”, ha precisato Des Hogan, il suo presidente. “Continueremo a collaborare con la DPC riguardo a Grok e ad altri temi legati all’intelligenza artificiale, come facciamo dall’anno scorso”, ha dichiarato il social network X in un comunicato venerdì.

Ma la società di Elon Musk non è ancora fuori pericolo. La piattaforma è oggetto di denunce in otto paesi europei per il suo utilizzo “illegale” dei dati personali degli utenti in questo programma di intelligenza artificiale, secondo l’associazione NOYB. X “non ha mai informato proattivamente i suoi utenti che i loro dati personali erano utilizzati per addestrare l’IA”, ha scritto questa settimana l’ONG viennese, acerrima nemica dei giganti della tecnologia, che aveva già costretto Meta a fare marcia indietro su una questione simile a giugno.

Meta, da parte sua, ha dovuto sospendere a giugno il suo progetto di utilizzo dei dati personali degli utenti in un programma di intelligenza artificiale, dopo denunce in 11 paesi europei. L’associazione NOYB aveva chiesto alle autorità di intervenire “con urgenza” per impedire l’attuazione di questa nuova politica di riservatezza, accusando Meta di voler utilizzare tutte le informazioni raccolte dai suoi miliardi di utenti dal 2007 per sfruttarle in una “tecnologia sperimentale di IA senza alcun limite”.

Fonte: www.lemonde.fr

[ad_2]

Depuis son rachat du réseau social Twitter, renommé X, le patron de Tesla et SpaceX est accusé de favoriser la propagation de fausses informations en ligne. — Dopo l’acquisizione del social network Twitter, rinominato X, il capo di Tesla e SpaceX è accusato di favorire la diffusione di false informazioni online. POOL / VIA REUTERS

Sostenitore fervente di Donald Trump nella corsa alla presidenza degli Stati Uniti, il miliardario Elon Musk ha recentemente intensificato gli attacchi contro il campo democratico guidato da Kamala Harris. Dal social network Twitter, che ha rinominato X dopo averlo acquistato per 44 miliardi di dollari (44 miliardi di euro al momento dell’acquisto) nel 2022, l’imprenditore tech americano ha condiviso numerose informazioni false o fuorvianti, che hanno accumulato oltre 1,2 miliardi di visualizzazioni quest’anno, come rivelato il 9 agosto da un’ONG.

Dall’inizio dell’anno, il Centro per la lotta contro l’odio online (CCDH) ha registrato 50 post del patron di Tesla sulle elezioni, identificati come falsi o fuorvianti dagli specialisti della disinformazione. Per esempio, Musk afferma ai suoi 193 milioni di follower su X che i democratici incoraggiano l’immigrazione illegale per “importare elettori”.

Il miliardario è stato anche duramente criticato per aver diffuso, alla fine di luglio, un video manipolato che riproduceva in modo credibile la voce di Kamala Harris. Questo deepfake, visualizzato milioni di volte, faceva dire alla vicepresidente americana di essersi candidata “perché Joe Biden ha pubblicamente dimostrato di essere senile”. Musk ha successivamente definito il video un atto di “satira”.

Leggi anche | Articolo riservato ai nostri abbonati: “Con il sostegno di Elon Musk a Trump, X potrebbe diventare più che mai uno strumento di campagna per i repubblicani”.

Post senza “note della comunità”

I messaggi censiti dal CCDH non presentano le abituali “note della comunità”, create dagli utenti del social per contestualizzare messaggi dubbiosi o errati e contrastare così la disinformazione.

“Elon Musk abusa della sua posizione di potere come proprietario di un social influente sulla politica per seminare disinformazione che genera discordia e sfiducia”, ha commentato Imran Ahmed, direttore del Centro per la lotta contro l’odio online. Ha aggiunto: “L’assenza di note su questi post dimostra che la sua azienda fallisce tristemente nel gestire le incitazioni amplificate dall’algoritmo che possono portare a violenza nel mondo reale.”

X ha ridotto significativamente i suoi team di moderazione dei contenuti, un tempo incaricati di prevenire la diffusione di false informazioni, e ha allentato il suo regolamento. Sviluppato da un’altra società di Elon Musk, xAI, e accessibile da marzo sul social network del miliardario, il chatbot Grok è stato anch’esso accusato di aver diffuso false informazioni sulle elezioni.

Fonte: www.corriere.it

[ad_2]

L’intelligenza artificiale può essere utilizzata per generare testo, immagini, ma anche video. Una funzionalità che l’azienda madre di TikTok, ByteDance, desidera sviluppare.

TikTok potrebbe presto offrire uno strumento per la creazione di video generati dall’intelligenza artificiale. ByteDance si sta lanciando con uno strumento che consente di creare video e immagini a partire da prompt.

Sulle tracce di OpenAI

Nel febbraio 2024, OpenAI, la società dietro ChatPlus e lo strumento di generazione di immagini Dall-E, ha presentato il suo modello di generazione di video, Sora. Questo strumento ha suscitato grande interesse, spingendo altre aziende, come ByteDance, a posizionarsi in questo campo.

La casa madre di TikTok intende rispondere con il suo strumento Jimeng AI a una crescente domanda di creazione di contenuti video tramite IA in Cina. L’applicazione è stata lanciata su Android il 31 luglio ed è ora disponibile anche sull’App Store, ma solo in Cina.

Per ora, sappiamo solo che gli utenti potranno creare video a partire da testo, senza però avere specifiche precise sulla lunghezza e la risoluzione di questi video. Si può tuttavia immaginare che questi saranno ottimizzati per i social media come TikTok.

Immagini e video

Jimeng AI ha una carta importante da giocare nel campo della generazione di contenuti, poiché, a differenza di OpenAI e Sora, Jimeng è in grado di generare sia immagini che video.

L’applicazione offre la possibilità di creare fino a 2050 immagini o 168 video generati dall’IA al mese, a seconda del piano di abbonamento scelto. I piani variano da 8 euro per un abbonamento mensile a 84 euro per un abbonamento annuale (questi prezzi sono stabiliti sulla base della conversione da yuan a euro senza considerare eventuali tasse applicabili).

Al momento, non abbiamo informazioni sulla base di dati utilizzata per generare questi video. La vicinanza con TikTok solleva domande, e ci si potrebbe chiedere se i video prodotti sulla piattaforma sociale potrebbero alimentare questa IA.

Una pratica già vista in atto presso altri gruppi come Meta. A maggio scorso, Meta ha annunciato l’intenzione di utilizzare i nostri post su Facebook e Instagram per migliorare l’apprendimento della sua intelligenza artificiale.

Fonte: https://support.tiktok.com

[ad_2]

Il 3 luglio scorso, Kyutai ha svelato Moshi, un modello di intelligenza artificiale dotato di capacità vocali inedite. Il prototipo del chatbot ha fatto i suoi primi passi con la stampa, ma è anche disponibile per tutti a questo indirizzo. La particolarità di questo prototipo è di poter comunicare oralmente in modo il più naturale ed espressivo possibile, rimanendo allo stesso tempo attento al suo interlocutore.

Il modello multimodale di Moshi può anche essere installato localmente e funzionare senza connessione a internet. La fondazione Kyutai rilascia questo modello in open source, per contribuire alla ricerca e allo sviluppo dell’ecosistema IA. Abbiamo voluto saperne di più su Moshi e sul laboratorio con il suo CEO, Patrick Perez.

Moshi è un assistente vocale con capacità che superano quelle di GPT-4o in alcuni settori chiave: parla e ascolta simultaneamente, continuando a generare un “flusso di pensiero”, il che a volte è sconcertante nell’uso. Moshi è ciò che più si avvicina a un’esperienza di conversazione umana?

Moshi.chat non è un assistente vocale, ma un prototipo sperimentale costruito su Moshi, un modello multimodale generico testo-voce che abbiamo sviluppato da zero. Questo prototipo dimostra, infatti, capacità di interazione orale senza precedenti in termini di naturalezza e fluidità.

Quali sono i possibili utilizzi di Moshi? In quali settori vi piacerebbe che questa tecnologia trovasse il suo posto?

Le applicazioni potenziali di questo modello multimodale sono numerose:

1/ Dialogo orale naturale con un’IA (assistente o compagno) per l’inclusione e l’accessibilità, l’educazione, il coaching, il gioco, il servizio clienti, la ricerca di informazioni, la robotica interattiva, ecc.

2/ Sintesi vocale espressiva e multi-locutore per l’accesso audio a contenuti scritti, la creazione di artefatti culturali e artistici, il gioco, ecc.

3/ Traduzione audio simultanea per la comunicazione e l’accessibilità.

Moshi ha richiesto sei mesi di sviluppo da parte di un team di 8 persone, che sembra poco, considerando le proporzioni. Questo significa che oggi è relativamente facile progettare un assistente come Moshi?

In realtà è un’impresa! Richiede competenze molto avanzate e complementari, oltre a un lavoro estremamente intenso e mirato, e la disponibilità di sufficienti risorse di calcolo. Per quest’ultimo punto, affittiamo macchine molto potenti da Scaleway, grazie ai generosi contributi dei nostri tre fondatori.

Moshi comprende numerosi accenti, ma l’assistente al momento parla solo inglese. È previsto l’inserimento di altre lingue in futuro e, domanda supplementare, è complicato far apprendere nuove lingue a un LLM?

Prevediamo di includere altre lingue, a partire dal francese e dallo spagnolo. Detto questo, l’idea è di condividere liberamente i nostri modelli e i codici che permettono di riaddestrarli in tutto o in parte. L’inclusione di altre lingue, anche se non triviale, potrà quindi essere realizzata da altri attori dell’ecosistema che dispongono delle risorse necessarie (dati, competenze, macchine) e di casi d’uso appropriati.

Helium, il LLM su cui si basa Moshi, conta 7 miliardi di parametri, che possono sembrare molti, ma come si confronta con altri LLM (non conosciamo il numero di parametri di GPT-4) e, soprattutto, la qualità di un LLM si limita al numero di parametri? E quali sono i dati di addestramento che avete utilizzato?

È un modello di dimensioni medie. I “piccoli” modelli hanno piuttosto tra i 2 e i 3 miliardi di parametri, mentre i “grandi” possono avere dimensioni che vanno da decine a centinaia (o addirittura migliaia?) di miliardi di parametri. La dimensione non è tutto, ma con i dati giusti (volume e qualità) e le tecniche di apprendimento più recenti, una maggiore dimensione permette generalmente di ottenere migliori prestazioni su una gamma più ampia di compiti. Per il pre-addestramento di Helium utilizziamo un mix abbastanza classico di dati dal web, in particolare provenienti dal progetto CommonCrawl. Dell’ordine di mille miliardi (un bilione) di parole scritte.

Il processo di apprendimento di Moshi ha anche coinvolto 100.000 conversazioni orali e un motore “Text-to-Speech”. Qui ho bisogno che mi spieghi come funziona!

Helium “scrive” questi 100.000 dialoghi, e una versione precedente di Moshi, che permette la sintesi vocale con voci date, li trasforma in conversazioni audio.

C’è qualcuno dietro la “voce” di Moshi?

Abbiamo lavorato con un’artista vocale i cui registrazioni, fatti insieme, hanno permesso di fissare la voce dell’IA nelle 100.000 conversazioni menzionate in precedenza.

Kyutai ha anche sviluppato una variante di Moshi destinata a funzionare in locale, quindi senza connessione a internet. Sarà possibile utilizzarla sul proprio computer personale tramite GPU. Due domande: perché non con l’NPU, che equipaggia sempre più PC e Mac? E una versione tipo “nano” per smartphone è fattibile?

I nostri modelli sono attualmente progettati per essere addestrati e poi utilizzati su GPU di Nvidia. La dimostrazione di una versione locale compressa è stata quindi naturalmente realizzata sullo stesso tipo di chip, ma più piccolo. Come laboratorio di ricerca, cercavamo soprattutto di dimostrare la fattibilità di versioni embedded dei nostri modelli. Speriamo che la condivisione di questi modelli e dei codici associati permetta ad altri di andare oltre in termini di portabilità, in base alle loro esigenze. Sì, si può immaginare in futuro un Moshi più piccolo e più specializzato che giri su un mobile.

Quando si parla di IA generativa, la questione della sicurezza si pone abbastanza rapidamente. Come si può essere sicuri che Moshi non verrà utilizzato a fini malintenzionati?

Come per altre IA generative, parte del “finetuning” (fase di apprendimento supervisionato che segue il pre-addestramento non supervisionato su larga scala) è dedicata a rafforzare la sicurezza insieme ad altre capacità. Inoltre, stiamo lavorando al watermarking invisibile dei contenuti generati dai nostri modelli, un problema di ricerca allo stesso tempo difficile e importante.

Infine, crediamo fermamente nei benefici dell’open-source in materia di sicurezza (tra l’altro): più attori possono ispezionare, valutare e mettere in sicurezza i modelli così condivisi. Nella misura in cui l’uso malintenzionato di modelli generativi sempre più potenti (in termini di controllo e realismo) e sempre più numerosi è impossibile da evitare, divulgare e informare costantemente su questi argomenti tecnici è cruciale per limitare i danni.

Quale futuro per Moshi?

Continuiamo a svilupparlo per migliorare alcune delle sue capacità (pertinenza, espressività, lingue)… e non vediamo l’ora di vedere come l’ecosistema lo utilizzerà e lo modificherà non appena avremo condiviso modelli, codici e informazioni tecniche (lavoro in corso).

Kyutai ha una posizione piuttosto unica in Francia e in Europa, poiché il laboratorio è stato finanziato da Xavier Niel. È una garanzia rispetto ad altre aziende IA che hanno investitori alla ricerca prima di tutto della redditività?

Finanziato anche da Eric Schmidt e Rodolphe Saadé; i tre sono donatori, non investitori (siamo una fondazione). Quindi sì, questo ci assicura una grande indipendenza nella scelta delle nostre ricerche e nella costituzione del team, pur disponendo di mezzi eccezionali.

Fonte: www.01net.com

ChatPlus 4

[ad_2]

<img decoding="async" src="https://img.lemde.fr/2024/08/15/0/0/720/540/664/0/75/0/e1f2a1c_1723742932091-ia-pixels.jpg" alt="Images générées par l’intelligence artificielle de Grok. "/>Immagini generate dall’intelligenza artificiale di Grok.

Gemini Nano alla base della funzione di riassunto delle chiamate

Pronti a tenere un po’ di IA nel palmo della mano?”

Priorità all’IA generativa sui Pixel

Notion adotta un nuovo tipo di contenuto: i grafici

Apple Intelligence+

Una parte resterà gratuita e una parte sarà a pagamento?

Un funzionamento un po’ particolare per un generatore di immagini

Otto denunce in corso in Europa

Post senza “note della comunità”

**Sulle tracce di OpenAI**

**Immagini e video**

Immagini generate dall’intelligenza artificiale di Grok.

Sulle tracce di OpenAI

Immagini e video