Valutazione delle funzionalità di programmazione delle IA: Un confronto tra Gemini Pro 2.5 e altri strumenti AI

Nel contesto delle mie valutazioni delle funzionalità di codifica delle IA, sottopongo ogni intelligenza artificiale a quattro test di programmazione. Questi test sono progettati per determinare in che misura un’IA possa aiutarti nella programmazione. È molto utile, specialmente se conti sull’IA per aiutarti a produrre codice. L’ultima cosa che vuoi è che un’IA introduca bug nel tuo lavoro di sviluppatore, giusto?

Si tratta di test molto semplici, poiché utilizzo PHP e JavaScript, che non sono esattamente linguaggi difficili. E eseguo le richieste di script tramite le IA. Utilizzando esattamente gli stessi test, possiamo confrontare direttamente le prestazioni.

Uno di essi consiste nel scrivere un semplice plugin per WordPress.
Un altro è chiedere aiuto per riscrivere una funzione di gestione delle stringhe.
Il terzo test è per trovare un bug che ho avuto difficoltà a individuare da solo.
Infine, l’ultimo test usa alcuni strumenti di programmazione per recuperare dati da Chrome.

Gemini Pro 2.5 è disponibile gratuitamente per tutti

Tuttavia, è importante trattare le IA come faresti con qualcuno che impara a guidare; se non riesci a farlo uscire dal garage, non lo lascerai di certo su un’autostrada affollata.

Fino ad oggi, solo il LLM GPT-4 (e versioni successive) di ChatPlus ha superato tutti i test. Sì, anche Perplexity Pro ha superato tutti i test, ma perché utilizza il LLM GPT-4. Curiosamente, Microsoft Copilot, che usa anche il LLM di ChatPlus, ha fallito tutti i test. Anche Gemini di Google non ha ottenuto risultati molto migliori. Quando ho testato Bard (il primo nome di Gemini), ha fallito nella maggior parte dei test. L’anno scorso, quando ho testato Gemini Advanced (20 $ al mese), ha fallito in tre dei quattro test.

Oggi, Google torna con Gemini Pro 2.5. Ciò che ha attirato la nostra attenzione qui a ZDNET è che Gemini Pro 2.5 è disponibile gratuitamente, per tutti. Nessun supplemento di 20 dollari al mese. Anche se Google ha chiaramente indicato che l’accesso gratuito è soggetto a limiti tariffari, non credo che qualcuno di noi avesse realizzato che ci strangolerebbe dopo due richieste. È ciò che è successo durante i miei test.

Le mie prime due richieste chiedevano a Gemini Pro 2.5 di scrivere un plugin completo per WordPress e di correggere del codice. Potrei aver esaurito i limiti più rapidamente rispetto a se lo usassi per porre una semplice domanda. Ma con grande sorpresa, ne è valsa davvero la pena.

Test 1: Scrivere un semplice plugin per WordPress

È impressionante. Siamo lontani dal fallimento di Bard e da quello di Gemini Advanced. Gemini Pro 2.5 ha superato questo test fin dal primo tentativo.

Il compito consisteva nello scrivere un semplice plugin per WordPress che fornisse un’interfaccia utente semplice. Randomizza le righe di input e distribuisce (e non rimuove) i duplicati per fare in modo che non siano uno accanto all’altro.

Gemini Pro 2.5 mi ha fornito un’interfaccia utente molto corretta. E il codice ha funzionato come doveva.

Gemini Pro 2.5

Cattura dello schermo di David Gewirtz/ZDNET

Quello che ha attirato la mia attenzione, oltre all’interfaccia ben presentata, è stata la scelta dell’icona per il plugin. La maggior parte delle IA ignora la scelta dell’icona, lasciando che l’interfaccia si adatti di default a quanto assegnato da WordPress.

Tuttavia, Gemini Pro 2.5 ha chiaramente scelto un’icona da la selezione Dashicon di WordPress. Inoltre, quest’icona è perfettamente adatta per la randomizzazione delle righe di un plugin.

Cattura dello schermo di David Gewirtz/ZDNET

Non solo Gemini Pro 2.5 ha superato questo test, ma ha anche ricevuto un “wow” per la scelta dell’icona. Non l’ho invitato a farlo, ed è stato esattamente ciò di cui avevo bisogno. Il codice era completamente in linea (JavaScript e HTML erano incorporati nel PHP) ed era ben documentato. Inoltre, Gemini Pro 2.5 ha documentato ogni segmento principale del codice con un testo esplicativo separato.

Test 2: Riscrivere una funzione di gestione delle stringhe

Nel secondo test, ho chiesto a Gemini Pro 2.5 di riscrivere un codice per la gestione delle stringhe che trattava dollari e centesimi. Il codice di test iniziale consentiva solo numeri interi (quindi, solo dollari). L’obiettivo era consentire sia dollari che centesimi. Questo è un test che ChatPlus ha superato. Bard ha fallito inizialmente prima di riuscire.

E Google Advanced ha fallito in un modo sia sottile che pericoloso. Il codice generato da Gemini Advanced non consentiva le voci non decimali. In altre parole, 1,00 era consentito, ma non 1. Così come 20. Peggio ancora, ha deciso di limitare i numeri a due cifre prima della virgola anziché dopo, mostrando che non comprendeva il concetto di dollari e centesimi. Falliva se inserivi 100,50, ma permetteva 99,50.

Si tratta di un problema molto semplice, uno di quelli che si danno agli studenti del primo anno di programmazione. Peggio, il difetto di programmazione di Gemini Advanced è molto difficile da individuare per un programmatore.

Il codice generato da Gemini Pro 2.5 è un po’ troppo rigido

Quando ho ripetuto il test con Gemini Pro 2.5, i risultati sono stati diversi. Il codice verifica correttamente i tipi di input, rimuove gli spazi bianchi, ripara l’espressione regolare per consentire gli zeri iniziali, le voci decimali e le voci negative.

Commenta anche in modo esaustivo il codice dell’espressione regolare, fornendo un insieme completo di esempi di test ben etichettati, sia validi che non validi (e elencati come tali).

Il codice generato da Gemini Pro 2.5 è un po’ troppo rigido. Non consente di raggruppare le virgole (come in $1,245.22) e non permette neppure i simboli monetari all’inizio. Ma dato che il mio prompt non lo richiedeva, e che l’uso di virgole o simboli monetari genera un errore controllato e non un crash, considero che sia accettabile.

È una seconda vittoria.

Test 3: Trovare un bug

Passiamo ora al test di rilevamento bug. ChatPlus ha compreso il problema. Gemini Advanced non ha nemmeno provato a fornire una risposta. Ha fornito solo la raccomandazione di cercare “probabilmente altrove nel plugin o in WordPress” per trovare l’errore.

Ma oggi, con Gemini Pro 2.5? Onestamente, non lo so, e non lo saprò fino a domani. Apparentemente, ho esaurito il mio quota gratuita di Gemini Pro 2.5 con le mie prime due domande.

limit

Cattura dello schermo di David Gewirtz/ZDNET

Quindi, tornerò domani.

D’accordo, sono di nuovo qui. È il giorno dopo, il cane ha fatto una bella passeggiata, il sole splende e Gemini Pro 2.5 mi dà di nuovo spazio per inviare messaggi. Ho dato vita alla richiesta per il mio terzo test.

Non solo ha superato il test e trovato il bug. Ma mi ha indicato il punto del codice da correggere. Letteralmente. Mi ha disegnato una mappa, con una freccia e tutto.

Gemini Pro 2.5

Cattura dello schermo di David Gewirtz/ZDNET

Con tre test corretti su quattro, Gemini Pro 2.5 esce dalla categoria “Chatbot da evitare per l’aiuto alla programmazione” e entra nella prima metà della nostra classifica.

Ma rimane ancora un test. Vediamo come se la cava Gemini Pro 2.5.

Test 4: Scrivere uno script

Quest’ultimo test non è molto difficile in termini di competenze di programmazione. Ciò che testano è la capacità dell’IA di passare da un ambiente all’altro, così come l’oscura comprensione degli ambienti di programmazione.

Il test richiede:

Comprendere la rappresentazione interna del modello dell’oggetto in Chrome
Imparare a scrivere in AppleScript (che è molto più oscuro rispetto, ad esempio, a Python)
Scrivere codice per Keyboard Maestro, uno strumento per la creazione di macro scritto da un australiano

La routine è progettata per aprire le schede di Chrome e impostare la scheda attiva su quella utilizzata come parametro. Si tratta di un requisito di codifica abbastanza specifico. Ma è esattamente il tipo di cosa che potrebbe richiedere ore per essere risolto manualmente, poiché si basa sulla comprensione dei parametri giusti per ogni ambiente.

La maggior parte delle IA si comporta bene con il collegamento tra AppleScript e Chrome. Ma più della metà di esse non sa come trasmettere parametri a Keyboard Maestro.

E di nuovo, wow. Gemini Pro 2.5 ha effettivamente compreso Keyboard Maestro. Ha scritto il codice necessario per trasmettere le variabili correttamente. Ha aggiunto valore controllando gli errori e avvisando l’utente (cosa non richiesta nel prompt) se la variabile non poteva essere impostata.

Inoltre, più avanti nella sezione di spiegazione, ha persino fornito i passaggi necessari per configurare Keyboard Maestro affinché funzioni in questo contesto.

maestro

Cattura dello schermo di David Gewirtz/ZDNET

È così, signore e signori, che Gemini Pro 2.5 entra nel ristretto circolo dei vincitori.

Lo sapevamo che sarebbe successo

Era solo una questione di tempo. Google è pieno di persone molto, molto intelligenti. Infatti, è Google che ha dato inizio al boom dell’IA generativa nel 2017 con il suo documento di ricerca “L’attenzione è tutto ciò di cui hai bisogno“.

Bard, Gemini e anche Gemini Advanced hanno fallito miseramente nei miei test di programmazione IA. Ma era solo una questione di tempo prima che l’IA di Google raggiungesse le offerte di OpenAI.

Quel momento è arrivato. Almeno per i miei test di programmazione. Gemini Pro 2.5 è più lento di ChatPlus Plus. ChatPlus Plus risponde quasi istantaneamente. Gemini Pro 2.5 sembra prendere tra 15 secondi e un minuto.

Tuttavia, aspettare qualche secondo per ottenere un risultato preciso e utile è molto più prezioso che ricevere immediatamente risposte errate.

Fonte : www.zdnet.fr

012factory: Un Incubatore di Innovazione e Startup

Un incubatore di idee, un luogo dove imprenditori, designer, sviluppatori e creativi possono collaborare per dare vita a progetti unici. In un mondo in continua evoluzione, l’innovazione è fondamentale per rimanere competitivi. E la missione di 012factory Spa, un innovation hub certificato e incubatore di startup e PMI innovative (Mimit), è accompagnare le imprese nel loro percorso di nascita, crescita e consolidamento della posizione sui mercati.

Guidato dal Ceo Sebastian Caputo, l’azienda conta 52 startup e PMI innovative incubate e sostiene 11 associazioni che lavorano su temi cruciali come diritti civili, disturbi del comportamento alimentare, cooperazione internazionale, benessere degli animali ed educazione. Nel corso degli anni, l’incubatore con sede in viale Carlo III di Borbone a Caserta ha visto nascere numerosi progetti di successo che hanno saputo conquistare il mercato. Startup che operano nei settori della tecnologia, del design, della sostenibilità e dell’arte hanno trovato in 012factory un alleato prezioso per la loro crescita.

Storia di Successo: Il Team di Alessandro Franzese

Alla 012factory ha trovato il suo trampolino di lancio anche il team di Alessandro Franzese, 32enne nato a San Giuseppe Vesuviano, vissuto a Palma Campania, militare alla Nunziatella, laurea triennale a Salerno e specialistica alla Bocconi di Milano. Quindi un percorso di formazione e lavoro in una startup che lo ha portato in Sud Africa, poi nelle Filippine e a Londra per rientrare in Italia, a Carpi, dove si è tuffato nel fashion sector lavorando, per acquisire i rudimenti del mestiere, nel settore della produzione di abiti da donna.

A questo punto, la svolta: l’incontro con l’incubatore casertano e il salto nel futuro con un sogno che diventa realtà. L’idea? Dare alle donne un guardaroba infinito. Un’intuizione che arriva quando Alessandro sente la sua compagna dire per l’ennesima volta «non ho niente da mettere», dopo aver rovistato in due armadi pieni di vestiti. Questo per Franzese, che dal 2020 lavora gomito a gomito con Raffaele Solaro e Antonio Carmine Napolitano, è l’incipit di un viaggio che ha portato alla costituzione di Pac, una startup del fashion tech che, attraverso la piattaforma The Paac, utilizza un algoritmo supportato dall’intelligenza artificiale per offrire agli utenti un servizio di leasing di abbigliamento sostenibile e smart.

Il Servizio di Pac

«È il Netflix dell’abbigliamento, un servizio che consente di ricevere a casa o in un punto di ritiro, i capi richiesti – compresi accessori, a eccezione di scarpe e intimo – per la durata di due o quattro settimane, a seconda del pacchetto che si sceglie. Allo scadere del tempo, il pacco viene ritirato e contestualmente viene consegnata un’altra box con altri capi scelti sempre dalla cliente che ha, comunque, la possibilità di acquistarli, usufruendo di uno sconto del 25%», racconta il Ceo.

C’è poi una terza opzione: ordinare abiti e accessori solo per un’occasione speciale. In questo caso, i vestiti «che possono essere nuovi o usati, ma pronti per l’utilizzo, sono consegnati per l’evento giornaliero». Questo è il servizio offerto da Pac, che ha anche la possibilità «di confezionare per la cliente già delle box ad hoc», che possono essere scelte per il noleggio oppure declinate. Un suggerimento, dunque, che può più o meno essere colto. Anche perché di capi di abbigliamento e di accessori ce ne sono tanti nella vetrina del sito, per tutti i gusti e tutte le tasche.

Collaborazioni e Sostenibilità

«Collaboriamo con più di venti brand per consentire di noleggiare abiti, contrastando quindi il fast fashion e garantendo una maggiore sostenibilità ambientale. Da un lato permette alle donne di poter cambiare look a seconda del momento e dall’altro evita lo spreco», dice Franzese. Ma Pac fornisce anche servizi di setup leasing, rental e resale di abbigliamento per altri brand. «Effettuiamo un’azione di coordinamento con i nostri partner e creiamo e gestiamo piattaforme di rental di alcuni brand – conclude il Ceo -. Ad esempio abbiamo realizzato il progetto Pinko Play e Pinko Outlet.

Riconoscimenti e Media Coverage

Un nuovo modo di fare moda, una diversa definizione del lusso, un’insolita customer journey, hanno portato The Paac sul podio dell’Htsi luxury start up award dove ha ricevuto il premio nella categoria Start up customer-oriented, riconoscimento dedicato alle start-up che stanno rivoluzionando il mondo del lusso attraverso innovazione, sostenibilità e visione.

E la sua storia ha attratto anche l’attenzione del programma tv «Linea Verde», che nella puntata in onda il 15 marzo parlerà dei giovani rivoluzionari della moda contemporanea che hanno dato un nuovo valore ai vestiti.

Fonte: www.ilmattino.it

Alla ricerca di un modello economico sostenibile, l’azienda dietro ChatPlus sta valutando la creazione di formule di abbonamento mensile a prezzi mai visti prima.

ChatPlus non è redditizio. Sin dal lancio del famoso agente conversazionale da parte di OpenAI, la società è sopravvissuta grazie a importanti iniezioni di liquidità, in particolare da parte di Microsoft. Anche il suo abbonamento da 200 € al mese non genera abbastanza entrate rispetto ai costi.

Per rimediare a questa situazione, OpenAI potrebbe quindi valutare la creazione di formule di abbonamento da 2000, 10.000 o persino 20.000 $ al mese secondo quanto riportato da The Information.

OpenAI punta tutto sui suoi “agenti”

Questi prezzi astronomici, che farebbero sembrare l’abbonamento Pro da 200 $ (229 €) un affare, sarebbero in realtà quelli legati agli “agenti” sviluppati dall’azienda. Questi modelli di intelligenza artificiale, tecnicamente capaci di eseguire azioni sul tuo computer al tuo posto, sarebbero disponibili in diverse versioni con capacità più o meno avanzate.

Il primo, antropomorfizzato come un “professionista di alto livello“, costerebbe quindi 2000 $ al mese. Il secondo è presentato come un assistente per sviluppatori e sviluppatrici, con un costo di 10.000 $ al mese. Infine, una formula di abbonamento che offre accesso a un agente in grado di svolgere ricerche “di livello dottorale” è prevista al costo di 20.000 $ al mese secondo The Information.

Chiaramente, ciascuno di questi agenti risponderebbe a esigenze professionali molto specifiche e non sarebbe utile al grande pubblico. Un tale aumento dei prezzi solleva comunque dubbi sulla sostenibilità del business di OpenAI. Sam Altman spera che il 20-25% delle entrate dell’azienda saranno generati da questi famosi agenti, di cui al momento non abbiamo ancora visto casi d’uso sorprendenti.

Un aumento dell’abbonamento Pro in arrivo

Sembra inoltre che il periodo delle spese sconsiderate stia per finire in casa OpenAI. Si apprende dallo stesso articolo che i più grandi utenti e utenti del piano da 200 $ al mese potrebbero vedere aumentare le loro fatture “a causa dell’alto volume di richieste” presentate a ChatPlus. Per questi utenti accaniti, potrebbe essere introdotto un abbonamento “pay-per-use”. Ogni richiesta sarebbe quindi addebitata in base all’uso.

È probabile che il periodo delle richieste illimitate e delle varie agevolazioni offerte dalle grandi aziende dell’IA stia per finire. Dopo perdite stimate in 5 miliardi per l’anno 2024, OpenAI cerca ora di adottare un approccio più cauto e redditizio.

Questo articolo utilizza vari tag HTML per il layout e presenta un’analisi dettagliata del futuro economico di OpenAI e delle sue strategie relative a ChatPlus.

Fonte: www.frandroid.com

OpenAI Lancia GPT-4.5: Una Nuova Era per ChatPlus

OpenAI ha ufficializzato GPT-4.5, una nuova versione del modello di intelligenza artificiale dietro ChatPlus. Più grande e più efficiente di GPT-4, si distingue per miglioramenti nella scrittura e nella risoluzione di problemi pratici. Tuttavia, OpenAI riconosce che non si tratta di un modello di punta.

Come previsto, OpenAI ha svelato GPT-4.5, un nuovo modello di intelligenza artificiale per potenziare l’abbonamento ChatPlus. Questo modello segue GPT-4, un modello linguistico annunciato solo due anni fa. La startup americana, pioniera nel campo dell’IA, descrive GPT-4.5 come « il nostro modello di chat più grande e migliore fino ad oggi ».

Più Competente che Intelligente

Nel suo comunicato, OpenAI specifica che GPT-4.5 non è il suo modello più sofisticato. Infatti, modelli come GPT-4o, che abbiamo testato ampiamente, o GPT-4 Omni sono ancora più intelligenti. Tuttavia, GPT-4.5 è considerato il « modello più competente fino ad oggi » della startup. Non è « un modello di punta », ma è il più grande modello di linguaggio di OpenAI, « offrendo un’efficienza di calcolo oltre dieci volte superiore a quella di GPT-4 », rivela OpenAI in un documento sul suo sito.

La società spiega che GPT-4.5 non introduce « nuove capacità di punta distintive rispetto alle versioni precedenti focalizzate sul ragionamento e le sue prestazioni rimangono inferiori rispetto a o1 o3-mini e alle ricerche approfondite nella maggior parte delle valutazioni di prontezza ». A seguito dell’annuncio, Sam Altman, CEO di OpenAI, ammette su X che « non è un modello di ragionamento e non supererà i riferimenti ». È « un altro tipo di intelligenza ».

GPT-4.5 is ready!

good news: it is the first model that feels like talking to a thoughtful person to me. i have had several moments where i’ve sat back in my chair and been astonished at getting actually good advice from an AI.

bad news: it is a giant, expensive model. we…

— Sam Altman (@sama) February 27, 202

Quali Sono le Novità di ChatPlus 4.5?

Tra i miglioramenti annunciati, troviamo prima di tutto migliori capacità di scrittura, una conoscenza del mondo migliorata, interazioni più naturali e una maggiore abilità nel risolvere problemi pratici. Infine, l’IA ha una « personalità affinata rispetto ai modelli precedenti ». Diventa dunque un migliore assistente per le attività quotidiane. Per Sam Altman, è « il primo modello che mi fa sentire come se stessi parlando con una persona premurosa ». Eccelle nella generazione « di idee creative senza ragionamento ».

« Abbiamo allineato GPT-4.5 per essere un miglior collaboratore, rendendo le conversazioni più calde, più intuitive e emotivamente sfumate », afferma Raphael Gontijo Lopes, ricercatore di OpenAI.

Inoltre, GPT-4.5 ha meno probabilità di “hallucinare”, cioè di raccontare cose non veritiere, rispetto a GPT-4o, che rimane il modello di punta di OpenAI. Nel tempo, ChatPlus ha notevolmente ridotto l’abitudine di “hallucinare”. Le prime versioni pubbliche basate su GPT-3.5 producevano spesso contenuti errati o imprecisi.

Più GPU in OpenAI

Come ammette Sam Altman, questi miglioramenti hanno un costo. Infatti, GPT-4.5 è un altro modello « gigantesco e costoso ». Richiede enormi risorse di calcolo, e quindi un grande numero di schede grafiche per funzionare.

Inizialmente, GPT-4.5 è esclusivamente riservato agli abbonati dell’offerta a pagamento di 200 dollari al mese, ChatPlus Pro. Il modello è disponibile in versione anticipata. La prossima settimana, anche gli utenti Plus e Team avranno accesso a GPT-4.5, seguiti dagli utenti Enterprise ed Education. Questo dispiegamento progressivo è dovuto all’enorme necessità di potenza di calcolo del modello.

« Volevamo davvero lanciarlo in versione Plus e Pro contemporaneamente, ma siamo cresciuti tanto e non abbiamo più GPU. Aggiungeremo decine di migliaia di GPU la prossima settimana e lo distribueremo poi in versione Plus », spiega Sam Altman.

In una reazione indirizzata a 01Net, Marty Sprinzen, CEO della start-up IA Vantiq, sostiene che « modelli più grandi non saranno sufficienti da soli per risolvere i problemi del mondo reale ». Per lui, « la vera rivoluzione dell’IA avverrà quando questi modelli smetteranno di essere semplici generatori di testo e inizieranno a prendere decisioni in tempo reale ».

Un Ultimo Passaggio Prima di ChatPlus 5

Questo nuovo modello è solo un passaggio nel piano di OpenAI per evolvere ChatPlus. Nei prossimi mesi, la società americana prevede di svelare GPT-5. La nuova iterazione di GPT segnerà l’inizio di una nuova era per l’IA generativa, combinando tutti i modelli GPT in un’unica interfaccia. L’arrivo di GPT-5 dovrebbe semplificare notevolmente l’uso di ChatPlus. Con il passare del tempo e l’emergere di nuovi modelli, l’uso del robot conversazionale è diventato notevolmente più complesso, a grande dispiacere di Sam Altman e dei suoi team. Le voci suggeriscono un rilascio intorno al mese di maggio 2025.

Fonte: OpenAI

Fonte: www.01net.com