Da ora in avanti si potrà chiedere a Grok non solo di generare un testo ma anche altri contenuti visivi come documenti, diagrammi, grafici e fotografie. Stando a quanto ha dichiarato la compagnia, il chatbot è in grado di tradurre in codice Python l’immagine di un diagramma di flusso, scrivere una storia partendo da un disegno, calcolare le calorie elaborando la foto di una tabella nutrizionale e persino spiegare un meme che risulta poco comprensibile.
Un recente aggiornamento che giunge poco dopo il debutto di Grok 1.5, una versione potenziata del modello precedente che ha evidenziato miglioramenti significativi nella programmazione, nelle capacità matematiche e nella comprensione delle richieste degli utenti. Questo passo in avanti rappresenta un ulteriore avanzamento del chatbot di xAI, il quale si sta preparando ad essere reso disponibile agli utenti nel prossimo futuro. Tuttavia, le novità non si fermano qui. In occasione del lancio del nuovo Grok-1.5V, la società ha introdotto anche un nuovo set di dati di benchmarking denominato “RealWorldQA”, mirato a valutare le capacità di comprensione spaziale dei modelli multimodali nel contesto del mondo reale.
La sua attuale composizione include più di 700 immagini catturate da veicoli e scene di vita quotidiana, ciascuna accompagnata da una domanda e una risposta facilmente verificabili. Questo costituisce uno strumento prezioso per valutare il grado di comprensione dei modelli di Intelligenza Artificiale. Come ci si potrebbe aspettare, Grok-1.5V ha raggiunto il punteggio più elevato possibile durante i test utilizzando il set RealWorldQA, alla pari di Gor-4V di OpenAI e Gemini Pro 1.5 di Google. Tuttavia, xAI non sembra soddisfatta e anzi, si impegna a migliorare ulteriormente il suo chatbot: “Continuare a sviluppare sia la nostra comprensione multimodale che le capacità di generazione rappresenta un passo cruciale nella costruzione di AGI benefiche che possano comprendere l’universo. Nei mesi a venire, prevediamo di apportare miglioramenti significativi in entrambe le direzioni, utilizzando diverse modalità, come immagini, audio e video”.
A.L.R