Bing Chat, la versione del motore di ricerca di Microsoft animata tramite il modello generativo GPT-4, dovrebbe presto estendere le proprie funzionalità al riconoscimento delle immagini. Per il momento tale feature sarebbe ancora in via di sperimentazione e di raccolta dei feedback, coinvolgendo soltanto un numero limitato di utenti.
Non si tratta di una novità del tutto inaspettata in quanto la maggiore differenza tra GPT-4 e la precedente release 3.5 risiede proprio nella multimodalità. Anche GPT-4 è in grado di generare testi coerenti in linguaggio naturale ma le sue capacità si estendono all’elaborazione delle immagini, riuscendo ad esempio a creare una ricetta partendo dalla foto del contenuto di un frigorifero.
Nel caso specifico di Bing Chat, il chatbot delle Casa di Redmond dovrebbe essere in grado di riconoscere i soggetti presenti in un’immagine e il loro contesto. I prompt degli utilizzatori potrebbero quindi basarsi su richieste come "Quali animali sono presenti in questa foto?" o "Dove si trova il monumento ripreso in questa immagine?".
Oh, how cool is that! Just noticed that I have access to #Bing chat's image features! @MParakhin reading German text from images needs some work. ?? #ai pic.twitter.com/04JfV66PAL
— Karsten Lehmann (@Klehmann79) June 23, 2023
Come ancora accade con i modelli generativi, gli errori e le risposte imprecise sono sempre dietro l’angolo, soprattutto in presenza di immagini di qualità non elevata. Motivo per il quale Satya Nadella e soci dovrebbero passare alla fase di roll-out per tutti gli utilizzatori soltanto dopo aver registrato una percentuale soddisfacente di ouptut corretti.
Per quanto riguarda la general availability, è possibile che l’attesa possa protrarsi ancora per qualche settimana. Se tutto dovesse andare come previsto dai responsabili del progetto la nuova release di Bing Chat dovrebbe essere disponibile come funzionalità aggiuntiva nella piattaforma Windows Copilot e nelle versioni dell’applicazione per iOS e Android.