Speech-to-Retrieval, l'aggiornamento di Google alla ricerca vocale
Google ha presentato un importante aggiornamento al suo sistema di ricerca vocale, introducendo una nuova tecnologia basata sull’Intelligenza Artificiale che promette risultati più rapidi e accurati. L’azienda definisce questo cambiamento come l’inizio di una nuova era per la voice search.
In questa notizia, esploreremo cosa cambia con l’introduzione di Speech-to-Retrieval e come questo influenzerà il modo in cui gli utenti interagiscono con i dispositivi.
Cos’è Speech-to-Retrieval?
Speech-to-Retrieval è la nuova tecnologia basata sull’Intelligenza Artificiale sviluppata da Google per migliorare la ricerca vocale.
Mentre prima il sistema di ricerca vocale si basava sulla semplice corrispondenza tra parole chiave pronunciate dall’utente e testo presente sul web, ora con Speech-to-Retrieval viene introdotta anche la comprensione del contesto e della semantica.
Il vecchio sistema, chiamato Cascade ASR, seguiva un processo in due fasi: prima convertiva l’audio in testo, poi elaborava la query di ricerca come una normale ricerca testuale. Il problema?
Questo metodo era soggetto a errori. Durante la conversione audio-testo, si perdevano sfumature contestuali importanti, causando imprecisioni nei risultati. Inoltre, il sistema non considerava sinonimi o parole correlate nella query di ricerca, limitando la precisione dei risultati.
La tecnologia Speech-to-Retrieval, invece, utilizza algoritmi avanzati per comprendere il contesto e la semantica del linguaggio parlato.
Ciò significa che durante la conversione audio-testo, vengono identificati e mantenuti elementi importanti come l’intonazione, l’accento e le pause nella pronuncia. Inoltre, il sistema è in grado di riconoscere sinonimi e parole correlate nella query di ricerca, migliorando notevolmente la precisione
Due reti neurali che lavorano insieme
Speech-to-Retrieval (S2R) utilizza un modello dual-encoder composto da due reti neurali complementari:
- Audio encoder: trasforma le query vocali in una rappresentazione vettoriale del loro significato semantico.
- Document encoder: converte i contenuti testuali (come le pagine web) nello stesso formato vettoriale.
Durante l’addestramento, entrambi gli encoder imparano a mappare query vocali e documenti testuali in uno spazio semantico condiviso. Il risultato?
Audio e testo correlati finiscono vicini tra loro in base alla loro somiglianza semantica.
Un esempio pratico
Prendiamo il celebre dipinto “L’urlo” di Edvard Munch.
Quando qualcuno pronuncia la frase “il dipinto l’urlo“, l’audio encoder la trasforma in un punto nello spazio vettoriale che si trova vicino alle informazioni su “L’urlo” di Munch (come il museo dove è esposto, la storia del quadro, ecc.).
Il document encoder fa lo stesso con i documenti testuali, trasformando le pagine web in vettori che rappresentano il loro contenuto.
Rappresentazione vettoriale “ricca”
Google sottolinea che gli encoder creano “rappresentazioni vettoriali ricche” (rich vector representations).
Questo significa che i vettori non contengono solo parole chiave, ma catturano l’intento e il contesto della ricerca.
Per S2R, questo si traduce in una comprensione concettuale della richiesta dell’utente, non solo in una corrispondenza di parole chiave. Anche se qualcuno dice “mostrami il dipinto con la faccia urlante di Munch“, la rappresentazione vettoriale di quella query sarà comunque vicina ai documenti su “L’urlo“.
Come spiega Google:
“La chiave di questo modello è il suo addestramento. Utilizzando un ampio dataset di query audio abbinate a documenti rilevanti, il sistema impara ad adattare i parametri di entrambi gli encoder simultaneamente.
L’obiettivo dell’addestramento assicura che il vettore di una query audio sia geometricamente vicino ai vettori dei documenti corrispondenti nello spazio di rappresentazione. Questa architettura permette al modello di apprendere direttamente dall’audio l’intento essenziale necessario per il recupero delle informazioni, bypassando il fragile passaggio intermedio di trascrivere ogni parola, che è la principale debolezza del design a cascata“.
Il processo di ranking per la voice search
Speech-to-Retrieval include anche un sistema di ranking, proprio come la ricerca testuale tradizionale.
Quando qualcuno pronuncia una query, l’audio viene prima elaborato dall’audio encoder pre-addestrato, che lo converte in forma numerica (vettore) catturando l’intento dell’utente. Questo vettore viene poi confrontato con l’indice di Google per trovare le pagine il cui significato è più simile alla richiesta vocale.
Ad esempio, se qualcuno dice “il dipinto l’urlo“, il modello trasforma quella frase in un vettore che ne rappresenta il significato. Il sistema cerca poi nel suo indice di documenti e trova pagine con vettori corrispondenti, come informazioni su “L’urlo” di Edvard Munch.
Una volta identificate le possibili corrispondenze, entra in gioco una fase di ranking separata. Questa parte del sistema combina i punteggi di somiglianza con centinaia di altri segnali di ranking per rilevanza e qualità, decidendo quali pagine dovrebbero essere classificate per prime.
Speech-to-Retrieval (S2R) è già attivo
Google ha testato Speech-to-Retrieval (S2R) confrontandolo con Cascade ASR e con una versione perfetta di Cascade ASR chiamata Cascade Groundtruth. I risultati?
Speech-to-Retrieval (S2R) ha superato Cascade ASR e si è avvicinato molto ai risultati di Cascade Groundtruth. Google ha concluso che le prestazioni sono promettenti, ma c’è ancora margine di miglioramento.
Nonostante i test abbiano rivelato spazio per ulteriori miglioramenti, Google ha annunciato che il nuovo sistema è già attivo e utilizzato in diverse lingue, definendolo una nuova era per la ricerca. Il sistema è presumibilmente utilizzato anche in inglese.
Google spiega:
“La ricerca vocale è ora alimentata dal nostro nuovo motore Speech-to-Retrieval, che fornisce risposte direttamente dalla tua query vocale senza doverla prima convertire in testo, risultando in una ricerca più veloce e affidabile per tutti“.
Perché S2R è migliore
La ricerca vocale tradizionale segue un modello a due fasi: prima ascolta le tue parole e le converte in testo, poi esegue una ricerca testuale. Il problema? Se il riconoscimento vocale commette anche solo un piccolo errore, i risultati possono essere completamente sbagliati.
Con S2R, Google elimina questo punto debole. Il sistema ascolta, comprende cosa intendi e trova le risposte, seguendo un percorso più diretto dalla tua voce alle informazioni rilevanti.
I vantaggi concreti
Maggiore precisione: Speech-to-Retrieval non dipende più da una trascrizione testuale perfetta, il che significa meno errori di trascrizione.
Comprensione intelligente: il sistema S2R si concentra sull’intento piuttosto che sulle parole esatte, gestendo meglio anche il parlato poco chiaro.
Velocità: eliminando il passaggio di conversione audio-testo, il processo è più rapido.
Nei test, Speech-to-Retrieval (S2R) ha mostrato risultati migliori rispetto ai sistemi tradizionali di voice search e si è avvicinato a ciò che sarebbe possibile con una trascrizione vocale perfetta.
Cosa significa per il futuro della ricerca
Questa evoluzione rappresenta un passo significativo nell’uso dell’Intelligenza Artificiale per migliorare l’esperienza di ricerca. Per i professionisti del marketing digitale, significa che le strategie SEO dovranno sempre più considerare non solo le parole chiave testuali, ma l’intento semantico delle query vocali.
Per gli utenti comuni, si traduce semplicemente in una ricerca vocale più affidabile e frustrazioni ridotte quando si cerca qualcosa usando la voce. Con l’AI sempre più integrata nei motori di ricerca, è probabile che la ricerca vocale diventerà il modo principale per cercare informazioni online in un prossimo futuro.
Questo cambiamento non riguarderà solo le ricerche vocali, ma anche altri aspetti della vita quotidiana come l’assistenza virtuale e i dispositivi smart home.