Focus: riconoscimento vocale

Antonino Caffo , 30 Jan 2012

Gli smartphone comprendono le domande e restituiscono risposte intelligenti. Il riconoscimento vocale però ha un grosso difetto: manca di qualità


4.000.000 di iPhone 4S sono stati venduti da Apple nel primo weekend dalla commercializzazione. Motivo del grande successo sarebbe Siri, l’assistente vocale integrato nel nuovo melafonino che comprende le domande e fornisce le risposte. Siri, che per ora non è disponibile in italiano, per funzionare correttamente necessita di un grosso lavoro in background (si veda il grafico a destra). I ricercatori e i visionari tecnologici credono che il riconoscimento vocale sia il futuro: l’analista Shannon Cross di Cross Research, considera la parola il più naturale dispositivo di input e prevede che Apple, con Siri, fra qualche anno dominerà il mercato dei sistemi di riconoscimento vocale. Anche Bill Gates ha sempre creduto nel successo del comando vocale, purché la qualità del riconoscimento sia soddisfacente. Ecco perché in Microsoft TellMe, la risposta a Siri, è ancora in fase di sviluppo.

5.000 erano le parole che il sistema di riconoscimento vocale di IBM nel 1984 era in grado di riconoscere, e ogni processo di riconoscimento richiedeva parecchi minuti. I moderni sistemi a comando vocale possono comprendere oltre 300.000 parole e necessitano di pochi secondi per ogni processo. I produttori puntano a una percentuale di riconoscimento del 99%, ma ci sono dei problemi soprattutto con altre lingue europee, come il tedesco, il francese e l’italiano perché il lessico è molto più ampio rispetto all’inglese, soprattutto a quello utilizzato negli Usa; inoltre sono estremamente difficili da decifrare i cosiddetti omofoni, quelle parole che hanno suono uguale ma significato diverso.

3 secondi sono bastati a Watson, il computer di Ibm dotato di motore di sintesi vocale, nel quiz show Jeopardy!, per comprendere i quesiti e cercare le risposte appropriate. Per lo sviluppatore di Watson, David Ferrucci, oltre alla comprensione dei termini, un altro aspetto molto importante è l’analisi statistica e semantica. I dispositivi del futuro dovrebbero dunque essere in grado di comprendere il contenuto delle domande e cercare informazioni adeguate o gestire contatti e appuntamenti.