Spraakherkenningstechnologie

Spraakherkenning, het vermogen van apparaten om te reageren op gesproken opdrachten. Spraakherkenning maakt handsfree bediening mogelijk van verschillende apparaten en apparatuur (een zegen voor veel gehandicapten), levert input voor automatische vertaling en creëert printklare dictaten. Tot de eerste toepassingen voor spraakherkenning behoorden geautomatiseerde telefoonsystemen en medische dicteersoftware. Het wordt vaak gebruikt voor dicteren, voor het doorzoeken van databases en voor het geven van opdrachten aan computersystemen, vooral in beroepen die vertrouwen op gespecialiseerde vocabulaires. Het maakt ook persoonlijke assistenten in voertuigen en smartphones mogelijk, zoals Apple's Siri.

Voordat een machine spraak kan interpreteren, moet een microfoon de trillingen van de stem van een persoon vertalen in een golfachtig elektrisch signaal. Dit signaal wordt op zijn beurt door de hardware van het systeem - bijvoorbeeld de geluidskaart van een computer - omgezet in een digitaal signaal. Het is het digitale signaal dat een programma voor spraakherkenning analyseert om afzonderlijke fonemen, de basisbouwstenen van spraak, te herkennen. De fonemen worden vervolgens gecombineerd tot woorden. Veel woorden klinken echter hetzelfde en om het juiste woord te kunnen kiezen, moet het programma op de context vertrouwen. Veel programma's brengen context tot stand door middel van trigramanalyse, een methode die is gebaseerd op een database met veelvoorkomende clusters van drie woorden waarin kansen worden toegewezen dat twee woorden worden gevolgd door een bepaald derde woord. Als een spreker bijvoorbeeld zegt 'wie ben', wordt het volgende woord herkend als het voornaamwoord 'ik' in plaats van het soortgelijk klinkende maar minder waarschijnlijke 'oog'. Toch is soms menselijke tussenkomst nodig om fouten te corrigeren.

Programma's voor het herkennen van enkele geïsoleerde woorden, zoals telefoon spraaknavigatiesystemen, werken voor bijna elke gebruiker. Aan de andere kant moeten continue spraakprogramma's, zoals dicteerprogramma's, worden getraind om iemands spraakpatronen te herkennen; training houdt in dat de gebruiker voorbeelden van tekst voorleest. Tegenwoordig, met de groeiende kracht van personal computers en mobiele apparaten, is de nauwkeurigheid van spraakherkenning aanzienlijk verbeterd. Het aantal fouten is teruggebracht tot ongeveer 5 procent in vocabulaires die tienduizenden woorden bevatten. Een nog grotere nauwkeurigheid wordt bereikt in beperkte vocabulaires voor gespecialiseerde toepassingen zoals het dicteren van radiologische diagnoses.