ESAT logo top-part
ESAT logo middle-part ESAT title image K.U.Leuven
ESAT logo bottom-part   Zoeken naar Zoeken naar vakken Zoeken naar studenten Zoeken naar personeel Zoeken in het organigram Zoekmatrix Zoeken op trefwoorden

Spraaktechnologie

Als meest natuurlijke communicatiemiddel is spraak reeds lang het onderwerp van technologische studie. In de oudheid werden theaters zodanig ontworpen dat de stem van de acteurs moeiteloos tot achteraan zou dragen. Het is echter na de ontdekking van het electro-magnetisme dat de technologie een substantiële verruiming van de natuurlijke capaciteit van de stem realiseert: de telefoon laat gesprekken toe over quasi onbeperkte afstanden en de magnetische opname bevrijdt spraak van haar instantaan en vluchtig karakter.

Met de elektronica en informatica werd het grensverleggende doel de uitwisseling van gesproken informatie tussen mens en machine. Sprekerherkenning maakt intelligente toegangscontrole mogelijk door gebruikers te herkennen aan hun stem. Spraakherkenning zorgt voor een verbale bediening van toestellen en tekstverwerkers. Spraaksynthese laat toe elke willekeurige tekst om te zetten in spraak en via experimentele dialoogsystemen kunnen we per telefoon aan een computer vragen stellen over treinregelingen of toeristische attracties. Bij spraakcompressie het de bedoeling om het spraaksignaal te comprimeren op een adaptieve manier, volgens de beschikbare bandbreedte van het communicatiekanaal op dat ogenblik, en dat met zo weinig mogelijk kwaliteitsverlies.

Spraakherkenning

Spraak is de meest natuurlijke vorm van communicatie tussen mensen. Er zijn al heel veel onderzoeksinspanningen gedaan om deze vorm van communicatie ook te kunnen gebruiken tussen mens en machine. Wie droomt er niet van om tegen zijn videorecorder te kunnen zeggen "Neem de Simpsons vanavond op" of tegen zijn koffiemachine: "Morgen wil ik om 8 uur gewekt worden met koffie voor twee"?

We zijn echter nog niet zover. Momenteel kan met een redelijk goede nauwkeurigheid, spraak herkend worden als die gedicteerd wordt. De herkenners in de laboratoria werken al min of meer sprekeronafhankelijk, kunnen continue spraak aan en hebben een groot vocabularium. Een spontaan gesprek herkennen kan echter nog niet. Dit komt omdat in spontane gesprekken er helemaal niet grammaticaal correct wordt gesproken. Er zitten euh's tussen, hoorbare ademhaling, of zinnen worden halfweg afgebroken of gedeeltelijk herhaald, of de uitspraak is maar zus en zo. Het oplossen van deze problemen is momenteel de grote uitdaging.

Voor een doorgedreven mens-machine communicatie via spraak is het uiteraard niet voldoende om te herkennen wat er wordt gezegd, het gezegde moet ook nog begrepen worden en er moeten (juiste) acties op volgen. Dit is het onderwerp van dialoogmodellering. Een voorbeeld hiervan is de virtuele gids voor de archeologische site in Sagalassos (Turkije).

Spraaksynthese

Om tekst om te zetten in spraak moet een taalkundige component beslissen welke klanken met welke intonatie moeten geproduceerd worden om de tekst correct uit te spreken. De signaalbewerking kan dan de gepaste akoestische elementen uit geheugen aan mekaar rijgen en bijv. de toonhoogte en de duur van de klankelementen aanpassen. Het voorbeeld van de automatische omzetting van tekst naar spraak, dat je hier kan horen, werd gemaakt met RealSpeak.

Spraakmodificatie

Hierbij is het de bedoeling om de akoestische kenmerken van een spraaksignaal onafhankelijk van elkaar te kunnen wijzigen met het oog op het aanpassen van de spraakcommunicatie. Zo kan men momenteel bijvoorbeeld de spreeksnelheid en de toonhoogte los van elkaar wijzigen. In de toekomst zullen nog meer prosodische en spectrale kenmerken kunnen veranderd worden, zodat uiteindelijk automatische stemimitatie tot de mogelijkheden zal behoren.

Een voorbeeld hiervan is de automatische nasynchronisatie. Van buiten opgenomen dialogen is 30% van onvoldoende kwaliteit. Slechte fragmenten worden daarom opnieuw opgenomen in een studio zodat men ze kan vervangen. Wanneer acteurs slechte fragmenten heropnemen, moeten ze lipsynchroon spreken met de beelden. Dit is een moeilijke taak die verschillende pogingen kan vergen en duur uitvalt. Men kan echter ook trachten de bronnen automatisch te synchroniseren. Als voorbeeld het gewoon samenvoegen van een peuterstem en een mannenstem; een synchronisatie levert duidelijk betere resultaten.

Links

Algemene info

Bedrijven

K.U.Leuven - Claim Copyright © Katholieke Universiteit Leuven | Reacties op de inhoud: Luc Van Eycken
Realisatie: Luc Van Eycken | Laatste wijziging: 2007-03-12 | Disclaimer
URL: http://homes.esat.kuleuven.be/~ict-ms/master/Toepassingen/Spraak/index.php
beeld van printer Printer-vriendelijke versie