next up previous contents
Volgende: Subjectieve waarneming Omhoog: Spraak Vorige: Spraak   Inhoudsopgave

Digitaliseren van spraak

Om een signaal goed te kunnen reconstrueren, moet men volgens de stelling van Nyquist3.1 de samplefrequentie twee maal groter nemen dan de hoogste frequentie. In het geval van spraak wordt er gesampled op een signaal met frequenties van 200 tot 3200 Hz. Daarom neemt men 8000 samples per seconde. Om elke sample een waarde te geven gebruikt men 8 bit. Zo komt men aan 8 x 8000 bit/s = 64 kbps. Deze techniek staat bekend als Pulse Code Modulation (PCM). De manier waarop betekenis wordt gegeven aan deze 8 bit kan variëren. In de V.S. gebruikt men de -law, in Europa de A-law.

Tot op heden werd in de klassieke telefonie 64 kbps gebruikt om een gesprek door te zenden. N-ISDN werd daarom voorzien van een veelvoud van 64 kbps kanalen.

Voor BRI is dit (2 x 64) + 16 = 2B + D, waar B staat voor een datakanaal, en D voor een signalisatiekanaal.
Voor PRI is dit (32 x 64) waarvan 1 kanaal van 64 kbps wordt gebruikt voor de signalisatie en een voor de synchronisatie van de data in de 30 andere kanalen. Vermits er altijd eerst een verbinding tot stand wordt gebracht, moet men geen andere informatie meesturen.

Dit ligt anders als men spraak op een datagram gericht netwerk verstuurt. Nemen we als voorbeeld IP, dan moet de spraak data in pakketjes geëncapsuleerd worden. Deze extra overhead zorgt voor ongeveer 20 kbps extra verkeer per gesprek. Zo komt men in totaal rond de 80 kbps. Onder andere voor deze reden is er veel onderzoek gedaan naar het reduceren van de bandbreedte benodigd voor spraak. Er bestaan hiervoor drie belangrijke technieken:
  1. Differentiële pulscode modulatie.
  2. Vocoders.
  3. Hybriede coders.
Bij differentiële pulscode modulatie wordt niet de amplitude als uitvoer gegeven, maar het verschil tussen de actuele waarde en de vorige (bv. ADPCM: Adaptive Differential Pulse Code Modulation). Een aantal ITU- standaarden: Met vocoders kan men spraak verzenden met zeer kleine bandbreedte (2.4k). De spraak is gesynthetiseerd, waardoor de kwaliteit zeer laag is, en men kan geen stem herkennen. Het is alsof men tegen een synthesizer spreekt (een voorbeeld is LPC - Linear predictive Coding). Deze techniek wordt toegepast in militaire omgeving, waar de omstandigheden onvoorspelbaar zijn.

Hybriede coders maken deel uit van analyse-door-synthese coding (AbS). Hier krijgt men bandbreedtes tussen 4.8 tot 16 kbps. AbS analyseert voortdurend het signaal, en ''leert'' wat kan verwacht worden in de nabije toekomst (5 ms). Hybride coders zijn van een betere kwaliteit dan de simpele analyse-door-synthese coders. De teruggekoppelde lus laat het codeboek toe om continu bij te leren. Voorbeelden zijn CELP (code-excited linear-predictive) en SELP (Self-excited linear-predictive).

Figuur 3.9: Verschillende codecs om spraak te digitaliseren.
verschillende codecs

Figuur 3.10: Vertragingspad voor spraak. Het middelste stuk wordt nader bekeken.
vertragingspad voor spraak

Een groot nadeel van het gebruik van compressietechnieken is de introductie van quantiserings- en compressievertragingen. (zie ook het onderdeel over vertraging). Een ander probleem dat zich manifesteert is dat van de taalafhankelijkheid. Zo blijkt dat de codecs ontworpen zijn voor bepaalde talen. Dit is belangrijk bij het voorspellen van de data. De veranderingen in intonaties, en veel voorkomende lettercombinaties verschillen sterk tussen bv. het Engels en het Chinees.

Een andere manier om de bandbreedte te reduceren, is het niet doorsturen van stiltes. Praktisch wordt er een detector voor de coder gezet, die pas het te digitaliseren signaal doorgeeft als het boven een bepaald niveau uitkomt.

Ook op header informatie wordt gespaard. Zo heeft men cRTP (compressed Real Time Protocol) ontwikkeld.
next up previous contents
Volgende: Subjectieve waarneming Omhoog: Spraak Vorige: Spraak   Inhoudsopgave