La codifica audio

Riferendoci al caso specifico della voce, un segnale vocale è costituito da un’alternanza tra periodi di attività (talkpurt), in cui l’energia del segnale ha valori significativi, e periodi di silenzio, in cui l’energia del segnale è minima. Vari schemi di codifica sfruttano proprio tale caratteristica non codificando il segnale (quindi non assegnando bit) durante i periodi di silenzio, tramite algoritmi di Voice Activity Detection (VAD), permettendo di ridurre il carico di dati da inviare sul canale. Un’ulteriore riduzione del tasso di bit da trasmettere si può ottenere sfruttando la ridondanza del segnale vocale: una parte dell’informazione sonora non viene di fatto percepita dall’orecchio umano, perciò alcuni algoritmi di compressione, tramite tecniche diverse, sfruttano ciò eliminando, in fase di codifica, proprio questa informazione ridondante, senza alterare in modo significativo la qualità del segnale percepito.

La tabella seguente elenca alcuni tra i codec vocali più diffusi, indicandone il nome ed il bit rate in kilobit al secondo (kbps):

Codec

Bit rate [kbps]

ITU G.711

64

ITU G.723.1

5.3 e 6.3

ITU G.728

16

ITU G.729A

8

ETSI GSM-FR

12.2

ETSI GSM-HR

5.6

ETSI GSM-EFR

12.2

ETSI GSM-AMR

4.75÷12.2

I codec ITU sono utilizzati per lo più in applicazioni su reti cablate; ad esempio il codec G.711 è quello utilizzato per la telefonia classica su reti PSTN e sfrutta la tecnica Pulse Code Modulation (PCM). I codec ETSI invece sono stati sviluppati appositamente per l’ambito della telefonia mobile di seconda e terza generazione.

Riferimenti

Tesi di laurea in Ingegneria Elettronica di Antonio Mancosu, A.A. 2005/2006: “Controllo del ritardo di playout nelle comunicazioni audio-video su reti a pacchetti”.

Antonio Mancosu

Lascia una Risposta