WirelessBR

WirelessBr é um site brasileiro, independente, sem vínculos com empresas ou organizações, sem finalidade  comercial,  feito por voluntários, para divulgação de tecnologia em telecomunicações 

MÉTODOS DE CODIFICAÇÃO DE VOZ - UMA INTRODUÇÃO   (8) 

José de Ribamar Smolka Ramos

Métodos de Codificação de Voz – Uma Introdução (8)
 

Synthesis Encoding

Esta técnica (e também a família hybrid encoding) só se tornou viável após o brutal aumento de capacidade computacional dos DSPs (Digital Signal Processors) a partir da década de 1990. A idéia básica é aproximar o comportamento do trato vocal como um filtro, cujos parâmetros são variáveis no tempo.

A codificação é feita por análise, no domínio freqüência, de pequenos grupos de amostras (frames) do sinal PCM. Um frame tem, tipicamente de 10 a 20 ms de duração, e contém entre 80 e 160 amostras PCM. Em cada bloco o algoritmo do encoder é:

Esta categoria de VOCODERs consegue bit rates muito baixos, da ordem de 1,2 a 2,4 Kbps, mas, devido à dificuldade em criar um modelo realístico para a simulação do trato vocal, o sinal recuperado é perceptivelmente artificial (as palavras são inteligíveis, mas a voz é "robotizada", o que prejudica a discernibilidade).

Aumentar o bit rate não melhora a qualidade, porque, neste caso, o bit rate é uma conseqüência do número de variáveis no modelo de simulação do trato vocal. Usar um modelo mais sofisticado aumenta muito o esforço computacional da implementação dos VOCODERs. Do jeito que está, já são necessários DSPs muito potentes para limitar o delay de processamento.

Por causa disto, esta família de VOCODERs praticamente só é empregado em aplicações militares, porque, neste caso, bit rates baixos importam mais que a qualidade (principalmente por causa dos algoritmos de criptografia que ainda vão ser superpostos à voz codificada), e em música (porque a voz "robótica" é exatamente o que se quer).

Hybrid Encoding

O objetivo desta família de VOCODERs é conseguir um trade-off entre as características das famílias de waveform encoding e synthesis encoding, de forma a conseguir bit rates mais baixos, com qualidade razoável, e com esforço computacional moderado. Assim é possível simplificar a construção e diminuir o custo final do produto, o que é importante, se você quer usar o VOCODER "embarcado" em um produto de massa – como aparelhos de telefonia celular.

A idéia é, utilizando linear prediction (veja a descrição do ADPCM), simplificar o esforço computacional para encontrar os parâmetros do filtro de síntese e conseguir um sinal de voz, recuperado, com qualidade razoável (índice MOS entre 3,7 e 3,9).
O algoritmo de encoding é:

O decoder usa os dados recebidos para ajustar um gerador da função de excitação, que é passada pelo filtro de síntese para obter o sinal de voz recuperado.

As diferenças entre os vários tipos de VOCODERs desta família está na forma de gerar a função de excitação, e no uso de um único filtro de síntese ou dois filtros de síntese para short term prediction (deteção das formantes) e long term prediction (deteção de periodicidades na fala).
Os principais tipos (com vários sub-tipos dentro de cada um) são:

As principais aplicações desta família são:

Referências

01. http://mathworld.wolfram.com/FourierSeries.html

02. http://en.wikipedia.org/wiki/G.711

03. http://en.wikipedia.org/wiki/G.726

04. http://www.palowireless.com/bluetooth/docs/BDouglas.pdf

05. http://engr.smu.Edu/~ebird/Handouts/EETS8306_Lecture4_DigitalCommunicationBasics_2004_RevA.pdf

06. http://mia.ece.uic.edu/~papers/WWW/MultimediaStandards/chapter3.pdf

07. http://www.mat.ucsb.edu/~ggroup/casmagarticlefinal.pdf

08. http://cs.haifa.ac.il/~nimrod/Compression/Speech/S4ABYS2004.pdf

09. http://61.153.34.35:8002/~kjqk/txxb/980508.htm

10. http://dcmc.ee.ncku.edu.tw/pdf/course/MC/MC05.pdf

11. http://akhisar.sdsu.edu/abut/EE658/CHAP10_2004.pdf

12. http://en.wikipedia.org/wiki/Adaptive_Multi-Rate

13. http://en.wikipedia.org/wiki/SMV
 

Home WirelessBR                    Anterior