Coñecementos básicos de audio e principios de codificación

1. Conceptos básicos

1) Velocidade de bits: indica cantos bits por segundo hai que representar os datos de audio codificados (comprimidos) e a unidade adoita ser kbps.

2) Sonoridade e intensidade: os atributos subxectivos dun son. A sonoridade indica o forte que soa un son. A sonoridade varía principalmente coa intensidade do son, pero tamén a afecta a frecuencia. En xeral, os sons puros de media frecuencia son mellores que os sons puros de baixa frecuencia e alta frecuencia.

3) Mostraxe e taxa de mostraxe: a mostraxe consiste en transformar un sinal de tempo continuo nun sinal dixital discreto. A taxa de mostraxe refírese a cantas mostras se recollen por segundo.

Lei de mostraxe de Nyquist: cando a taxa de mostraxe é maior ou igual a 2 veces a compoñente de frecuencia máis alta do sinal continuo, pódese usar o sinal mostrado para reconstruír perfectamente o sinal continuo orixinal.

2. formatos de audio comúns

1) O formato WAV é un formato de ficheiro de son desenvolvido por Microsoft, tamén chamado ficheiro de son de onda. É o primeiro formato de audio dixital, amplamente soportado pola plataforma Windows e as súas aplicacións, e ten unha taxa de compresión baixa.

2) MIDI é a abreviatura de Musical Instrument Digital Interface, tamén coñecida como Musical Instrument Digital Interface, que é un estándar internacional unificado para música dixital / instrumentos musicais electrónicos sintéticos. Define a forma en que os programas de música por ordenador, sintetizadores dixitais e outros dispositivos electrónicos intercambian sinais musicais e especifica o protocolo de transmisión de datos entre cables e hardware e dispositivos que conectan instrumentos musicais electrónicos de diferentes fabricantes a ordenadores e pode simular o son de varios musicais instrumentos. Un ficheiro MIDI é un ficheiro en formato MIDI e algúns comandos almacénanse no ficheiro MIDI. Envíe estas instrucións á tarxeta de son e a tarxeta de son sintetizará o son segundo as instrucións.

3) O nome completo de MP3 é MPEG-1 Audio Layer 3, que se fusionou coa especificación MPEG en 1992. MP3 pode comprimir ficheiros de audio dixitais con alta calidade de son e baixa taxa de mostraxe. A aplicación máis común.

4) MP3Pro foi desenvolvido por Swedish Coding Technology Company, que contén dúas tecnoloxías principais: unha é a tecnoloxía de descodificación única de Coding Technology Company e a outra é a integración do titular da patente MP3 French Thomson Multimedia Company e a alemá Fraunhofer. Unha tecnoloxía de descodificación investigada conxuntamente pola Asociación do Circuíto. MP3Pro pode mellorar a calidade de son da música MP3 orixinal sen cambiar basicamente o tamaño do ficheiro. Pode manter a calidade do son antes da compresión ao máximo mentres comprime ficheiros de audio a unha velocidade de bits inferior.

5) MP3Pro foi desenvolvido por Swedish Coding Technology Company, que contén dúas tecnoloxías principais: unha é a tecnoloxía de descodificación única de Coding Technology Company e a outra é a integración do titular da patente MP3 French Thomson Multimedia Company e a alemá Fraunhofer. Unha tecnoloxía de descodificación investigada conxuntamente pola Asociación do Circuíto. MP3Pro pode mellorar a calidade de son da música MP3 orixinal sen cambiar basicamente o tamaño do ficheiro. Pode manter a calidade do son antes da compresión ao máximo mentres comprime ficheiros de audio a unha velocidade de bits inferior.

6) WMA (Windows Media Audio) é a obra mestra de Microsoft no campo do audio e vídeo de Internet. O formato WMA consegue unha taxa de compresión maior reducindo o tráfico de datos pero mantendo a calidade do son. A taxa de compresión xeralmente pode chegar a 1:18. Ademais, WMA tamén pode protexer os dereitos de autor a través de DRM (Digital Rights Management).

7) RealAudio é un formato de ficheiro lanzado por Real Networks. A característica máis importante é que pode transmitir información de audio en tempo real, especialmente cando a velocidade da rede é lenta, aínda así pode transmitir datos sen problemas, polo que RealAudio é axeitado principalmente para xogar en rede. Os formatos de ficheiro RealAudio actuais inclúen principalmente RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured), etc. Baixo a premisa de que a maioría da xente escoita un son suave, os oíntes cun ancho de banda máis amplo poden obter unha mellor calidade de son.

8) Audible ten catro formatos diferentes: Audible1, 2, 3, 4. O sitio web de Audible.com vende principalmente libros de audio en Internet e ofrece protección para os produtos e ficheiros que venden a través dun dos catro formatos de audio dedicados a Audible.com. . Cada formato ten en conta principalmente a fonte de audio e o dispositivo de escoita utilizado. Os formatos 1, 2 e 3 usan diferentes niveis de compresión de voz, mentres que o formato 4 usa unha taxa de mostraxe máis baixa e o mesmo método de descodificación que o MP3. A voz resultante é máis clara e pódese descargar de forma máis eficiente desde Internet. Audible usa a súa propia ferramenta de reprodución de escritorio, que é Audible Manager. Con este reprodutor podes reproducir ficheiros de formato audible almacenados nun PC ou transferidos a un reprodutor portátil.

9) AAC é realmente unha abreviatura de Advanced Audio Coding. AAC é un formato de audio desenvolvido conxuntamente por Fraunhofer IIS-A, Dolby e AT&T. Forma parte da especificación MPEG-2. O algoritmo empregado por AAC é diferente ao de MP3. AAC combina outras funcións para mellorar a eficiencia da codificación. O algoritmo de audio de AAC supera con moito algúns algoritmos de compresión anteriores (como MP3, etc.) en capacidades de compresión. Tamén admite ata 48 pistas de audio, 15 pistas de audio de baixa frecuencia, máis velocidades de mostraxe e velocidades de bits, compatibilidade multi-idioma e maior eficiencia de descodificación. En resumo, AAC pode proporcionar unha mellor calidade de son baixo a premisa de que é un 30% máis pequeno que os ficheiros MP3.

10) Ogg Vorbis é un novo formato de compresión de audio, similar aos formatos de música existentes como MP3. Pero unha diferenza é que é completamente gratuíto, aberto e sen restricións de patentes. Vorbis é o nome deste mecanismo de compresión de audio e Ogg é o nome dun proxecto que pretende deseñar un sistema multimedia completamente aberto. VORBIS tamén é unha compresión con perdas, pero utiliza modelos acústicos máis avanzados para reducir a perda. Polo tanto, o OGG codificado coa mesma taxa de bits soa mellor que o MP3.

11) APE é un formato de audio comprimido sen perdas, baixo a premisa de que a calidade do son non se reduce, o tamaño comprímese á metade do formato WAV tradicional sen perda.

12) FLAC é a abreviatura de Free Lossless Audio Codec, un conxunto de coñecidos códigos de compresión sen perda de audio gratuíto, que se caracteriza por unha compresión sen perdas.

3. o principio básico da codificación de audio

A codificación de voz dedícase a reducir o ancho de banda de canle necesario para a transmisión mantendo a alta calidade da voz de entrada.

O obxectivo da codificación de voz é deseñar un codificador de baixa complexidade para lograr unha transmisión de datos de alta calidade á menor taxa de bits posible.

1) Curva de limiar silenciosa: o limiar no que o oído humano pode escoitar o son a varias frecuencias só nun ambiente tranquilo.

2) Banda de frecuencia crítica

Debido a que o oído humano ten diferentes resolucións para diferentes frecuencias, MPEG1 / Audio divide o rango de frecuencia perceptible dentro de 22 kHz en 23 ~ 26 bandas de frecuencia críticas segundo diferentes capas de codificación e diferentes frecuencias de mostraxe. A seguinte figura lista a frecuencia central e o ancho de banda da banda de frecuencia crítica ideal. Como se pode ver na figura, o oído humano ten unha mellor resolución de frecuencias baixas

3) Efecto de enmascaramento no dominio da frecuencia: un sinal cunha amplitude maior enmascarará un sinal cunha frecuencia similar e unha amplitude menor, como se mostra na seguinte figura:

4) Efecto de enmascaramento no dominio do tempo: nun curto período de tempo, se aparecen dous sons, o son cun SPL maior (nivel de presión sonora) enmascarará o son cun SPL máis pequeno. O efecto de enmascaramento do dominio de tempo divídese en enmascaramento directo (pre-enmascaramento) e enmascaramento cara atrás (posmascarado). O tempo de postmascaramento será máis longo, aproximadamente 10 veces o do mascarado previo.

O efecto de enmascaramento do dominio de tempo axuda a eliminar o pre-eco.

4. os medios básicos de codificación

1) Cuantificador e cuantificador

Cuantización e cuantificador: a cuantificación converte un sinal continuo en tempo discreto nun sinal discreto en tempo discreto. Os cuantificadores comúns son: cuantizador uniforme, cuantificador logarítmico e cuantificador non uniforme. O obxectivo que persegue o proceso de cuantificación é minimizar o erro de cuantificación e minimizar a complexidade do cuantificador (os dous son en si mesmos unha contradición).

(A) Cuantificador uniforme: o rendemento máis sinxelo, o peor, só apto para a voz telefónica.

(B) Cuantificador logarítmico: é máis complicado que o cuantificador uniforme e é doado de implementar e o seu rendemento é mellor que o cuantificador uniforme.

(C) Cuantificador non uniforme: segundo a distribución do sinal, deseña o cuantificador. A cuantificación detallada realízase onde o sinal é denso e a cuantificación aproximada cando o sinal é escaso.

2) Codificador de voz

Hai tres tipos de codificadores de voz: (a) Codificador de forma de onda; (b) Vocoder; (c) Codificador híbrido.

O codificador de forma de onda ten como obxectivo construír unha forma de onda analóxica que inclúa a folla de ruído de fondo. Ao actuar sobre todos os sinais de entrada, producirá mostras de alta calidade e consumirá unha taxa de bits elevada. O vocoder non rexenerará a forma de onda orixinal. Este conxunto de codificadores extraerá un conxunto de parámetros, que se envían ao extremo receptor para obter o modelo de xeración de voz. A calidade de voz do vocoder non é o suficientemente boa. Codificador híbrido, que incorpora as vantaxes do codificador de forma de onda e do sonor.

2.1 Codificador de forma de onda

O deseño do codificador de forma de onda é a miúdo independente do sinal. Polo tanto, é adecuado para a codificación de varios sinais e non se limita á fala.

1) Codificación de dominio temporal

a) PCM: a modulación do código de pulso, é o método de codificación máis sinxelo. É só a discretización e cuantificación do sinal, e a miúdo úsase a logaritmación.

b) DPCM: modulación de código de pulso diferencial, que só codifica a diferenza entre as mostras. A anterior ou máis mostras úsanse para predicir o valor da mostra actual. Cantas máis mostras se empreguen para facer predicións, máis preciso será o valor previsto. A diferenza entre o valor real e o valor predito chámase residual, que é o obxecto da codificación.

c) ADPCM: modulación do código de pulso diferencial adaptativo, código de pulso diferencial adaptativo. É dicir, en base a DPCM, o cuantificador e o predictor axústanse adecuadamente segundo os cambios do sinal, de xeito que o valor previsto é máis próximo ao sinal real, o residual é menor e a eficiencia de compresión é maior.

(2) Codificación de dominio de frecuencia

A codificación de dominio de frecuencia consiste en descompoñer un sinal nunha serie de diferentes elementos de frecuencia e realizar unha codificación independente.

a) Codificación de subbanda: a codificación de subbanda é a técnica de codificación de dominio de frecuencia máis sinxela. É unha tecnoloxía que transforma o sinal orixinal do dominio do tempo ao dominio da frecuencia, despois divídea en varias subbandas e realiza codificación dixital nelas respectivamente. Utiliza un grupo de filtros de paso de banda (BPF) para dividir o sinal orixinal en varias sub-bandas (por exemplo, m) (denominadas sub-bandas). Pasa cada subbanda a través das características de modulación equivalentes á modulación de amplitude dunha banda lateral, move cada subbanda a unha frecuencia próxima a cero, pasa respectivamente por BPF (un total de m) e despois transfire cada subbanda a un ritmo prescrito ( Velocidade de Nyquist) O sinal de saída de subbanda é mostrado e o valor da mostra normalmente está codificado dixitalmente e establécense m codificadores dixitais. Envíe cada sinal dixital codificado ao multiplexor e, finalmente, saia o fluxo de datos codificado por sub-banda.

Para diferentes subbandas, pódense usar diferentes métodos de cuantificación e pódense asignar diferentes números de bits ás subbandas segundo o modelo de percepción do oído humano.

b) codificación de transformación: codificación DCT.

5. Vocoder

Channel vocoder: utiliza a insensibilidade do oído humano á fase.

vocoder homomorfo: pode procesar efectivamente sinais sintéticos.

Vocoder formante: a maior parte da información do sinal de voz localízase na posición e ancho de banda do formante.

vocoder predictivo lineal: o vocoder máis usado.

6. Codificador híbrido

O codificador de forma de onda tenta preservar a forma de onda do sinal codificado e pode proporcionar voz de alta calidade a unha velocidade de bits media (32 kbps), pero non se pode aplicar ás ocasións de velocidade de bits baixa. O vocoder tenta xerar un sinal auditivo similar ao sinal codificado e pode proporcionar unha fala intelixible a unha velocidade de bits baixa, pero a fala resultante soa antinatural. O codificador híbrido combina as vantaxes de ambos.

RELP: baseándose na predición lineal, o residual está codificado. O mecanismo é: só transmite unha pequena parte dos residuos e reconstrúe todos os residuos no extremo receptor (copia os residuos da banda base).

MPC: codificación multipulso, que elimina a correlación dos residuais e úsase para compensar a simple clasificación de voces do vocoder en voces e sen voz sen os defectos dos estados intermedios.

CELP: predición lineal excitada por libro de códigos, que usa a predición do tracto vocal e a cascada do preditor de ton para aproximar mellor o sinal orixinal.

MBE: excitación multibanda, o propósito é evitar un gran número de cálculos CELP, para obter unha calidade superior á do vocoder.