El gran mite de l'àudio: per què no necessiteu aquest DAC de 32 bits

Autora: Randy Alexander
Data De La Creació: 1 Abril 2021
Data D’Actualització: 1 Juliol 2024
Anonim
El gran mite de l'àudio: per què no necessiteu aquest DAC de 32 bits - Tecnologies
El gran mite de l'àudio: per què no necessiteu aquest DAC de 32 bits - Tecnologies

Content


Com heu notat probablement, hi ha una nova tendència a la indústria dels telèfons intel·ligents a incloure xips d'àudio de "qualitat d'estudi" dins dels telèfons intel·ligents moderns. Tot i que un DAC de 32 bits (convertidor digital a analògic) amb suport d'àudio de 192 kHz, sens dubte, es veu bé en el full de especificacions, simplement no té cap avantatge augmentar la mida de les nostres col·leccions d'àudio.

Estic aquí per explicar per què aquest vantatge de la profunditat i la velocitat de mostra són només una altra instància de la indústria de l’àudio que aprofita la manca de coneixement dels consumidors i fins i tot d’audiòfil. Doneu els capítols empollonats, ens endinsarem en alguns punts seriosament tècnics per explicar els aspectes externs de l'àudio professional. Tant de bo també us demostri per què haureu de passar per alt la majoria de la publicitat.


Ho sentiu?

Abans d’endinsar-nos, aquest primer segment ofereix informació de fons necessària sobre els dos conceptes principals d’àudio digital, profunditat de bits i velocitat de mostra.

La freqüència d’exemple fa referència a la freqüència amb què anem a capturar o reproduir informació d’amplitud sobre un senyal. Essencialment, tallem una forma d'ona en moltes parts petites per obtenir més informació sobre ella en un moment concret del temps. El teorema de Nyquist estableix que la freqüència més alta possible que es pot capturar o reproduir és exactament la meitat de la velocitat de la mostra. Això és força senzill d’imaginar, ja que necessitem les amplituds per a la part superior i inferior de la forma d’ona (que necessitarien dues mostres) per conèixer amb precisió la seva freqüència.


L’augment de la velocitat de la mostra (superior) dóna lloc a mostres addicionals per segon, mentre que una profunditat de bit més gran (inferior) proporciona més valors possibles per registrar la mostra a.

En l'àudio, només ens preocupa el que puguem escoltar i la gran majoria de les restes auditives de la gent només abans dels 20kHz. Ara que coneixem el teorema de Nyquist, podem entendre per què els 44,1kHz i els 48kHz són freqüències habituals de mostreig, ja que són poc més del doble de la freqüència màxima que podem escoltar. L’adopció d’estàndards de qualitat d’estudi de 96kHz i 192kHz no té res a veure amb la captació de dades de freqüència superior, que no tindrien cap sentit. Però aprofundirem en un minut.

Com que estem analitzant les amplituds al llarg del temps, la profunditat de bits es refereix simplement a la resolució o al nombre de punts disponibles per emmagatzemar aquestes dades d’amplitud. Per exemple, els 8 bits ens ofereixen 256 punts diferents per obtenir resultats de 16 bits en 65.534 punts i per valor de 32 bits ens proporciona 4.294.967.294 punts de dades. Tot i que òbviament, això augmenta considerablement la mida dels fitxers.

Pot ser fàcil pensar immediatament sobre la profunditat de bits en termes d’exactitud d’amplitud, però els conceptes més importants a comprendre aquí són el de soroll i distorsió. Amb una resolució molt baixa, probablement trobarem a faltar fragments d’informació d’amplitud inferior o tallarem els cims de les formes d’ona, cosa que introdueix inexactitud i distorsió (errors de quantització). Curiosament, sovint això semblarà soroll si reproduïu un fitxer de baixa resolució, perquè hem augmentat efectivament la mida del menor senyal possible que es pot capturar i reproduir. Això és exactament el mateix que afegir una font de soroll a la nostra forma d'ona. En altres paraules, disminuir la profunditat de bits també disminueix el sòl de soroll. També pot ajudar-nos a pensar en això en una mostra binària, on el bit menys significatiu representa el sòl del soroll.

Per tant, una profunditat de bit més elevada ens proporciona un sòl de soroll més gran, però hi ha un límit finit de com és de pràctic en el món real. Malauradament, hi ha soroll de fons a tot arreu, i no vull dir que l'autobús passés al carrer. Des dels cables fins als auriculars, els transistors en un amplificador, i fins i tot les orelles dins del cap, la proporció màxima de senyal i soroll al món real és d’uns 124 dB, la qual cosa permet tenir un valor aproximat de 21 bits.Jargon Buster:

DAC- Un convertidor digital-analògic pren dades d’àudio digital i la transforma en un senyal analògic per enviar-los a auriculars o altaveus.

Freqüència de mostreig- Mesurat a Hertz (Hz), és el nombre de mostres de dades digitals capturades cada segon.

SNR- La relació entre senyal i soroll és la diferència entre el senyal desitjat i el soroll de fons del sistema. En un sistema digital, es vincula directament a la profunditat de bits.

Per a la seva comparació, la captura de 16 bits ofereix una relació senyal / soroll (la diferència entre el senyal i el soroll de fons) de 96,33 dB, mentre que 24 bits ofereix 144,49 dB, que supera els límits de la captura de maquinari i la percepció humana. De manera que el seu DAC de 32 bits només serà possible produir un màxim de 21 bits de dades útils i els altres bits estaran emmascarats pel soroll del circuit. En realitat, però, els equips amb un preu més moderat tenen una SNR de 100 a 110dB, ja que la majoria d’altres elements del circuit introduiran el seu propi soroll. Aleshores, els fitxers de 32 bits ja semblen redundants.

Ara que hem entès els fonaments bàsics de l’àudio digital, passem a alguns dels punts més tècnics.

Escala al cel

La majoria de les qüestions relacionades amb la comprensió i la concepció errònia de l’àudio estan relacionades amb la manera en què els recursos educatius i les empreses intenten explicar els avantatges mitjançant indicis visuals. Probablement heu vist l'àudio representat com una sèrie de passos d'escala per a línies d'aspecte de profunditat i de longitud per la velocitat de la mostra. Certament, no es veu gaire bé si la compareu amb una forma d'ona analògica amb un aspecte suau, per la qual cosa és fàcil esborrar escales més suaus i més llises que representin una forma d'ona de sortida més precisa.

Tot i que pot ser una venda fàcil per al públic, aquesta analogia comuna de precisió de "escala" és una desviació enorme i no aconsegueix apreciar el funcionament de l'àudio digital. Ignora-ho.

Tanmateix, aquesta representació visual representa malament com funciona l’àudio. Tot i que pot semblar desordenat, matemàticament les dades per sota de la freqüència Nyquist, que és la meitat de la velocitat de mostreig, s’han capturat perfectament i es poden reproduir perfectament. Imaginem-ho, fins i tot amb la freqüència Nyquist, que sovint es pot representar com una ona quadrada més que una ona sinusoïdal llisa, tenim dades precises per a l'amplitud en un moment determinat, que és tot el que necessitem. Els humans sovint estem mirant erròniament l’espai que hi ha entre les mostres, però un sistema digital no funciona de la mateixa manera.

La profunditat de bits sovint està relacionada amb la precisió, però realment defineix el rendiment del soroll dels sistemes. És a dir, el senyal més petit detectable o reproduïble.

Quan es tracta de la reproducció, això pot resultar una mica més complicat, a causa del concepte fàcil de comprendre de DAC de “retenció d’ordre zero”, que simplement canviarà entre valors a una velocitat de mostra establerta, produint un resultat escalat. En realitat no es tracta d’una representació justa del funcionament dels DAC d’àudio, però, mentre estem aquí, podem utilitzar aquest exemple per demostrar que de totes maneres no us hauria d’estar preocupat per aquestes escales.

Un fet important a destacar és que totes les formes d'ona es poden expressar com la suma de múltiples ones sinusoïdals, una freqüència fonamental i components addicionals en múltiples armònics. Una ona triangular (o un esglaó) consisteix en armònics estranys en disminuir les amplituds. De manera que, si tenim molts passos molt reduïts a la velocitat de la nostra mostra, podem dir que hi ha algun contingut armònic addicional, però es produeix al doble de la nostra freqüència audible (Nyquist) i probablement uns quants armònics més enllà d’això, de manera que vam guanyar. No podré sentir-los de totes maneres. A més, seria molt senzill filtrar amb alguns components.

Si separem les mostres de DAC, podem veure fàcilment que el senyal desitjat està perfectament representat juntament amb una forma d’ona addicional a la velocitat de la mostra DAC.

Si això és cert, hauríem de poder observar-ho amb un experiment ràpid. Prenem una sortida directa d’un DAC bàsic de retenció d’ordre zero bàsic i també alimentem el senyal mitjançant un simple 2núm Ordeneu un filtre de passada baixa establert a la meitat del percentatge de mostres. En realitat només he utilitzat un senyal de 6 bits, de manera que realment podem veure la sortida en un osciloscopi. Un fitxer d’àudio de 16 o 24 bits tindria molt menys soroll al senyal tant abans com després del filtratge.

Un exemple bastant cru, però això demostra el punt que les dades d'àudio es recreen perfectament dins d'aquesta escala d'aspecte desordenat.

I com si es tractés de màgia, l'escala es va desaparèixer gairebé completament i la sortida es "suavitza", només amb un filtre de pas baix que no interfereixi amb la nostra sortida d'ona sinusoïdal. En realitat, tot el que hem fet és filtrar parts del senyal que, de cap manera, no hauríeu sentit. Realment no és un resultat dolent per a quatre components addicionals bàsicament gratuïts (dos condensadors i dues resistències costen menys de 5 cèntims), però hi ha tècniques més sofisticades que podem utilitzar per reduir encara més aquest soroll. Millor encara, s’inclouen de sèrie en la majoria de DAC de bona qualitat.

Amb un exemple més realista, qualsevol DAC per utilitzar amb l'àudio també comptarà amb un filtre d'interpolació, també conegut com a mostreig ampli. La interpolació és senzillament una manera de calcular els punts intermedis entre dues mostres, de manera que el seu DAC realitza molt aquest "suavització" per si sol i molt més que duplicar o quadruplicar la velocitat de la mostra. És millor, però, no ocupi cap espai addicional per a fitxers.

Els filtres d'interpolació que es troben habitualment en qualsevol DAC que val la seva sal són una solució molt millor que transportar arxius amb taxes de mostreig més elevades.

Els mètodes per fer-ho poden ser força complexos, però essencialment el vostre DAC canvia el seu valor de sortida molt més sovint del que suggeriria la freqüència de mostra del vostre fitxer d’àudio. Això empeny els harmònics inaudibles del pas d’escala molt fora de la freqüència de mostreig, permetent l’ús de filtres més lents i més fàcils d’aconseguir que tenen menys ondulacions, per tant, preservant els bits que realment volem escoltar.

Si teniu curiositat per què volem eliminar aquest contingut que no podrem escoltar, el senzill motiu és que la reproducció d’aquestes dades addicionals a la cadena de senyal, diguem-ne en un amplificador, perdria energia. A més, depenent d'altres components del sistema, aquest contingut "ultra-sonic" de més alta freqüència podria conduir realment a majors distorsions d'intermodulació en components d'amplada de banda limitats. Per tant, el vostre fitxer de 192 kHz probablement causaria més mal que bé, si hi hagués algun contingut ultra-sonic dins d'aquests fitxers.

Si calia més proves, també mostraré una sortida d’un DAC d’alta qualitat mitjançant el Circus Logic CS4272 (que es mostra a la part superior). El CS4272 presenta una secció d’interpolació i un filtre de sortida inclinat empinat. Tot el que fem per fer aquesta prova és utilitzar un micro-controlador per alimentar el DAC de dues mostres de 16 bits d’altura i baixa a 48 kHz, que ens proporciona la màxima forma d’ona de sortida possible a 24kHz. No s'utilitzen altres components de filtratge, aquesta sortida prové directament del DAC.

El senyal de sortida de 24 kHz (superior) d’aquest component DAC de grau d’estudi no té l’aspecte de la forma d’ona rectangular associada al material de màrqueting habitual. La velocitat de la mostra (Fs) es mostra a la part inferior de l’oscil·loscopi.

Tingueu en compte que l’ona sinusoïdal de la sortida (superior) és exactament la meitat de la velocitat del rellotge de freqüència (inferior). No hi ha passos d’escala perceptibles i aquesta forma d’ona de molt alta freqüència sembla gairebé una ona sinusoïdal perfecta, no una onada quadrada amb aspecte bloquejat que el material de màrqueting o fins i tot una visió casual de les dades de sortida suggeririen. Això demostra que, fins i tot amb només dues mostres, la teoria Nyquist funciona perfectament en la pràctica i podem recrear una ona sinusoïdal pura, absent de qualsevol contingut harmònic addicional, sense una profunda velocitat de bits ni una freqüència de mostra.

La veritat sobre 32 bits i 192 kHz

Com en la majoria de les coses, hi ha una certa veritat que s’amaga darrere de tot l’argot i l’àudio de 32 bits, de 192 kHz, és una cosa que té un ús pràctic, simplement no al palmell de la mà. Aquests atributs digitals en realitat són útils quan esteu a un entorn d’estudi, d’aquí les afirmacions de portar “àudio de qualitat d’estudi al mòbil”, però aquestes regles no s’apliquen simplement quan voleu posar la pista acabada a la butxaca.

Primerament, comencem amb la taxa de mostra. Un dels beneficis més freqüents d’un àudio d’alta resolució és freqüentment la retenció de dades ultra sonòries que no pugueu escoltar però que afectin la música. Les escombraries, la majoria d’instruments cauen molt abans dels límits de freqüència de la nostra audició, el micròfon que es fa servir per capturar un espai espacial al voltant dels 20 kHz i els auriculars que utilitzeu, certament, tampoc s’estendran. Encara que poguessin, les orelles simplement no ho poden detectar.

La sensibilitat típica de l'audició humana té un pic màxim de 3 kHz i ràpidament comença a rodar després de 16kHz.

No obstant això, el mostreig de 192 kHz és força útil per reduir el soroll (aquesta paraula clau de nou) quan es mostren dades, permet la construcció més senzilla de filtres d’entrada essencials, i també és important per als efectes digitals d’alta velocitat. La sobreamplificació superior a l'espectre audible ens permet superar el senyal per impulsar el sòl de soroll. Actualment, trobareu que la majoria de bones ADC (analògiques a convertidors digitals) inclouen un mostreig de 64 bits o més.

Tot ADC també ha de suprimir les freqüències per sobre del seu límit Nyquist, o bé, acabarà amb un aliasing sonant horrible, ja que les freqüències més altes es "repleguen" a l'espectre audible. El fet que tinguem una distància més gran entre la freqüència de la cantonada de filtres de 20 kHz i la velocitat màxima de mostres s’adapta als filtres del món real, que simplement no poden ser tan abrupte i estables com els filtres teòrics requerits. Això és cert a l’extrem DAC, però com hem comentat la intermodulació pot impulsar molt efectivament aquest soroll fins a freqüències més altes per filtrar més fàcilment.

Com més forta sigui el filtre, més ondulació a la banda de pas. L’augment de la velocitat de mostra permet l’ús de filtres “més lents”, cosa que ajuda a preservar una resposta de freqüència plana a la banda audible.

En el domini digital, s'apliquen regles similars per als filtres que s'utilitzen sovint en el procés de mescla d'estudi. Les taxes de mostra més altes permeten filtres d’acció més ràpids i ràpids que requereixen dades addicionals per funcionar correctament. No es requereix res d’això quan es tracta de reproducció i DAC, ja que només som interessants en allò que realment es pot escoltar.

Passant a 32 bits, qualsevol persona que hagi intentat codificar qualsevol matemàtica complexa remotament comprendrà la importància de la profunditat de bits, tant amb dades integrals com en punt flotant. Com ja hem comentat, com més bits, menys soroll i això és més important quan comencem a dividir o restar senyals al domini digital a causa dels errors d'arrodoniment i per evitar errors de retallar en multiplicar o sumar.

La profunditat de bits addicional és important per preservar la integritat d’un senyal quan es realitzen operacions matemàtiques, com ara el programari d’àudio d’estudi. Però podem llençar aquestes dades addicionals un cop finalitzi el domini.

Aquí teniu un exemple, diguem que prenem una mostra de 4 bits i la nostra mostra actual és de 13, que és 1101 en binari. Ara intenteu dividir-ho per quatre i ens queda el 0011, o simplement 3. Hem perdut el 0,25 addicional i això representarà un error si intentem fer matemàtiques addicionals o convertir el senyal en una forma d'ona analògica.

Aquests errors d’arrodoniment es manifesten com a quantitats molt petites de distorsió o soroll, que poden acumular-se en un gran nombre de funcions matemàtiques. Tanmateix, si ampliem aquesta mostra de 4 bits amb trossos d'informació addicionals per utilitzar-los com a facció o punt decimal, podrem continuar dividint, afegint i múltiples durant molt més temps gràcies als punts addicionals de dades. Així, al món real, mostrejar a 16 o 24 bits i convertir aquestes dades en un format de 32 bits per processar-lo de nou ajuda a estalviar en soroll i distorsió. Com ja hem dit, els 32 bits són una gran quantitat de punts de precisió.

Ara, el que és igualment important de reconèixer és que no necessitem aquesta capçalera addicional quan tornem al domini analògic. Com ja hem comentat, al voltant de 20 bits de dades (-120dB de soroll) el màxim absolut que pot detectar, de manera que podem tornar a una mida de fitxer més raonable sense afectar la qualitat de l’àudio, tot i que els “audiòfils” són probablement lamentant aquestes dades perdudes.

Tanmateix, inevitablement introduirem alguns errors d’arrodoniment quan passem a una profunditat de bit inferior, de manera que sempre hi haurà una quantitat molt petita de distorsió addicional ja que aquests errors no es produeixen sempre de forma aleatòria. Tot i que aquest no és un problema amb l'àudio de 24 bits, ja que s'estén molt més enllà del sòl de soroll analògic, una tècnica anomenada "dithering" soluciona perfectament aquest problema per als fitxers de 16 bits.

Un exemple de comparació de la distorsió introduïda per la truncada i el dithering.

Això es fa al randomitzar el bit menys significatiu de la mostra d’àudio, eliminant els errors de distorsió però introduint un soroll de fons aleatori molt tranquil que es reparteix per les freqüències. Tot i que l’introducció de soroll pot semblar contra intuïtiu, això redueix realment la quantitat de distorsió audible a causa de l’atzar. A més, utilitzant patrons especials en forma de sorolls en forma de soroll que abusen de la resposta de freqüència de l’oïda humana, l’àudio amb dos bits de 16 bits pot conservar un sòl de soroll percebut molt a prop de 120dB, just en els límits de la nostra percepció.

Les dades de 32 bits i les taxes de mostra de 192kHz tenen avantatges notables a l'estudi, però les mateixes regles no s'apliquen a la reproducció.

Simplement, deixem que els estudis col·loquin els discos durs amb aquest contingut d’alta resolució, simplement no necessitarem totes aquestes dades superflues quan es tracti d’una reproducció d’alta qualitat.

Embolicar

Si encara esteu amb mi, no interpreteu aquest article com un rebuig complet dels esforços per millorar els components d’àudio del telèfon intel·ligent. Tot i que el nombre que es pot oferir pot ser inútil, components de més qualitat i un millor disseny del circuit no deixa de ser un excel·lent desenvolupament en el mercat mòbil, només cal assegurar-nos que els fabricants centrin la seva atenció en les coses adequades. El DAC de 32 bits al LG V10, per exemple, sona increïble, però no cal que us molesteu amb grans mides de fitxers d’àudio per treure’n profit.

La capacitat de conduir auriculars de baixa impedància, preservar un sòl de baix soroll des del DAC fins a la presa i oferir una distorsió mínima són característiques molt més importants per a l’àudio del telèfon intel·ligent que la profunditat de bit o la mostra mostrada teòricament, i esperem que puguem aprofundir en aquests punts amb més detall en el futur.

Black Friday comença el 29 de novembre, però Amazon obre una mica mé aviat la eva botiga d’acord al eu propi dipoitiu. La companyia ha compartit un munt de oferte de Black Friday 2019 a...

Black Eye, competidor d’Olloclip i Moment, ha introduït una gamma de lent clip-on per a telèfon intel·ligent modern. La companyia afirma que el eu trio de lent Pro Kit G4 pot igualar la...

Interessant Al Lloc