Monty, 2012. március
Forrás: https://people.xiph.org/~xiphmont/demo/neil-young.html
Fordította: Sipos Róbert (kiegészítő segítség: Morgan); 2019

... és hogy miért nincs semmi értelme

A digitális mintavételezés részletes demonstrációja élesben valódi műszerekkel a Xiph.org új videójában: Digital Show & Tell!

A múlt hónapban megjelent cikkek beszámoltak róla, hogy Neil Young és az Apple Steve Jobs-a bejelentették, hogy digitális zeneletöltést fognak kínálni "kompromisszummentes stúdióminőségben". A sajtó és a felhasználók visszajelzései nagyon lelkesek voltak az eljövendő tömörítetlen 24 bites 192 kHz-es letöltések hírére. A 24/192 elég sokat szerepelt a Young csoportjában néhány hónappal ezelőtt lefolytatott beszélgetéseimben.

Sajnos nincs értelme zenét 24 bit/192 kHz-es formátumban terjeszteni. Lejátszáskor a hanghűsége kissé alacsonyabb mint a 16/44,1 vagy 16/48, viszont hatszor annyi helyet foglal.

Valóban létezik néhány probléma a digitálisan terjesztett zene hangminőségével és "élményével" manapság. A 24/192 viszont ezek egyikét se oldja meg. Mindenki rá van kattanva a 24/192-re, mint valami varázsszerre, pedig valójában semmi javulást nem fogunk tapasztalni.

Először is: a rossz hírek

Az elmúlt néhány hétben intelligens, tudományos beállítottságú emberekkel beszélgettem, akik hisznek a 24/192-es letöltésekben és kíváncsiak voltak rá, hogy hogyan lehetséges, hogy létezik olyan aki esetleg nem ért ezzel egyet. Jó kérdéseket tettek fel amik részletes válaszokat érdemelnek.

Emellett az is érdekelt, hogy mi motiválja a nagyfelbontású digitális audio pártfogóit. A válaszokból kiderült, hogy igazából kevesen értik az alapvető jelfeldolgzás-elméletet vagy a Shannon–Nyquist-féle mintavételezési tételt. Ez persze nem meglepő. A legtöbb beszélgetésben előjöttek a matematika, technológia és a fiziológia félreértései még olyan profiktól is, akik pedig egyébként jelentős hangfeldolgozási szakértelemmel rendelkeznek. Néhányan ráadásul azt állították, hogy a mintavételezési tétel nem igazán magyarázza meg, hogy a digitális hangrögzítés hogyan is működik [1].

A félretájékoztatás és a babona csak a sarlatánoknak jó. Úgyhogy előbb nézzük meg, miért nincs értelme a 24/192-es zeneterjesztésnek, mielőtt olyan dolgokat javasolunk amiknek viszont már lenne értelme.

Uraim, íme a fül

A fül szőrnyalábok segítségével hall, amelyek a rezonáns baziláris membránon helyezkednek el a fülünkben lévő ún. csigában (cochlea). Mindegyik szőrsejt egy szűk frekvenciasávra van hangolva, amit a sejt membránon lévő elhelyezkedése határoz meg. Az érzékenység a sáv közepén a legnagyobb, a sáv két vége pedig egy aszimmetrikus kúp által meghatározott módon esik, az egyes sejtek érzékenységi kúpjai pedig átfedik egymást a mellettük lévő sejtekkel. Egy hang akkor érzékelhetetlen ha nincsenek olyan szőrsejtek amelyek annak az érzékelésére lennének hangolva.

kep1

Bal oldalon: a csiga anatómiai metszete; a baziláris membrán bézs színnel van jelölve. A membrán hangolása szerint hosszában különböző frekvenciákon rezeg; a magasabb frekvenciájú hangok a csiga alapjánál, az alacsonyabb frekvenciájúak a csiga tetején lévő membránszakaszt hozzák rezgésbe. Néhány frekvencia hozzávetőleges helye látható az ábrán. Jobb oldalon: egy sematikus diagram arról, hogyan reagálnak a szőrsejtek a baziláris membrán mentén; ez lényegében egymást átfedő szűrők sorozata.

Ez az analóg rádió működéséhez hasonlítható: a tuner annak az erős közeli állomásnak a frekvenciáját veszi, ahová behangolták. Minél távolabb van a rádióállomás frekvenciája, annál gyengébb és torzítottabb a vétele egészen addig míg teljesen el nem vész, függetlenül attól, milyen erős. Van egy felső (és alsó) hallható frekvenciakorlát, ami akkor jelentkezik, mikor az utolsó szőrsejt érzékenysége nullára esik és a hallás sávja végetér.

Mintavételezési frekvencia és a hallható tartomány

Bizonyára mindenki sokszor hallotta már: az emberi hallástartomány 20Hz-től 20kHz-ig terjed. Fontos tudni, hogyan határozták meg a kutatók ezeket a pontos számokat.

Először is a teljes audio tartományban megmértük az "abszolút hallásküszöböt" a hallgatók egy csoportjára. Ez a mérés egy olyan görbét eredményez, ami megadja, hogy egészséges hallás esetén és ideális körülmények között mérve melyik a legcsendesebb hang amit az emberi fül még képes bármely frekvencián érzékelni. A visszhangmentes környezet, a precíziós kalibrált lejátszászóberendezés és a szigorú statisztikai elemzés már könnyű volt. A hallásunk és a hallásra való koncentrálóképességünk gyorsan elfárad, úgyhogy a tesztelést akkor lehet elvégezni amikor a hallgató még friss. Emiatt sok a megszakítás és megállás. A tesztelés a módszertantól függően óráktól napokig tarthat.

Ezután az ellenkező végletből, a "fájdalomküszöb" sávjából kell összegyűjteni az adatokat. A fájdalomküszöb az az állapot amikor a hang amplitúdója már akkora, hogy a fül fizikai és idegrendszeri szerkezetét nem csak teljesen túlterheli a bemenet, hanem fizikai fájdalmat is érzünk. Ilyen adatok összegyűjtése trükkösebb. Nem nagyon szeretnénk senkinek tartós halláskárosodást okozni a folyamat során.

kep2

A Fletcher-Munson (1933) azonos hangosság szintek görbéi kiegészítve modern, 16 kHz fölötti mérésekkel. Az abszolút hallás- és fájdalomküszöb pirossal van jelölve. Későbbi kutatók finomították ezeket a méréseket és létrehozták a Phon skálát és az ISO 226-os szabványt. A modern mérések szerint a fül lényegesen kevésbé érzékeny az alacsony frekvenciákra, mint ahogy azt Fletcher és Munson eredményei mutatták.

Az emberi hallástartomány felső határának azt tekintjük ahol az abszolút hallásküszöb görbe keresztezi a fájdalomküszöb görbéjét. Ahhoz hogy egy hangot ezen a ponton (vagy ezen túl) érzékeljünk, annak egyúttal elviselhetetlenül hangosnak is kell lennie.

Alacsony frekvenciákon a csiga basszreflex dobozként működik. A baziláris membrán csúcsánál van egy nyílás, az ún. helicotrema, ami egy hangolt nyílásként viselkedik. Ez egyéntől függően valahová 40 és 65 Hz közé van hangolva. Ezen frekvencia alatt az érzékelő sejtek válaszreakciója meredeken esik.

A 20 Hz-20 kHz tehát elég nagyvonalú tartomány. Alaposan lefedi a hallható spektrumot és ezt közel egy évszázadnyi kísérleti adat támasztja alá.

Genetikai ajándékok és aranyfülek

Levelezéseim alapján sok ember hisz benne, hogy léteznek különösen jó hallással rendelkező egyének. Valóban léteznek ilyen "aranyfülek"?

Attól függ, mit nevezünk annak.

Az egészséges fiatal fülek jobban hallanak mint az öreg és sérült fülek. Néhány ember kivételesen jól van trenírozva rá, hogy apró részleteket is meghalljon zenében vagy hangokban, olyanokat amikről a legtöbb ember nem is gondolja, hogy léteznek. Volt idő a 90-es években amikor képes voltam felismerni minden főbb MP3 kódolót az általuk produkált hang alapján (akkoriban ezek mind elég rosszak voltak) és ezt kettős vakteszten is képes voltam igazolni [2].

Amikor egészséges hallás nagyon gyakorlott megkülönböztetési képességgel párosul, azt nevezem én aranyfülnek. De egyébként még az átlag alatti hallás is kiképezhető arra, hogy észrevegyen olyan részleteket, amik a képzetlen hallgatók számára rejtve vannak. Az aranyfül sokkal inkább az edzésről, mint az átlagemberek fizikai képességein túli hallásról szól.

A hallás kutatói igencsak szeretnének kivételes hallással (például nagyon kiterjedt hallási tartománnyal) rendelkező embereket találni, tesztelni és dokumentálni. Az átlagemberek is érdekesek meg minden, de mindenki genetikai csodákat szeretne találni egy jó kis izgi tanulmányhoz. Az elmúlt 100 év vizsgálatai során még nem találtunk ilyen embereket, tehát lehet, hogy nem is léteznek. Sajnálatos. De nem adjuk fel a keresést.

Spektrofilek

Lehet, hogy ön szkeptikus mindazzal kapcsolatban amiről eddig írtam. Ezek vélhetően szembenennek a legtöbb marketing-anyaggal. Találjunk ki ezért egy széles spektrumú videóőrültet, akihez nem kapcsolódnak a létező audiofil beidegződések.

kep3

Az emberi szemben lévő csapok és pálcikák megközelítőleg logaritmikus válaszreakciói a látható spektrum fölött. Ezek az érzékelő sejtek egymást átfedő spektrális sávokban reagálnak a fényre, pont mint ahogy a fülben lévő szőrsejtek a hangrezgések átfedő sávjaira.

Az emberi szem a fény frekvenciáinak csak korlátozott sávját érzékeli, ez a látható spektrum. Ez analóg a hangrezgések hallható sávjával. Akárcsak a fülnek, a szemnek is vannak érzékelő sejtjei (csapok és pálcikák) amelyek a fényt eltérő de egymást átfedő frekvenciasávokban érzékelik.

A látható spektrum nagyjából 400 THz-től (mélyvörös) kezdődik és 850 THz-ig (mély ibolyakék) tart [3]. Az érzékelésünk a széleken meredeken esik. Ezeken a hozzávetőleges határokon túli területeken az észleléshez szükséges legkisebb fényerő is kiégeti a retinát. Ez tehát elég nagyvonalú tartomány még fiatal, egészséges és jó képességű egyének számára is, hasonlóan a hallható spektrum tartományához.

Az elképzelt széles spektrumú videóőrültünk (nevezzük spektrofilnek) azt hiszi, hogy ezek a korlátok nem eléggé nagyvonalúak. Azt javasolja, hogy a videók ne csak a látható spektrumot, hanem azon kívül az infravörös és ultraibolya sávot is tartalmazzák. Továbbgondolva az összehasonlítást, van a kemény mag kemény magja (akik büszkék is erre!), akik ragaszkodnak ahhoz a véleményhez, hogy ez a kiterjesztett tartomány még mindig túl kevés. Szerintük a videófelvételek sokkal természetesebbek, ha emellett a mikrohullámú tartományt és a röntgensugaras tartomány egy részét is tartalmazzák. Egy aranyszemnek - ahogy mondják - a különbség ég és föld!

Ez persze nevetséges.

Senki nem látja a röntgensugarakat (és az infravörös, ultraibolya vagy mikrohullámú sugarakat sem). Nem számít, hogy valaki mennyire hisz benne hogy ő látja. A retinának egyszerűen nincs meg ehhez a hardvere.

Egy kísérlet amit bárki meg tud csinálni: vegyük az Apple távirányítónkat. A LED-je 980 nm-en sugároz ami nagyjából 306 THz a közeli IR (infravörös)-tartományban. Ez nincs túl messze a látható tartomány határán túl. Vigyük le a távirányítót az alagsorba vagy a ház legsötétett szobájába az éjszaka közepén úgy, hogy a lámpák le vannak kapcsolva. Hagyjuk, hogy a szemünk hozzászokjon a sötéthez.

kep4

Az Apple IR távirányítója digitális fényképezővel fényképezve. Bár az emitter elég fényes és a kibocsátott frekvencia nincs túl messze a látható spektrum vörös részétől, a szem számára teljesen láthatatlan.

Látja az Apple távirányító LED-jének világítását amikor megnyomja a gombot [4]? Nem? Még a legkisebb mértékben sem? Próbáljon ki néhány másik IR távirányítót; sok közülük a látható tartományhoz kicsit közelebbi hullámhosszt alkamaz; nagyjából 310-350 THz körülit. Egyiket se fogja látni. A legtöbbjük pont a látható tartomány szélén sugároz, 350-380 THz-től és talán halványan látható lesz teljes sötétségben a sötéthez hozzászokott szemnek [5]. De mindegyik vakítóan, fájdalmasan fényes lenne ha a látható spektrumon belülre esnének.

Ezek a közel-IR LED-ek a láthatóság határától kezdve bocsátanak ki fényt legfeljebb 20%-kal a látható frekvenciahatáron túlig. A 192 kHz-es audio 400%-kal tolja ki a sugárzott tartományt a hallható tartományon kívül. Nehogy azzal vádoljanak, hogy körtét hasonlítok almához, de a hallási és látási észlelés hasonló módon esik a határaihoz közeledve.

A káros 192 kHz

A 192 kHz-es digitális zenei fájlok nem adnak előnyöket és még csak nem is teljesen semlegesek; a gyakorlatban a hanghűségük kicsit rosszabb. Az ultrahangok ugyanis terhelést jelentenek a lejátszás számára.

Sem az audio átalakítók [hangszórók, fejhallgatók - A ford.] sem pedig a végerősítők nem mentesek a torzításoktól és a torzítás hajlamos gyorsan nőni a legalacsonyabb és legmagasabb frekvenciákon. Ha ugyanaz az átalakító a hallható tartalommal együtt visszaad ultrahangokat is, bármilyen nemlinearitás le fogja tolni az ultrahang tartalom egy részét a hallható tartományba a teljes hallható spektrumot lefedő intermodulációs torzítási hatások szétszórt permeteként. A nemlinearitás hasonló hatást fog okozni egy teljesítményerősítőben is. A hatás nagyon gyenge, de tesztek igazolták, hogy mindkét hatás hallható.

kep5

Egy 30 kHz és egy 33 kHz-es hangból eredő intermodulációs torzítási hatások ábrázolása egy nagyjából 0,09% tejes harmonikus torzítással rendelkező elméleti erősítőben. A torzítások a spektrum teljes tartományában jelentkeznek, beleértve olyan hangokat is amelyek alacsonyabbak, mint a kiváltó hang. A nem hallható ultrahangok felelősek a hallható tartományban (világoskék terület) megjelenő intermodulációs torzításért. Az olyan rendszereknek amelyeket nem terveztek arra, hogy ultrahangokat is átadjanak, jellemzően sokkal magasabb torzításuk van 20 kHz fölött amely szintén hozzájárul az intermodulációhoz. A tervezés frekvenciatartományának növelése úgy, hogy figyelembe vegye az ultrahangokat is, olyan kompromisszumokat igényel amelyek a hallható tartományban csökkentik a zaj és a torzítás távoltartását. Akárhogy is, az ultrahang tartalom szükségtelen reprodukálása rossz hatással van a készülék viselkedésére.

Van azért néhány módja az extra torzítás elkerülésének:

  1. dedikált, csak ultrahangot közvetítő hangsugárzó, erősítő és hangváltó fokozat, amely elkülöníti és függetlenül adja vissza a nem hallható ultrahangokat csak azért, hogy ne zavarják azokat a hangokat amiket viszont hallunk.
  2. az erősítők és hangátalakítók szélesebb frekvenciatartományra való tervezése, így az ultrahangok nem okoznak hallható intermodulációt. Azonos költség és összetettség esetén ennek a kiegészítő frekvenciatartománynak az az ára, hogy a spektrum hallható tartományában némi minőségcsökkenés lesz.
  3. az erősítők és hangszórók gondos tervezése, hogy egyáltalán ne adjanak át ultrahangokat
  4. nem kódolunk olyan széles frekvenciatartományt amivel foglalkozni kellene. Nem lehet és nem is lesz ultrahangos intermodulációs torzítás a hallható tartományban ha nincs ultrahang tartalom.

A fenti pontok közül mindegyik ugyanarra vonatkozik, de csak a 4.-nek van valami értelme.

Ha ön kíváncsi a saját rendszerének viselkedésére, a következő minták egy 30 kHz-es és egy 33 kHz-es hangot tartalmaznak egy 24/96-os WAV fájlban; egy hosszabb változatot FLAC-ban, némi háromhangú csicsergést és egy normál zenei részletet amit 24 kHz-el megemeltünk, hogy teljesen az ultrahangos tartományban legyen 24 kHz-től 46 kHz-ig:

Feltételezve persze, hogy az ön rendszere képes a teljes 96 kHz-es dekódolásra [6], a fenti fájlok lejátszásakor teljes csöndet kell hallania. Semmiféle zaj vagy hang, sípolás, kattanás vagy egyéb hang nem hallatszódhat. Ha bármit is hall, akkor az ön rendszerének olyan nemlinearitása van, ami az ultrahangok miatt intermodulációs torzítást okoz. Legyen óvatos a hangerő növelésével; belefuthat digitális vagy analóg túlvezérlésbe és még az enyhe túlvezérlés is azonnal hangos intermodulációs hangot fog eredményezni.

Összefoglalva: nem biztos, hogy egy adott rendszeren az ultrahangokból származó intermoduláció hallható lesz. A létrejövő torzítás lehet jelentéktelen vagy észrevehetetlen. Az ultrahangos tartalom mindenesetre sosem előny és elég sok rendszeren hallhatóan befolyásolja a hanghűséget. Azokon a rendszereken ahol nem probléma, az ultrahangok kezelésének költségét és összetettségét meg lehetett volna spórolni vagy ezek helyett a hallható tartomány javítására lehetett volna fordítani.

Mintavételezéssel kapcsolatos tévedések és félreértéssek

A mintavételezési elmélet jelfeldolgozási ismeretek nélkül gyakran nehezen érthető. Nem meglepő, hogy a legtöbb ember, még a más területeken egyébként nagyon okos PhD-sek is rendszeresen félreértik. Nem meglepő, hogy a legtöbb ember még azt sem veszi észre, hogy téved.

kep6

Mintavételezett jeleket gyakran ábrázolnak durva lépcsőzetes ábrával (piros) ami az eredeti jel nagyon rossz közelítésének tűnik. Az ábrázolás ellenben matematikailag pontos és a jel visszakapja eredeti sima alakját (kék) amikor visszakonvertáljuk analóggá.

A legáltalánosabb tévhit, hogy a mintavételezés alapvetően durva és veszteséges. A mintavételezett jelet gyakran az eredeti sima hullámforma szagatott, durva sarkos másaként ábrázolják. Ha így fogjuk fel a mintavételezés működését, akkor azt hihetjük, hogy a nagyobb mintavételezési frekvencia (és mintánként több bit) finomabb lépcsőfokokat jelent és az eredeti jobb megközelítését. A digitálisból visszaállítot jel az analóghoz egyre hasonlóbbnak és hasonlóbbnak hallatszik ahogyan a mintavételezési frekvencia közelíti a végtelent.

Ehhez hasonlóan sok DSP-ben járatlan [DSP: digitális jelfeldolgozás - A ford.] ember ránézne a következőre:

kep7

és azt mondaná: "uhh!" Úgy tűnik, hogy a mintavételezett jel nagyon rosszul ábrázolja a magasabb frekvenciájú analóg hullámformát. Vagyis ahogy az audio frekvencia növekszik, a mintavételezett minőség csökken és a frekvenciaválasz leesik vagy érzékeny lesz a bemenet fázisára.

A látszat megtévesztő. Ezek a hiedelmek tévesek!

2013. 04. 04.-i megjegyzés: a digitális hullámformák és lépcsőfokok kapcsán kapott levelekre válaszul bemutatom a valódi digitális viselkedést egy valódi berendezésen a Digital Show & Tell videóban úgyhogy nem kell mindent egyből elhinni amit én itt állítok!

Minden olyan jel ami a Nyquist frekvencia alatti összetevőket tartalmaz (a mintavételezési frekvencia fele) tökéletesen és hiánytalanul ábrázolható a mintavételezéssel; végtelen mintavételezési frekvencia szükségtelen. A mintavételezés nem befolyásolja a frekvenciavisszaadást vagy a fázist. Az analóg jel veszteségmentesen, simán és az eredeti analóg jelnek megfelelő pontos időzítéssel reprodukálható.

Persze a matematika lehet ideális, de mi a helyzet a valódi világban jelentkező problémákkal? A legközismertebb a sávhatárolási követelmény. A Nyquist frekvencián túli összetevőket aluláteresztő szűrőn kell átküldeni mintavételezés előtt, hogy elkerüljük az ún. aliasing torzítást. Ez az analóg aluláteresztő szűrő a hírhedt antialiasing szűrő. Az antialiasing a gyakorlatban nem lehet ideális, de a modern megoldások azért eléggé jól közelítik az ideális helyzetet... és itt jön be a képbe a túlmintavételezés.

Túlmintavételezés

A 48 kHz fölötti mintavételezési frekvenciák lényegtelenek a hifi audio adatokra nézve, de alapvető jelentőségűek több helyen a modern digitális hangtechnikában. A túlmintavételezés a legideillőbb példa [7].

A túlmintavételezés egyszerű és furfangos. Aki megnézte az "A digital media primer for Geeks" videómat, annak eszébe juthat, hogy a nagy mintavételezési frekvencia sokkal nagyobb teret ad az általunk hallott legmagasabb frekvencia (20 kHz) és a Nyquist frekvencia (a mintavételezési frekvencia fele) között. Ez egyszerűbb, simább, sokkal megbízhatóbb analóg anti-aliasing szűrők alkalmazását teszi lehetővé és így a jobb lesz a hanghűség is. Ez a kiegészítő terület 20 kHz és a Nyquist frekvencia között lényegében csak az analóg szűrő spektrális kitöltése.

kep8

Táblára rajzolt diagram az "A Digital Media Primer for Geeks" videóból, ami bemutatja azt az átmeneti sávot, ami a 48 kHz-es ADC/DAC (bal) és a 96 kHz-es ADC/DAC-hoz (jobb) szükséges.

Ez egyébként még csak a történet egyik fele. Mivel a digitális szűrők az analóg szűrők gyakorlati korlátai közül csak kevéssel terheltek, nagyobb hatékonysággal és pontossággal el tudjuk végezni az anti-aliasing műveletet digitálisan. A nagyon nagy mintavételezésű digitális jel átmegy egy digitális anti-aliasing szűrőn, aminek nincs problémája azzal, hogy az átmeneti sávot nagyon szűk helyre zsugorítottuk. Ezután a kiegészítő digitális anti-aliasing után a kitöltő mintákat el lehet dobni. A túlmintavételezett lejátszás megközelítően ugyanígy működik csak épp visszafelé.

Ez azt jelenti, hogy használhatunk alacsony mintavételezési frekvenciájú, 44,1 kHz-es vagy 48 kHz-es hangot a 192 kHz vagy magasabb mintavételezési frekvencia minden hanghűségre vonatkozó előnyével (sima frekvenciaválasz, alacsony aliasing) és a hátrányai (ultrahangok intermodulációs torzítása, elvesztegetett tárhely) nélkül. Ma majdnem az öszes analóg-digitális konverter (ADC) és digitális-analóg konverter (DAC) nagyon nagy frekvencián túlmintavételez. Kevés ember ismeri ezt a tényt, mert ez teljesen automatikus és rejtett.

Az ADC-k és a DAC-ok nem mindig túlmintavételeztek ilyen láthatalanul. Harminc éve néhány felvevőkonzol csak analóg szűrőket használva rögzített nagy mintavételezési frekvenciákon és a production és mastering egyszerűen azt a nagy frekvencián mintavételezett jelet használta [production: a felvétel közben vagy utána elvégzett további feldolgozás, például keverés, effektek, stb. Mastering: az a lépés az utómunkálatokban amikor a készre kevert hangfelvételt előkészítik a mester adathordozóra történő rögzítéshez (pl műsoros kazetta, hanglemez vagy cd, újabban letölthető fájl ), majd rögzítik azt. - A ford.]. A digitális anti-aliasing és decimálási lépés (újramintavételezés alacsonyabb frekvencián a CD-khez vagy DAT-okhoz) a mastering végső lépésében történt meg. Ez volt talán az egyik korai oka annak, hogy a 96 kHz és a 192 kHz a professzionális zeneszerkesztéshez kapcsolódott [8].

16 bit és 24 bit

Oké, tehát a 192 kHz-es zenefájloknak nincs értelme. Lezártuk, rendben. Na de mi van a 16 bit kontra 24 bites felbontással?

Valóban igaz, hogy a 16 bites lineáris PCM nem tudja teljes egészében lefedni az emberi hallás ideális körülmények között mért elméletileg teljes dinamikatartományát. Ezen kívül is vannak (és mindig lesznek) okok, hogy 16 bitnél többet használjunk a felvételi és gyártási folyamatban.

De ezek közül egyik sem lényeges a lejátszás tekintetében; itt a 24 bites audio ugyanolyan fölösleges akárcsak a 192 kHz-es mintavétel. A jó hír, hogy legalább a 24 bit nem problémás a hanghűségre. Egyszerűen csak nem segít rajta és szintén rengeteg tárhelyet elpazarol.

Újra a fülek

Már beszéltünk a fül frekvenciatartományáról, de mi a helyzet a leghalkabb és leghangosabb lehetséges hangok közötti dinamikatartománnyal?

Az abszolút dinamikatartomány meghatározásának egyik módja, hogy újra megnézzük a hallásküszöböt és a fájdalomküszöböt. Fiatal egészséges hallásnál a fájdalomküszöb görbéjének legmagasabb és az abszolút hallásküszöb görbéjének legalacsonyabb pontja közötti távolság nagyjából 140 decibel. Ezt kihasználni azonban nem tartana túl sokáig: +130 dB elég hangos hozzá, hogy másodpercek vagy percek alatt tartós halláskárosodást okozzon. Csak viszonyításképpen: egy légkalapács egy méterről hallgatva csak nagyjából 100-110 dB hangerősségű.

A hallás abszolút küszöbe az életkorral együtt és a hallásunk romlásával nő. Érdekes módon az életkorral a fájdalomküszöbünk viszont nem nő, hanem csökken. A csigában a szőrsejtek a 140 dB-es tartomány csak egy részét fogják át. A fül izomzata folyamatosan alkalmazkodik a csigát érő hangmennyiséghez úgy, hogy megemeli a csontocskákat, pont mint ahogyan az írisz szabályozza, hogy mennyi fény érje a szemünket [9]. Ez a mechanizmus az életkorral előre haladva egyre inkább megmerevedik, így korlátozza a fül dinamikatartományát és csökkenti a védelmi mechanizmusok hatékonyságát [10].

Környezeti zaj

Kevés ember érzékelheti, hogy az abszolút hallásküszöb tényleg milyen csendes.

A legcsöndesebb észlelhető hang nagyjából -8 dBSPL [11]. Egy 100 wattos izzó búgása 1 méterről mérve A-kiemeléssel nagyjából 10 dBSPL, vagyis ennél nagyjából 18 dB-el hangosabb. Az izzó egy dimmeren még sokkal hangosabb lesz.

Üres felvételi stúdió vagy süketszoba esetén gyakran szokták emlegetni a 20 dBSPL hangerőt (vagyis a leghalkabb észlelhető hangtól 28 dB-el hangosabb). Itt kezdődik a kivételesen csöndes környezet és ez az egyik oka annak, hogy sosem vettük még észre az izzónk zümmögését.

A 16 bit dinamikatartománya

A 16 bites lineáris PCM-nek a legelterjedtebb meghatározás szerint 96 dB dinamikatartománya van. Ezt a (6*bitek) dB összefüggés alapján határozták meg. Sokan ez alapján úgy vélik, hogy a 16 bites formátum nem tudja ábrázolni a -96 dB-nél csöndesebb hangokat. Ez tévedés.

Betettem ide két hangfájlt: az egyik egy 1 kHz-es hangot tartalmaz 0 dB-en (ahol a 0 dB a leghangosabb lehetséges hang) és egy 1 kHz-es hangot -105 dB-en.

kep9

16 bit/48 kHz-es formátumban kódolt -105 dB-es hang spektrális analízise. A 16 bites PCM egyértelműen mélyebb mint 96 dB, különben egy -105 dB-es hangot nem lehetne ábrázolni és nem lehetne hallani sem.

Hogyan lehetséges kódolni ezt a jelet, ráadásul torzítás nélkül és jóval a zajszint fölött, amikor a csúcsamplitúdója egyharmad bit?

A kirakós megoldásának egyik része a megfelelő dither, ami kvantálási zajt ad a jelhez, ez független a bemenő jeltől. Ez tehát azt jelenti, hogy a ditherelt kvantálás nem hoz be torzítást, csak összefüggéstelen zajt. Emiatt tudunk aztán kódolni tetszőleges mélységű jelet, még olyat is aminek a csúcsamplitúdója sokkal kisebb, mint egy bit [12]. A dither viszont nem változtatja meg a tényt, hogy amikor a jel a zajszint alá merül, akkor ténylegesen eltűnik. Hogyan hallható mégis tisztán a -105 dB-es hang a -96 dB-es zajszint fölött?

A válasz: a -96 dB-es zajszint kifejezésünk valójában rossz; nem megfelelő definíciót használunk a dinamikatartományra. A (6*bitek) dB a teljes szélessávú jel RMS zaját adja meg, de a fülben mindegyik szőrsejt a teljes átvitelnek csak egy keskeny töredékére érzékeny. Mivel minden szőrsejt a teljes zajszint energiájának csak a töredékét hallja, a zajszint a szőrsejteknél sokkal kisebb lesz, mint a szélessávú -96 dB.

Így a 16 bites audio jelentősen mélyebbre tud menni, mint 96 dB. A zajformált dither a kvantálási zajenergiát olyan frekvenciákba viszi ahol nezezebb meghallani, ennek használatával ezért a 16 bites audio tényleges dinamikatartománya a gyakorlatban a 120 dB-t is eléri [13], ami több, mint 15-ször mélyebb, mint a 96 dB-es állítás.

A 120 dB nagyobb, mint egy adott szobában egy moszkító és ugyanott 30 centire egy légkalapács hangja közötti különbség... vagy egy üres süketszoba és egy másodpercek alatt halláskárosodást okozó hang közötti különbség.

A 16 bit elég mindannak a tárolására amit hallunk és örökké elég is lesz.

Jel-zaj arány

Röviden érdemes megemlíteni, hogy a fül jel/zaj aránya kisebb, mint az abszolút dinamikatartománya. Egy adott kritikus sávban a tipikus jel/zaj arány a becslések szerint csak nagyjából mintegy 30 dB. A relatív jel/zaj nem éri el a teljes dinamikatartományt még akkor sem ha széles sávot veszünk figyelembe. Ez biztosítja, hogy a lineáris 16 bites PCM nagyobb felbontást ad mint ami valójában szükséges.

Érdemes megjegyezni, hogy az audio ábrázolásban a bitmennyiség növelése 16-ról 24-re nem növeli a hang észlelhető felbontását vagy "finomságát". Csak a dinamikatartományt növeli, a leghalkabb és leghangosabb lehetséges hang közötti tartományt úgy, hogy csökkenti a zajszintet. A 16 bites zajszint már így is az alatt van amit meghallunk.

Mikor számít a 24 bit?

A professzionális felhasználók helység, zajszint és kényelmi szempontok miatt 24 bites mintákat használnak a felvételi és gyártási folyamatokban [14].

A 16 bit elegendő a teljes hallástartomány átfogására úgy, hogy még marad is szabad hely. De egy audio feldolgozó berendezésnek nem fogja át a teljes lehetséges jeltartományát. A 24 bit használatának elsődleges oka a hibák elkerülése volt; ahelyett hogy óvatosan gondoskodni kellene a 16 bites felvétel központosításáról - azt kockáztatva, hogy túlvezérlés jelentkezik ha túl magasra becsülünk és zaj ha túl alacsonyra - a 24 bit lehetővé teszi a felhasználónak, hogy körülbelüli szinteket állítson be és ne kelljen sokat aggódni utána ezen. Ha eltévesztik az optimális erősítést néhány bittel, az sem okoz semmi problémát és a rögzített tartomány dinamikus tömörítésének effektusára nagy küszöb áll rendelkezésre.

Egy mérnöknek szintén 16 bitnél többre van szüksége keveréskor és mastereléskor. A modern munkafolyamatok szó szerint ezernyi effektust és műveletet tartalmaznak. A 16 bites minta zajszintje és kvantálási szintje lehet észrevehetetlen lejátszáskor, de ha ezt a zajt megszorozzuk néhány ezerrel, akkor végül már mégiscsak észlelhető lesz. A 24 bit az összegzett zajt még mindig nagyon alacsony szinten tartja. Amikor a zene már készen áll a terjesztésre, akkor már nem lesz oka annak, hogy 16 bitnél többet megtartsunk.

Hallgatási tesztek

A megértés az ahol az elmélet és a gyakorlat találkozik. Egy ügy csak akkor fejeződik be, amikor a két fél egyetért.

A hallgatási tesztekből leszűrhető empirikus bizonyítékok megerősítik azt a feltételezést, hogy a 44,1 kHz/16 bit biztosítja a legnagyobb lehetséges hanghűséget lejátszáskor. Számos ellenőrzött teszt megerősíti ezt, de beteszek ide egy friss tanulmányt: Audibility of a CD-Standard A/D/A Loop Inserted into High-Resolution Audio Playback. Ezt helyi kollégáim készítették itt a Boston Audio Society-nél. [A cikkhez érkezett hozzászólások is nagyon érdekesek, angolul tudóknak érdemes elolvasni. - A ford. ]

Sajnos a teljes letöltéshez AES tagság szükséges. Viszont ezt a tanulmányt eléggé sokat tárgyalták cikkekben és olyan fórumokon, ahol a résztvevő kutatók is jelen voltak. Néhány link:

Ez a tanulmány arról szól, hogy a nagyfelbontás támogatói kiválasztottak DVD-A/SACD tartalmat a nagy felbontás előnyeinek bemutatására, majd a tesztelőknek választani kellett eközött és ugyanennek a tartalomnak helyben leskálázott 16 bit / 44,1 kHz-es formátuma között. A hallgatóknak ABX módszer alkalmazásával kellett azonosítani bármiféle különbséget a kettő között. A tesztet a BAS vezette le profi high-end eszközökkel zajszigetelt stúdiókörülmények között amatőr és gyakorlott profi audiofülekkel egyaránt.

554 próba alatt a hallgatók 49,8%-ban választottak helyesen. Másszóval: tippelgettek. Egyetlen hallgató sem volt képes a teljes teszt alatt azonosítani, hogy melyik volt a 16/44,1 és melyik volt a nagyfelbontású [15], ráadásul a 16 bites jelet még nem is ditherelték!

Egy másik újabb keletű tanulmány [16] konkrétan azt vizsgálta, hogy az ultrahangok hallhatók-e, amint azt korábbi tanulmányok alapján gyanítani lehetett. A teszteket úgy állították össze, hogy maximalizálja a lehetőségét annak, hogy észre lehessen venni a hatást. Ezt azzal tette meg, hogy az intermodulációs torzítás eredményeit oda pozicionálta ahol a legjobban hallható. A teszt eredménye az lett, hogy az intermodulációs hangok nem hallhatók... viszont a hangsugárzók által produkált intermodulációs torzítások már igen.

Ennek a tanulmánynak a hatására további teszteket is végeztek, ezek közül több vegyes eredményt hozott. A nem egyértelmű eredményeket végül azzal magyarázták, hogy kiderült, az ultrahangok több intermodulációs torzítást is okozhatnak, mint amennyit a végerősítőkben korábban vártak. David Griesinger újra elvégezte ezt a kísérletet [17] és úgy találta, hogy az ő hangsugárzója nem hozott be hallható intermodulációs torzítást az ultrahangokból, az erősítője viszont igen.

Caveat Lector

Fontos, hogy az ilyen tanulmányokat vagy "szakértői kommentárokat" ne emeljük ki a kontextusukból vagy önérdekelt forrásokból. Az eredményeket illetően nem mindegyik tanulmány ért mindenben egyet (néhányuk pedig nagyrészt eltérő véleményen van), tehát könnyű olyan kisebbségi véleményeket találni amelyek látszólag bármilyen elképzelhető következtetést igazolni tudnak. De mindettől függetlenül, a fenti tanulmányok és linkek a kísérleti adatok elég nagy sávját lefedik. Nincsenek olyan ellenőrzött adatok, amelyek kiállták volna az idő próbáját és alapvetően eltérnének ezektől az eredményektől. Ezekkel az eredményekkel csak a fogyasztói és az audiofil rajongói közösségen belül vitatkoznak.

Ha másra ez nem is jó, a Google-n keresztül elérhető kétértelmű, bizonytalan és totálisan érvénytelen kísérleti eredmények nagy száma megmutatja, hogy mennyire bonyolult pontos, objektív tesztet végezni. A kutatók által keresett különbségek kicsik, szigorú statisztikai analízis szükséges hozzá, hogy ki lehessen szúrni azt amikor a tesztalanyok objektíven próbáltak válaszolni, de a tudatalatti döntéseik mégis befolyásolták őket. Amikor vélhetően valami olyat próbálunk "bebizonyítani" ami nem is létezik, a helyzet még bonyolultabb. Egy nullhipotézis bizonyítása hasonló a megállási probléma bizonyításához: teljesíthetetlen feladat. Annyit tehetünk, hogy elég bizonyítékot gyűjtünk hozzá, hogy meggyőző legyen az eredmény.

Mindazonáltal a nullhipotézist megerősítő tanulmányok elég erős bizonyítékok; a nem hallhatóság kísérleti bizonyíthatósága sokkal bonyolultabb, mint annak vitatása. A vizsgálati módszerek és készülékek felderítetlen hibái majdnem mindig hamis pozitív eredményt adnak (azzal hogy véletlenül hallható különbségeket produkálnak), nem pedig hamis negatívakat.

Ha még a profi kutatóknak is ennyire nehéz megfelelően tesztelni apró, elkülönített észlelhető különbségeket, akkor el lehet képzelni, hogy milyen nehéz ezt amatőröknek megtenni.

Hogyan lehet (véletlenül) elrontani egy hallgatási tesztet

A leggyakoribb megjegyzés amit a szuper nagyfelbontású audio hívőktől szoktam kapni, hogy (nagyjából): "Én magam is hallgatok nagyfelbontású audiót és a javulás egyértelmű. Komolyan azt akarod nekem mondani, hogy nem bízhatok meg a fülemben?"

Természetesen megbízhatsz a füledben. Az agy az amit be lehet csapni. Ezt nem nagyképűségből mondom, mind emberek vagyunk és mind így működünk.

A megerősítési torzítás, a placebo effektus és a kettős vakteszt

Bármely tesztben ahol a hallgató a hallás észlelésen kívül álló okok miatt meg tud különböztetni két választási lehetőséget az eredmények általában azok lesznek amiket a hallgató előre elvár. Ezt megerősítési torzításnak hívják és hasonló a placebo effektushoz. Ez azt jelenti, hogy az emberek azért fognak különbséget "hallani" mert tudat alatt előnyben részesítenek valami olyat aminek semmi köze nincs a hanghoz. Jobban kedvelnek például egy sokkal drágább (vagy vonzóbb) erősítőt mint egy olcsót.

Az emberi agy arra van tervezve, hogy még ott is mintákat és különbségeket véljen felfedezni ahol nincsenek is ilyenek. Ez a hajlam nemcsak hogy nem kapcsolható ki amikor valakit megkérnek, hogy objektív döntést hozzon, hanem ráadásul még teljesen tudatalatti is. A szkepticizmus sem győzheti le az elfogultságot. A szabályozott kísérletek azt mutatják, hogy ha tudatában vagyunk a megerősítési torzításnak, az még inkább csak növeli, nem pedig csökkenti a hatását! Egy olyan teszt ami nem küszöböli ki elég körültekintően a megerősítési torzítást, értéktelen [18].

Egyszeres vaktesztben a hallgató semmit nem tud előre a teszt választási lehetőségeiről és semmiféle visszajelzést nem kap a teszt folyamán. Az egyszeres vakteszt jobb mint az alkalmi összehasonlítás, de nem nem küszöböli ki a kísérletező torzítását. A teszt vezetője még akaratlanul is könnyen befolyásolni tudja a tesztet vagy át tudja adni az ő tudatalatti részrehajlását a hallgatónak önkéntelen jelekben (például: "Biztos abban, hogy mit hallott?", rossz válaszra utaló testbeszéd, véletlen habozás, stb.) A kísérletező részrehajlása, torzítása, vagyis az, hogy befolyással van a tesztelő eredményére egyébként szintén kísérletileg bizonyított.

A kettős vakteszt az igazi; ezekben a tesztekben sem a teszt vezetőjének sem pedig a tesztelőnek nincs semmiféle tudása a teszt tartalmáról vagy a folyamatban lévő eredményekről. Legnevezetesebbek a számítógép-vezérelte ABX tesztek. Vannak ingyenesen elérhető eszközök is arra, hogy mindenki a saját számítógépén végezhessen ABX teszteket [19]. Az ABX a minimális követelménye annak, hogy egy hallgatási tesztet sikeresnek nyilvánítsunk; a jó hírű audio fórumok, mint a Hydrogen Audio gyakran még a hallgatási tesztek eredményének tárgyalását sem engedik meg, ha azok nem rendelkeznek ezzel a minimális objektivitási kritériummal [20].

kep10

Egyszerű, parancssori ABX eszköz: egy xterm-ben futó Squishyball

Én személy szerint semmiféle minőségi összehasonlító tesztet nem végzek fejlesztés közben ABX eszköz nélkül, mindegy milyen lényegtelen dologról legyen szó. A tudomány tudomány, nem lazaság.

Hangossági trükkök

Az emberi hallás nagyjából 1 dB amplitúdó különbséget képes tudatosan megkülönböztetni és a kutatások kimutatták, hogy tudat alatt 0,2 dB különbséget is képesek vagyunk észlelni. Az emberek majdnem általánosan jobbnak hallják a hangosabb audiót és 0,2 dB különbség már elegendő, hogy befolyásoljuk ezt az irányultságot. Bármely olyan összehasonlítás, ami nem tudja gondosan azonos amplitúdóra beállítani a lehetőségeket, azt fogja kimutatni, hogy a hallgatók a hangosabb lehetőséget választják még akkor is ha az amplitúdókülönbség túl kicsi hozzá, hogy tudatosan észlelhető legyen. A hifi kereskedők már régóta ismerik ezt a trükköt.

A profi tesztelő szabvány szerint a forrásokat 0,1 dB vagy kisebb különbségre kell beállítani. Ez pedig gyakran oszcilloszkóp vagy jel-elemző használatát igényli. Az nem elegendő, hogy megbecsüljük a pontos beállítást azzal, hogy addig forgatjuk a hangerőszabályzót, amíg a két forrás nagyjából ugyanaz nem lesz.

Túlvezérlés (clipping)

A túlvezérlés egy másik könnyen elkövethető hiba, ami néha csak visszatekintve egyértelmű. Még néhány túlvezérelt mintát vagy utóhatásukat is könnyű meghallani, ha egy túlvezérlés nélküli jelhez hasonlítjuk.

A túlvezérlés veszélye különösen veszedelmes olyan tesztekben, amelyek létrehoznak, újra-mintavételeznek vagy más módon manipulálnak digitális jeleket menet közben. Tegyük fel, hogy össze akarjuk hasonlítani a 48 kHz-es mintavételezés hanghűségét egy 192 kHz-es forrásmintához. Ennek szokványos módja, hogy leskálázzuk 192 kHz-ről 48 kHz-re, majd visszaskálázzuk 192 kHz-re, aztán összehasonlítjuk egy ABX tesztben az eredeti 192 kHz-es mintával [21]. Ez az elrendezés lehetővé teszi, hogy kiszűrjük az eszközök eltérésének vagy a minta közötti átkapcsolásnak bármiféle hatását az eredményekre; ugyanazt a DAC-ot tudjuk használni mindkét minta lejátszására bármiféle hardveres mód változtatás nélkül.

Sajnos a legtöbb mintát úgy masterelték, hogy a teljes digitális tartományt használják. A naív újramintavételezés gyakran alkalmankénti túlvezérlést fog okozni. Ezért szükség van rá, hogy vagy ellenőrizzük a túlvezérlést (és ne használjunk túlvezérelt mintát) vagy valamilyen más módon kerüljük el a túlvezérlést (például csillapítás).

Eltérő média, eltérő master

Belefutottam már néhány cikkbe és blogbejegyzésbe, amelyek a 24 bit vagy a 96/192 kHz előnyeit úgy bizonygatták, hogy "ugyanannak" a felvételnek a CD kiadását hasonlítottak audio DVD-hez (vagy SACD-hez). Az ilyen összehasonlítás érvénytelen mert a gyártáshoz felhasznált masterek általában eltérőek.

Véletlen jelek

Véletlenül felbukkanó és hallható jelek majdnem elkerülhetetlenek régi analóg vagy hibrid digitális/analóg tesztelési környezetben. A tisztán digitális környezet teljesen kiküszöböli a problémát néhány tesztelési esetben, de ugyanakkor megnöveli az összetett szoftveres hibák előfordulásának valószínűségét. Az ilyen korlátozások és hibák tesztelésben okozott hamis pozitív eredményeinek hosszú története van [22].

A digitális kihívás - Még egy szó az A/B/X tesztekről egy érdekes történetet mutat be: egy 1984-ben elvégzett konkrét hallgatási tesztről számol be, ami megcáfolta a korabeli audiofil pápákat akik azt állították, hogy a CD-k eredendően gyengébbek a hanglemezekhez képest. A cikk nem is foglalkozik sokat a teszt eredményeivel (amit gyanítom bárki kitalálhat), hanem inkább a folyamatokkal és a való világ rendetlenségével foglalkozik, amik befolyásolták a teszt lefolytatását. Például a tesztelők részéről elkövetett egyik hiba akaratlanul kiderítette, hogy egy meghívott audiofil mester nem a hanghűség alapján dönt, hanem inkább az ABX kapcsoló analóg reléi által okozott kissé eltérő kattanásokat figyeli!

Az anekdoták nem helyettesítik az adatokat, de ez a történet jól megmutatja, hogy apróságok hogyan befolyásolják a hallgatási teszteket. Az audiofilek néhány hittétele, amelyekről beszéltük, emelett persze nagyon szórakoztatóak, remélhetőleg néhány modern példát ugyanilyen viccesnek fognak tartani 20 év múlva.

Végül pedig jó hírek

Mi javítja akkor ténylegesen a hallgatott digitális audio hangminőségét?

Jobb fejhallgató

A legegyszerűbb javítás nem is digitális. A pénzünkért legdrámaibb lehetséges hanghűség javítást egy jó fejhallgatótól várhatjuk. Fület betakaró, fülbe dugott, nyitott vagy zárt, nem sokat számít. Még nem is kell hogy drága legyen, bár a drága fejhallgatók megérhetik a pénzüket.

Tartsuk észben, hogy néhány fejhallgató azért drága, mert precízen legyártott, tartós és jól szól. Mások azért drágák, mert van bennük egy 20 dolláros fejhallgató többszáz dollárnyi réteg dizájn, márkanév és marketing alatt. Én itt nem adok konkrét javaslatot, de szerintem nem nagyon lehet találni jó fejhallgatót nagy hipermarketekben még akkor sem ha azok elektronikára és zenére specializálódtak. Akárcsak a fogyasztói hifi többi területén, mindenkinek magának kell a saját kutatását megcsinálnia (és mindenkit óvatosságra intek).

Veszteségmentes formátumok

Való igaz, hogy egy jól kódolt Ogg fájl (vagy MP3 vagy AAC) mérsékelt bitrátánál megkülönböztethetetlen lesz az eredetitől.

De mi a helyzet a rosszul kódolt fájlokkal?

Húsz évvel ezelőtt a mai normáink szerint valóban gyenge volt az összes MP3 encoder. Ezeknek a régi, rossz encoder-eknek a nagy részét még mindig használják, feltehetőleg azért, mert a licencek olcsóbbak és a legtöbb ember nem tud különbséget tenni a jó és a rossz végeredmény között (vagy nem is érdekli). Miért fizetne bármely cég azért hogy megjavítsanak valamit, aminek a hibájáról senki se tud?

Az újabb formátumokra váltás, mint a Vorbis vagy az AAC nem fog feltétlenül segíteni. Sok cég és sok egyéni felhasználó használt (és még mindig használja) például az FFmpeg nagyon alacsony minőségű beépített Vorbis encoder-jét. Mégpedig azért, mert ez volt az alapértelmezett az FFmpeg-ben és nem is tudják, hogy milyen gyenge. Az AAC-nek még hosszabb történelme van a széles körben alkalmazott, rossz minőségú encoder-ek között, ilyenen minden széles körben elterjedt veszteséges formátum keresztülment.

A veszteségmentes formátumok, mint a FLAC esetén nincs meg a veszély, hogy a végeredményt elrontják valami gyenge veszteséges [23] vagy pedig valami jó de helytelenül használt encoder-rel.

Második ok a veszteségmentes formátumokban való terjesztésre, hogy így elkerülhetők a generációs veszteségek. Minden újraenkódolással vagy transzkódolással egyre több adatot vesztünk; még ha a legelső nem is vehető észre, nagy a valószínűsége, hogy a másodiknak már hallható eredményei lesznek. Ez mindenkinek számít, aki remixelni szeretne vagy pedig mintákat akar venni a letöltésekből. És különösen sokat számít nekünk, kodek kutatóknak; nekünk tiszta audiora van szükségünk a munkánkhoz.

Jobb master-ek

A korábban linkelt BAS teszt mellékesen megemlíti hogy egy felvétel SACD verziója lényegesen jobban szólhat, mint a CD kiadás. Ez nem az SACD megnövelt mintavételezési frekvenciája vagy felbontási mélysége miatt van, hanem azért, mert az SACD jobb minőségű mastert használ. Ha ezt egy CD-R-re kimásoljuk, az SACD verzió továbbra is olyan jól fog szólni, mint az eredeti SACD és jobban, mint a CD kiadás. Mégpedig azért, mert az SACD-hez használt forrásanyag is jobb volt. A jó gyártás és mastering egyértelműen hozzájárul a hangzás végleges minőségéhez [24].

Biztatónak tűnnek a mostanában megjelent "Mastered for iTunes" és hasonló iparági kezdeményezések más cégektől. De meg kell vizsgálni, hogy az Apple és a többiek végül valóban beváltják-e az ígéretüket vagy pedig ez csak egy csali, hogy eladjanak a fogyasztóknak még egy, sokkal drágább másolatot abból a zenéből ami már amúgy is megvan nekik.

Térhatás

Egy másik csali, amibe én is lelkesen bevásároltam magamat, a térhatású felvételek kérdésköre. Sajnos itt van néhány technikai veszély.

A régi, diszkrét térhatású, sok csatornát használó (5.1, 7.1, stb.) hangzás a 60-as évek mozijaiból ittmaradt technikai emlék. Nem hatékony és több csatornát használ, mint a velük versengő rendszerek. A térhatású hangkép korlátozott és hajlamos rá, hogy összeesik a közeli hangszórók felé amikor a hallgató leül vagy kiemelkedik a pozíciójából.

Az olyan rendszerekkel mint az Ambisonic kiváló és robosztus lokalizációt lehet kódolni és prezetálni. Ezekkel viszont az a probléma, hogy költségesek a reprodukciós rendszerek és ha valamit természetes hangtérhez enkódoltak, rosszul fog hangzani amikor sztereóra mixelik. Ráadásul ezt nem is lehet igazán meggyőzően mesterségesen utólag megcsinálni. Nehéz ugyanis utánozni az ambisonic-ot vagy a térhatású audiót, mert hasonló lesz a 3D videóhoz, ami valahogy mindig művi lesz és jó eséllyel rosszullétet okoz majd az emberek 5%-ánál.

A binaurális audió [műfejes felvételek - A ford.] hasonlóan bonyolult. Nem lehet tökéletesen szimulálni mert minden ember esetén egy picit eltérően működik. A térhallásunk tanult képesség, ráadásul a saját fülcimpánkhoz, fülkagylónkhoz és agyi feldolgozásunkhoz fejlődött ki és nincs két ember akinél ez pont ugyanúgy nézne ki. Az emberek emellett ösztönösen elfordítják a fejüket, hogy növeljék a helymeghatározást és nem tudnak jól helymeghatározni ha ezt nem teszik meg. Ez pedig olyan dolog amit nem lehet tökéletesen leképezni egy binaurális felvételen, bár rögzített térhatású rendszereknél meg lehet csinálni egy bizonyos mértékig.

Ezek nem kikerülhető technikai akadályok. De a diszkrét térhatású hang a piacon már bizonyított és engem különösen izgatnak az Ambisonic által kínált lehetőségek.

Outro

"Sosem érdekelt igazán a zene.

Ez high fidelity!"

- Flanders & Swann, A Song of Reproduction

A lényeg a zene élvezete, nem? A modern lejátszási hanghűség valahogy megfoghatatlanul jobb, mint a már egyébként is kiváló analóg rendszerek voltak egy generációval ezelőtt. Lehet, hogy ez az egész kérdéskör csak úri huncutság? Lehet, de a rossz mixelés és enkódolás engem zavar, megzavarnak a zeneélvezetben és valószínűleg nem vagyok ezzel egyedül.

Miért nem fogadom el a 24/192-t? Mert nem létező problémára ad megoldást. Ez egy üzleti modell ami akaratos tudatlanságon és szélhámosságon alapul. Minél nagyobb arányban terjed a világban akadálytalanul az ellenőrizetlen áltudomány, annál nehezebb az igazságnak leküzdeni a hamisságot... még ha ez csak egy kicsi és aránylag jelentéktelen példa is.

"Számomra sokkal jobb, ha megragadom az univerzumot a maga valójában mintha megmaradok az illúzióimban, még ha az kielégítő és megnyugtató is."

- Carl Sagan

További olvasnivaló

Az olvasók két kiváló tanulmányt ajánlottak, ezekről én nem is tudtam mielőtt elkezdtem ezt a cikket. Sok esetben pont ugyanazokat a tényeket tárgyalják amiket én is, csak részletesebben.

Stephane Pigeon létrehozta az audiocheck.net oldalt, ami lehetőséget biztosít böngésző alapú hallgatási tesztekre. A tesztek mennyisége nem túl nagy, de néhányuk közvetlenül kapcsolódik ehhez a cikkhez. Jól használhatóak és a minőségük szerintem egész jó.

Lábjegyzetek

1. Ahogy egy frusztrált kommentelő írta: "[a mintavételezési tételt] nem azért találták ki, hogy megmagyarázza a Digitális Audio működését, ez fordítva van. A Digitális Audiót a tételből találták fel, ha nem hiszel a tételben akkor nem hihetsz a digitális audióban sem!!"

http://www.head-fi.org/t/415361/24bit-vs-16bit-the-myth-exploded

2. Bár talán nem ez volt a legunalmasabb, bulikon bevethető trükk, nem állt messze tőle.

3. Jellemzőbb a látható fény esetén nanométerekben vagy angströmben mért hullámhosszokban beszélni. Azért használom itt a frekvenciát, hogy összhangban legyen a hanggal. Ezek egyenértékűek, mivel a frekvencia csak a hullámhossz inverze.

4. A LED kísérlet nem működik az "ultraibolya" (UV) LED-ekkel, főleg azért mert azok valójában nem ultraibolyák. Eléggé mély lilák, hogy csak egy kis fluoreszcenciát okozzanak, de még mindig egész jól benne vannak a látható tartományban. A valódi ultraibolya LED-ek darabonként nagyjából 100-1000 dollár közötti összegbe kerülnek és látáskárosodást okoznának egy ilyen tesztben. A fogyasztói "nem igazán UV" LED-ek pedig kibocsátanak halvány fehér fényt is, hogy fényesebbnek látsszanak, ezért esetleg még akkor is láthatóak, ha a kibocsátási csúcs valóban az ultraibolya tartományban volt.

5. Ennek a cikknek az eredeti változatában az állt, hogy az IR LED-ek 300-325 THz-es tartománytól működnek (nagyjából 920-980 nm) olyan hullámhosszokon ami láthatatlan. Elég sok olvasó beszámolt róla, hogy halványan látja a LED-ek fényét néhány (vagy mindegyik) távirányítóján. Többen kedvesen el is küldték, hogy ezek milyen fajta távirányítók voltak és néhányukat le tudtam tesztelni egy spektrométeren. Mint kiderült, ezek magasabb frekvenciás LED-eket használtak, amelyek 350-380 THz-től (800-850nm) dolgoznak, ez pont átfedésben van a látható tartomány leges-legszélével.

6. Sok rendszer ami nem tudja lejátszani a 96 kHz-es mintákat, csendben lekonvertálja azokat 48 kHz-re ahelyett, hogy megtagadná a fájl lejátszását. Ebben az esetben a kérdéses hangok egyáltalán nem lesznek lejátszva és a visszajátszás csöndes lesz függetlenül attól, hogy a rendszer mennyire nemlineáris.

7. A túlmintavételezés nem az egyetlen alkalmazása a nagy mintavételezési frekvenciáknak a jelfeldolgozásban. Van néhány elméleti előnye a sávkorlátozott audió előállításának nagy mintavételezési frekvencián ami kihagyja a decimálást, még akkor is ha az anyag a terjesztéshez majd le lesz skálázva. Nem világos, hogy használnak-e ilyet a gyakorlatban, mert a legtöbb professzionális keverőpult működése üzleti titok.

8. Történelmi oka van vagy sem, nem kérdés, hogy manapság nagyon sok professzionális felhasználó nagy mintavételezési frekvenciát használ, mert akárcsak a vásárlók, hibásan feltételezik, hogy ha 20 kHz fölötti tartalmakat meghagynak, akkor az majd jobban fog szólni.

9. Hangos zene kikapcsolása után a dobhártyák ellazulás érzése ezért tényleg valóságos!

10. Nagyon szép diagramok találhatók a HyperPhysics oldalon:

http://hyperphysics.phy-astr.gsu.edu/hbase/sound/protect.html#c1

11. Hallásvizsgálatnál közkeletűen a 20 µPa hangnyomást tekintik 0 dB-nek; ez nagyjából megfelel az 1 kHz-nél mért hallásküszöbnek. A fül ugyanakkor 2 és 4 kHz között ennél 8 dB-el érzékenyebb.

12. Az általam olvasottak közül az alábbi tanulmány mutatja be legjobban a dither fogalmát. Bár alapvetően a képi dithereléséről szól, az első fele a hangtechnikában használatos dither elméletével és gyakorlatával foglalkozik, ezután terjeszti ki az elméletet a képfeldolgozásra [a tanulmány elég sok tömény matematikát tartalmaz - A ford.]

Cameron Nicklaus Christou: Optimal Dither and Noise Shaping in Image Processing

13. A DSP mérnökök rámutathatnának (ahogy egyik magát nagyon okosnak tartó honfitársam meg is tette), hogy a 16 bites audiónak elméletileg végtelen dinamikatartománya van tiszta hangok esetén, ha végtelen Fourier transzformációval tudjuk feldolgozni; ez a működési megoldás nagyon fontos a rádiócsillagászatban.

Bár a fül működése nem teljesen ellentétes a Fourier transzformációval, a felbontása relatíve alacsony. Ez korlátozza a 16 bites audio jelek maximális gyakorlati dinamikáját.

14. A modern folyamatokban egyébként már egyre inkább 32 bites lebegőpontos ábrázolást használnak, egyrészt mert ez nagyon kényelmes a modern processzoroknál, másrészt pedig mert teljesen megszünteti a véletlen túlvezérlés lehtőségét minden olyan helyen ami nem felderíthető és tönkretenné a keverést.

15. Sok olvasó szerette volna tudni, hogyan okozhatnak az ultrahangok hallható intermodulációs torzítást, mivel a Meyer és Moran 2007-es teszt zéró eredményt hozott volna.

Egyértelműnek kellene lennie, hogy a "tud" és "néha" nem ugyanaz mint a "fog" és a "mindig". A bármely rendszeren bármely műsorral ultrahangokból eredő intermodulációs torzítás egy lehetőség, nem pedig bizonyosság. A Meyer és Moral zéró eredmény azt mutatja, hogy az intermodulációs torzítás nem volt hallható az ő tesztelésük során használt rendszereken.

Az olvasók nyugodtan kipróbálhatják a fenti egyszerű ultrahangos intermodulációs torzítási tesztet a saját rendszerük intermodulációs potenciáljának gyors ellenőrzéséhez.

16. Karou és Shogo: Detection of Threshold for tones above 22kHz (2001). 5401-es egyezményes dokumentum; bemutatva: 110. Kongresszus, 2001. május 12-15, Amszterdam.

17. Griesinger: A hangsugárzók középfrekvenciás és nagyfrekvenciás intermodulációs torzításának észlelése, valamint a nagyfelbontású audióhoz való viszonya

18. A megjelenés óta többen megírták ennek az anekdotának valamely változatát (nagyjából): "Egyszer hallgattam valamilyen fejhallgatót/erősítőt/felvételt és az A eredményt vártam, de teljes meglepetésemre B lett az eredmény! Tehát a megerősítési torzítás hülyeség!"

Két gondolat ezzel kapcsolatban.

Először is a megerősítési torzítás nem úgy működik, hogy az összes helyes eredményt helytelenre cseréli. Az eredményeket ismeretlen mértékben valamilyen ellenőrizetlen irányba tolja el. Hogyan tudod biztosan azt mondani, hogy a teszt rosszul vagy jól sikerült, amikor a tesztet a saját tudatalattid befolyásolja? Mondjuk azt várod, hogy valami nagy különbséget fogsz hallani, de nagy meglepetésre csak kis különbséget hallasz. Mi van ha valójában egyáltalán nincs is semmi különbség? Vagy talán volt különbség és mivel tudatában voltál a lehetséges megerősítési torzításnak, a jószándékú szkepticizmusod túlkompenzált? Vagy talán mégiscsak teljesen igazad volt? Az objektív tesztelés, mint az ABX kiküszöböli mindezt a bizonytalanságot.

Másodszor: "tehát azt mondod, hogy nem vagy még véletlenül sem részrehajló? Remek! Bizonyítsd be!" Az objektív teszt értéke nem csak abban rejlik, hogy képes a saját megértésünket szolgálni, hanem abban is, hogy másokat is meggyőz. Az állításokhoz bizonyítások kellenek. A rendkívüli állítások rendkívüli bizonyítékot igényelnek.

19. ABX tesztelésre legegyszerűbb eszközök például:

20. A Hydrogen Audio-nál az objektív tesztelési követelmény rövidítése TOS8, mivel ez a használati feltételek (Terms Of Service) 8. pontja.

21. Általános vélekedés, hogy az újramintavételezés (resampling) helyrehozhatatlanul károsítja a jelet; de ez nem így van. Hacsak nem vétünk valami egyértelmű hibát, mint például túlvezéreljük a mintát, a downsampled és aztán upsampled jel hallás után megkülönböztethetetlen lesz az eredetitől. Ez az általános tesztelési módja annak, hogy megmutassuk, a magasabb mintavételezési ráta szükségtelen.

22. Ez talán nem szigorúan véve audióval kapcsolatos, de... fénysebességnél gyorsabb neutrínók, valaki?

23. A Wired magazin tudósítja, hogy a veszteségmentes formátumok, mint a FLAC nem mindig veszteségmentesek:

"Néhány tradicionalista azt mondja, hogy dobjuk ki teljesen a FLAC-okat és csak WAV-ot vásároljunk. [...] Azzal hogy WAV-ot vásárolunk, elkerülhetjük a potenciális adatveszteséget ami akkor történik amikor a fájlt FLAC-cá tömörítik. Ez az adatvesztés ritka, de megtörténik."

Ez hamis. A vesteségmentes tömörítés sosem módosítja semmilyen mértékben sem az eredeti jelet és a FLAC sem kivétel.

Abban az esetben, amire a Wired is hivatkozik, mint az adatfájlok hardveres sérülése (lemezhiba, memóriahiba, napkitörések), a FLAC és a WAV egyaránt érintett lenne. Egy FLAC fájl mindazonáltal hibajavító ellenőrző kóddal (checksum) van ellátva és így észre lehet venni a hibát. A FLAC fájl emellett kisebb mint a WAV, így egy véletlenszerű sérülés kevésbé valószínű, mert kevesebb adatot érint.

24. Az iparban manapság uralkodó rossz mastering gyakorlat leggyakrabban idézett példája a hangerőháború (loudness war), bár nem ez az egyetlen. A hangosság (loudness) régebbi jelenség annál, mint ahogyan a Wikipédia cikk elhiteti az olvasóval (illetve rávezeti az olvasót, hogy így gondolja); a producerek és a művészek már az 50-es években is erőltették a lehető leghangosabb felvételeket. A készülékgyártók folyamatosan kutatták és dobták piacra az új technológiákat, hogy lehetővé tegyék az egyre hatásosabb mastereket. A 70-es, 80-as években a modern LP mastering eszközök is lehetővé tették, hogy nagyobb amplitúdóval vágják a hanglemezeket, mint amit a normál gyártás korábban lehetővé tett.

A mai digitális technológiával pedig már abszurd szintre lehet vinni a hangerőháborút. A technológia mára ráadásul egy csomó automata, nagyon összetett szabadalmaztatott DAW plugint is behozott, és ezeket széleskörűen alkalmazzák is anélkül, hogy alaposan megértenék, hogyan dolgoznak és mit is csinálnak.