A digitális audió rejtelmei 2 -A hertzek

Folytassuk a digitális audió rejtelmeiről szóló sorozatot ott, ahol az előző részben befejeztük. Tételezzük fel, hogy az ott megismert digitalizáló (AD) és a visszajátszó (DA) konvertert nem azonos időben és nem azonos helyen használjuk, és nem is azonos gyártótól származnak. Tulajdonképpen ez lenne a hangrögzítés értelme, hogy ne csak az eredeti helyen és időben hallhassuk a hangot. Bekapcsoljuk tehát a DA eszközünket, csatlakoztatjuk hozzá a memóriát, és elindítjuk a lejátszást... és csodálkozunk, mert amit hallunk, annak semmi köze az eredeti hanghoz. Ennek persze több oka is lehet, de most elsőként foglalkozzunk a mintavételek között eltelt idővel!


Mintavételezési frekvencia
Ha a mintavételkor használt egyes időpillanatok nem pontosan ugyanúgy helyezkednek el egymáshoz képest a lejátszáskor mint a digitalizáláskor (nem ugyanannyi idő telik el közöttük), akkor könnyen belátható, hogy más hullámformát kapunk, ami egyben egy teljesen más hangot is eredményez. Egyértelmű tehát, hogy a mintavételezés időpontjainak állandósága és annak pontos ismerete elengedhetetlen ahhoz, hogy a hangot ne csak digitalizálni, hanem az eredetivel megegyezően visszajátszani is tudjuk.

Erről az előző részben már megismert órajel generátor (angolul clock, rövidítve CLK) gondoskodik, amit egyaránt rá kell kapcsolni az AD és a DA konverterre is (a megfelelő bemenetükre). Ez előre meghatározott időközönként küld egy jelet a konverternek, hogy most kell mintát venni, vagy hogy most kell a memóriából kiolvasott feszültségértéket előállítani. A dolog nehézsége az, hogy a világ összes ilyen órájának teljesen egyformán kéne járnia ahhoz, hogy a mintavételi időpontok között mindig pontosan ugyanannyi idő teljen el, ez pedig gyakorlatilag lehetetlen.

Tipp:
Ha 44,1 kHz-es mintavételezést alkalmazunk, akkor a minták között eltelt időnek pontosan 0.000022675736961451... (végtelen tizedes tört!) ezredmásodpercnek kell lennie. Ha ez néha 0.00002266, néha pedig 0.00002267, akkor a mintavételek között már nem azonos idő telik el! A különbség persze nem nagy, de látható, hogy elméletileg milyen pontosságra lenne szükség.

Ha a mintavételek között nem mindig ugyanannyi idő telik el, akkor semmi sem garantálja, hogy a felvett és visszajátszott hullámforma (hang) ugyanaz lesz. Ha az AD és DA átalakító ugyanabban az egységben, pl. hangkártyában vagy konverter chipben kerül elhelyezésre, akkor a helyzet annyiból jobb, hogy nagy valószínűség szerint nem két külön óra, hanem egyetlen közösen használt adja a megszakításokat. Bár ezzel a megoldással erősen csökkenthetőek a digitalizálás és visszajátszás közötti eltérések, maga az óra így sem lesz pontos. A mellékelt ábrán -bár a digitalizálás maga tökéletesen időzítve történt meg-, a visszajátszáskor a mintavételi időpontok között nem azonos idő telik el. Ezt szakszóval jitter-nek, vagy remegésnek nevezzük. Jól látható, hogy milyen hatást eredményez (a grafikai megjelenítés csak illusztráció, nem egyezik a valóságban létrejövő hanghullámmal!). Az ilyen jellegű hullámforma torzulások felharmonikusok generálódását is jelenti, amiről részletesen olvashatunk a torzításokról szóló részben.

Ez a probléma persze nem csak lejátszáskor, hanem felvételkor is  jelentkezik, de pont ellentétes "irányban". Bár ebben az esetben a digitalizáció tökéletes lesz, semmi sem garantálja, hogy visszajátszáskor pont ugyanazok az időzítési hibák és pont ugyanakkor fognak előfordulni, mint a digitalizáláskor. Hiába tökéletes a lejátszó időzítése, ha a rögzítő által megállapított feszültségértékek pontos időpontját nem ismerjük, ezáltal a digitalizált adat lejátszása minden (egyébként pontos) eszközön pontatlanná válik. Mondhatjuk úgy is, hogy az eredeti hang előállításához a pontos időzítés lejátszáskor is fontos, azonban sokkal fontosabb felvételkor, vagyis digitalizáláskor, mert ebben az esetben a hibák beleíródnak a digitális adatba. A helyzetet tovább súlyosbítja, hogy jitter hibák egyszerre keletkeznek felvételkor és lejátszáskor is, vagyis a probléma valójában a duplájára nő. Legalábbis elméletileg, ugyanis a mai modern konverterekben ilyen hibát már nem tapasztalhatunk jelentős mértékben, köszönhetően a beépített jitter csökkentő rendszereknek.

Jó ha tudjuk, hogy a jitter hibák nem a lejátszás sebességét, vagyis a tempót változtatják meg, mert a mintavételezési időpontok között eltelt időpillanatok olyan rövidek, hogy a tempóra gyakorlatilag semmilyen hatással nincsenek. Annál nagyobb hatással vannak viszont a létrejövő hullámformára, ami viszont torzításokat eredményez. Ha az időzítés eltérések periódikusan változnak, akkor felharmonikusok, inharmonikusok, vagy akár frekvencia torzulások is létrejönnek, sőt extrém esetben akár a hang pillanatnyi megszűnéséhez is vezethet. A helyzet azonban nem ennyire reménytelen, ugyanis az időzítés általában véletlenszerűen tér el az ideálistól, így a jitter hibák is véletlenszerű képet mutatnak. A véletlen értékeket pedig mint már tudjuk, zajnak nevezzük. A jitter tehát jó esetben csak zajt ad a hasznos jelhez. Mivel a magasabb frekvenciájú jelek gyorsabban változnak mint az alacsonyak, a kis időzítéseltérések nagyobb amplitúdóeltérést eredményeznek a magasabb frekvenciájú jeleknél, mint az alacsonyabbaknál. Ezért a jiitter által eredményezett zaj alapvetően egy sziszegő, sistergő hangra hasonlít, amit akár füllel is hallhatunk, de mivel az ilyen jellegű zajokat már megszoktuk, sokszor észre sem vesszük.

A lejátszott hang frekvenciája kétszer annyi, mint a rögzített hangé.
Mint láthattuk, a mintavételi időpontok egymáshoz viszonyított helyzete, vagyis a köztük eltelt idő állandósága alapvetően fontos a megfelelő visszajátszáshoz és digitalizáláshoz. Azonban honnan tudhatjuk meg, hogy ez mennyi volt? Mennyi idő telt el két mintavétel között? Mert hiába helyezkednek el a mintavételi pontok egymáshoz képest azonos távolságra (időközönként), ha ezek az időközök eltérőek digitalizáláskor és visszajátszáskor. Ebben az esetben a visszajátszott hang frekvenciája nem lesz egyenlő a rögzített hang frekvenciájával. Ezt láthatjuk a mellékelt ábrán. Ez a probléma azonban nem csak ebben a formában jelentkezhet, hanem úgy is, ha a minták között eltelt idő nem véletlenszerűen ugyan, de folyamatosan változik. Ebben az esetben a magnószalagokhoz hasonló nyávogó hangzást kapunk. Ez persze sokkal kevésbé torzítja el a hullámformát mint a jitter, és ezért sokkal kevésbé is zavaró, de ettől még hibának minősül.

Hogy az egyes ADC és DAC rendszerek kompatibilisek legyenek egymással, szabványosítani kellett a mintavételezési időpontokat, máskülönben a felvétel és a lejátszás nem adna megegyező, azonos hangot, főként, ha más gyártó eszközét használjuk. A mintavételezések között eltelt időt az SI szerinti szabványos időhöz, vagyis a másodperchez igazították, és azt adták meg, hogy egy másodperc alatt hány mintavétel történik. A másodpercenkénti periódusok számát frekvenciának is hívjuk, ezért a paraméter neve Mintavételezési frekvencia lett (angolul sample rate, mintavételezési ráta). Már tudjuk azt is, hogy a frekvenciát Hz (hertz)-ben mérik, ezért a mintavételezési frekvencia mértékegysége is Hz.


Láthatjuk tehát, hogy a mintavételezési frekvencia pontos értéke, és annak állandósága rendkívül fontos ahhoz, hogy a digitálisan rögzített és visszajátszott hang azonos maradjon (szinkronban legyen). Ezért nagyon fontos, hogy az AD és DA konverterek milyen órajel-szerkezettől kapják a megszakításokat.

Cézium-133 atomóra chip
A ma ismert legpontosabb órák az atomórák, és éppen ezért a csúcstechnikát jelentő stúdióberendezések is ezt használják (cézium-133 vagy rubidium-97). Egy ilyen atomóra annyira drága, hogy még a nagy stúdiók is csak 1-1 darabot vesznek belőle, majd ennek jelét osztják meg az egyes digitális eszközök között, például egy úgynevezett WORD CLOCK csatlakozón keresztül. Ezzel persze nem csak takarékoskodnak, de egyben azt is biztosítják, hogy az összes digitális eszköz órajele azonos legyen. Így ha van is eltérés az egyes megszakítások között, az minden eszközben ugyanannyi lesz, így a létrejövő hiba is jelentősen csökken. Érdekes módon azonban egyes eszközök jobb hangminőséget (kevesebb torzítást) állítanak elő, ha a saját, beépített órajel generátorukat használják, mintha külső eszközről kapnák ugyanezt.

Tipp:
Ha nem csak egyetlen egy, hanem több digitális audió csatornát is szeretnénk egy időben egyszerre lejátszani, akkor az órajelnek minden egyes csatornán azonosnak kell lennie, különben az egyes csatornák között felborul a szinkron. Ez sztereó (kétcsatornás) rendszerben pl. azt jelenti, hogy a jobb- és baloldal egymáshoz képest elcsúszik, ami pl. a sztereó térinformációk elvesztését, vagy akár a fantomközépről érkező monó jel fáziseltérés miatti károsodását is jelenti. Ha kettőnél több sávról van szó, pl. 8 csatornás akusztikus dobfelvétel, akkor az egyes csatornák közötti időzítési eltérés még nagyobb fázisproblémákhoz vezet. Mindez igaz az egyes digitális eszközök digitális összekötésére is.

Tokozott 16 MHz-es kvarckristály
A legtöbb digitális eszköznek van saját órajel generátora is, így külső WORD CLOCK nélkül is képesek üzemelni. Ezekben általában egyszerűbb piezo-elektromos kvarckristályos megszakítókat találunk, ugyanolyat, mint a számítógépekben, telefonokban, vagy a kvarcórákban. Ezek a kristályok jó esetben egy állandó frekvenciával rezegnek, ami függ az alakjuktól, méretüktől, és a hőmérsékletüktől. Ez utóbbi okból kifolyólag, a jobb konverterekben a kristályt egy állandó hőmérsékleten tartott kapszulába, úgynevezett sütőbe helyezik el. Az így kapott órajel  sajnos nem olyan pontos mint az atomóra esetében, de a legtöbbször ez is elég a megfelelő minőségű hang előállításához (például a hangkártyákban, audió interfészekben, zenelejátszókban, telefonokban). Az biztos, hogy a drágább berendezések a legtöbbször egyben drágább, vagyis pontosabb órajel generátorral is rendelkeznek.

Tipp:
Mivel a legtöbb hangkártya, konverter és szoftver a PCM formátumot használja, így a továbbiakban csak erről lesz szó. Ez a mintavételi frekvenciák esetében az alacsonyabb értékeket jelenti, hiszen a DSD rendszerek akár 5644,8 kHz-es frekvencián is működhetnek.


De mennyi is legyen a mintavételezési frekvencia?
Ezen a ponton a téma kezd eléggé tudományossá és részben filozófiaivá válni, ami bár mindenképpen érdekes, de nem gondolom, hogy egy átlagos otthoni hangmérnöknek feltétlenül szüksége van fejlesztőmérnöki ismeretekre.

Mint már az előző részben volt róla szó, a digitális audió önmagában nem létezik, hiszen a digitális adatokat nem hallhatjuk. Viszont láthatjuk és kiszámolhatjuk őket, hiszen ez maximálisan a matematika területe. És szerintem innen származik a legtöbb félreértés a témával kapcsolatban, ugyanis sok példaként felhozott állítás csak az elméleti szinten, matematikai oldalon áll meg, a gyakorlatban, ahol rengeteg tűréssel és ebből adódó folyamatosan változó eltéréssel találkozunk, a digitális audió hátrányai valahogy nem nagyon akarnak jelentkezni. Az analóg áramkörök hibái és zajai, valamint a normál lehallgatási körülményekben mérhető és tapasztalható zajok, az emberi szervezet érzékelési korlátai, az eszközökre vonatkozó fizikai korlátok mind oda vezetnek, hogy az elméleti számok sokszor mást mutatnak, mint amit a valóságban tapasztalhatunk. Ezt a problémát pedig csak tovább növeli a modern ipar profitorientált hozzáállása, és az átlag (kis tudással rendelkező) vásárlók rendszeres, marketingesek általi megtévesztése. Mondhat bárki bármit, a Shannon-Nyquist tétel működik, 2 minta is elég a tökéletes analóg jel visszaállításához, de ez önmagában semmit sem számít, ha az analóg részegységek és a háttérzaj miatt eleve lehetetlen, hogy a legapróbb részleteket is halljuk, hiába is lennének benne a digitális adatfolyamban, arról nem is beszélve, hogy a legtöbben nem is hallják sem az analóg, sem a digitális audióban emlegetett problémákat. A legjobb válasz persze mindig az, hogy hallgass a füledre. Amit hallasz az van, amit nem, az nincs. Ezzel a hozzáállással azonban több baj is van. Milyen rendszeren hallgatjuk az adott hangot és ki teszi mindezt? Ami biztos, hogy mindig a legjobb minőségre kell törekedni, elsősorban a végeredmény terén, amihez elengedhetetlen, hogy a rendelkezésre álló legjobb eszközöket használjuk. A jobb minőségű (drágább) eszközök tehát inkább azért kellenek, hogy meghalljuk azokat a hibákat is, amiket a végeredményt hallgató emberek mindössze csak 1%-a fog hallani. Bár a legtöbben nem hallják majd, de ezt az 1%-ot sem hagyhatjuk figyelmen kívül, legalábbis, ha az elérhető legjobb minőségre törekszünk. És ez itt a kulcsszó, az elérhető, mert mindennek ára van, és ez alapján tudjuk eldönteni, hogy megéri-e a javulás a befektetett időt és pénzt, vagy sem.

Mintavételezési frekvencia digitalizáláskor
A megoldásban a mintavételezés alapját jelentő Shannon-Nyquist tétel nyújt segítséget, ami kimondja, hogy egy folytonos függvény (pl. analóg jel) tökéletesen visszaállítható mintáiból (diszkrét értékek, más néven digitális), ha a mintavételi frekvencia legalább kétszer akkora, mint a jel sávszélessége, és a sávszélesség korlátozott (vagyis nem végtelen). Mit jelent ez anélkül, hogy mélyen mennénk bele a témába?

A mintavételezési frekvencia több mint kétszer akkora, mint a jel sávszélessége
Itt mindjárt egy olyan problémával állunk szemben, ami bár elméletileg létezik, a valóságban nem hiszem, hogy bárki is találkozott már vele. Az eredeti Shannon-Nyquist tétel úgy szól, hogy a mintavételi frekvencia legalább kétszer akkora, mint a legmagasabb mintavételezni kívánt frekvencia. Ez ugye azt jelenti, hogy lehet pontosan kétszer akkora is. Tekintsük a következő ábra bal oldalát.


Itt a mintavételi frekvencia (fs) pontosan kétszer akkora, mint a digitalizálni kívánt hullám (fh) frekvenciájának kétszerese. Mint látható, a hullám ezen állapotában minden minta 0 értéket fog felvenni, ami azt jelenti, hogy visszajátszáskor nem tudjuk eldönteni, hogy most éppen nincsen jel, vagy a képen látható hullámot kell visszaadni. Vagyis ebben az elméleti esetben nem tudjuk visszaállítani az eredeti hullámformát.

Nézzük, hogy mi történik akkor, ha az eredeti tételt megfelelően értelmezzük (jobb oldali ábra), és a mintavételezni kívánt frekvenciánál egy kicsit magasabb mintavételezési frekvenciát választunk. Mint látható, ebben az esetben nem keletkezik olyan bizonytalanság, ami hibát eredményezhet, a hullámforma a tételnek megfelelően visszaállítható eredeti formájába.

Tegyük hozzá, hogy a fenti példák elméleti, matematikai megközelítést mutatnak! A való világban már ott megbukik az első példában látható hibajelenség, hogy egyrészt nem lehetséges pontosan azonos időközönként mintát venni, másrészt folyamatosan azonos frekvenciájú, tökéletes szinuszhullámot sem tudunk előállítani. Ez a két tökéletlenség szerencsére oda vezet, hogy a valóságban létrejövő hibák (eltérések) miatt már pontosan kétszeres frekvenciával is jó eredménnyel végezhetünk mintavételezést, nem hogy kétszeresnél nagyobbal.

Na de akkor most mennyi is legyen a mintavételi ráta?
A belső fülben található csiga
Mivel a legtöbbször embereknek készítünk hangfelvételeket, maradjunk most az ember által hallható hangnál. De ez vajon milyen frekvenciasávba esik? Hála a boncolásokat végző kíváncsi tudósoknak, ma már ismerjük az emberi fül felépítését, és részben a működését is. Tudjuk, hogy a belső fülben található csigában elhelyezkedő apró szőrszálak hangnyomás által keltett rezgését érzékeli az agy. Érdekes módon, minden egyes hajszál más frekvenciára érzékeny, attól függően, hogy a csigán belül hol helyezkedik el (lásd a melléklet ábrán). Mint látható, néhány frekvencia érzékelésének hozzávetőleges helye is feltüntetésre került. Az alacsony frekvenciák a csiga közepén helyezkednek  el, a magasabbak pedig a vége felé. Ha olyan frekvenciájú hang érkezik a fülbe, amire nincsen egyetlen egy szőrszál sem ráhangolva, akkor azt a frekvenciát egyszerűen nem halljuk. Mint látható, a 15 kHz-es frekvenciára hangolt szőrszálak már eléggé a csiga végében találhatóak, tehát az általánosan elfogadott 20 Hz-20 kHz közötti hallható spektrum nem csak kísérletek, de mechanikai felépítés alapján is jó megközelítésnek tűnik, bár létezik pár ember, aki a mérések alapján 22 kHz-ig is hall. Leszögezhetjük tehát, hogy emberek számára készült hangfelvétel frekvenciasávja célszerűen 20 Hz-22 kHz közé kell hogy essen.

Rendkívül tanulságos, ha megmérjük a saját hallásunk, és saját lehallgatórendszerünk alsó- és felső frekvenciakorlátait (sávszélesség), mert amit nem hallunk, azt nem is tudjuk felfogni! Olyan hanggal pedig, amit nem hallunk, elég nehéz dolgozni. A méréshez nem kell mást tenni, mint létrehozni egy új projektet a DAW-ban, ahol elhelyezünk egy hullámforma generátort. Első körben állítsunk be szinusz hullámot, és 1000 Hz-et. Állítsunk be egy átlagos hangerőt, kb. 74 dBSPL-nek megfelelőt. Szerintem ezt mindenki hallani fogja. Most kezdjük a frekvenciát csökkenteni! Kb 50 Hz-ig maximum a hangerő csökken egy kicsit, viszont ez alatt már egyre halkabbnak fogjuk hallani a hangot. A jobb rendszereken akár 20 Hz-ig lemehetünk, bár szubbasszus sugárzó nélkül itt már rendesen fel kell tekerni az erősítőt, hogy hallható maradjon a hang. Induljunk most a másik irányba, és kezdjük növelni a frekvenciát. Úgy 8000 Hz-ig szintén nem lesznek problémák, ez felett azonban hamarosan elérjük hallásunk felső küszöbértékét. Ez persze életkortól és előélettől is függ, a fiatalabbak és kevesebb halláskárosodást elszenvedők könnyű szerrel eljuthatnak 16 kHz fölé is. Mindenesetre ez jó lecke lehet mindenkinek, hogy mégis mire lehet otthon számítani, főként amikor technikai adatokról, vagy EQ beállításról van szó. Próbáljunk ki több rendszert is, pl. monitor, fejhallgató, fülhallgató, telefon, stb.

Tipp:
A tiszta szinuszhullámmal előállított magas frekvenciákat nehezebben halljuk, mint ha ugyanezt a frekvenciát fehérzajból szűrnénk ki. Minderről részletesebben is olvashatunk a Tudományos masztering című részben!

Mivel a sikeres visszaállításhoz a mintavételi frekvencia legalább kétszer akkora kell hogy legyen, mint a reprodukálni kívánt legmagasabb frekvencia, így a mérnökök 44,1 kHz-et választottak mintavételezéshez, ami már egy kis biztonsági túlméretezést is tartalmaz. Ez lett a CD szabvány, ami persze nem jelenti azt, hogy ne lehetne ettől eltérő mintavételi rátával dolgozni. Ha 44,1 kHz-nél alacsonyabb mintavételt alkalmazunk, akkor a használható sávszélesség csökkentett lesz. Például egy 11 kHz-en mintavételezett hang legmagasabb visszaállítható frekvenciája kb. 5500 Hz. Néhány esetben ez is elégséges, pl. emberi beszédhez, telefonkészülékekben, vagy ha nem áll rendelkezésre elég memória és számítási kapacitás a magasabb mintavétel alkalmazására, pl. régebbi számítógépes játékok. Ha 44,1 kHz-nél magasabb mintavételt használunk, akkor 22 kHz feletti frekvenciákat is tökéletesen vissza tudunk állítani, azonban ezeket hallani nem fogjuk. Cserébe viszont kárt tehetnek az erre nem felkészített eszközökben. Az ilyen célra történő használat tehát erősen megkérdőjelezhető.

Tipp:
Kutatások és kísérletek azt mutatják, hogy az 50-60 kHz feletti PCM mintavételezéskor rögzített extra adatokat az átlagos emberi agy már nem képes feldolgozni. Ennek megfelelően professzionális felhasználásra az AES (Hangmérnökök szövetsége) 48 kHz mintavételt ajánl. A Lavry Engineering szerint 60 kHz lenne a legmegfelelőbb, de mivel ez nem egész számú többszöröse a szabványos 44,1 és 48 kHz-nek, így szerintük érdemesebb 88,2-t, vagy 96-ot használni.

A mintavételezési tételt persze nem csak ebben az irányban használhatjuk, hanem megfordítva is, vagyis a mintavételezési frekvencia egyben meghatározza a legmagasabb visszaállítható frekvenciát is. Ha tehát 10000 Hz-el mintavételezünk, akkor nem állíthatunk elő 5000 Hz-nél magasabb frekvenciákat. Ha mégis szükségünk van ilyenekre, akkor nincsen más megoldás, mint növelni a mintavételi rátát.

A sávszélesség korlátozott
A Shannon-Nyquist tétel másik fontos eleme, hogy a mintavételezett frekvencia sikeres visszaállításához a sávszélességnek korlátozottnak kell lennie. Ez azt jelenti, hogy ahhoz, hogy pontosan vissza tudjuk állítani az eredeti hullámformát, csak olyan jelet szabad digitalizálni, aminek pontosan ismerjük a lehetséges legalacsonyabb és legmagasabb frekvenciáját. Ez ugye elméletileg elég nehézkes dolog lenne, hiszen ki tudja előre megmondani, hogy milyen frekvenciák hangzanak majd el? Éppen ezért a mérnökök úgy döntöttek, hogy a frekvenciasáv felső korlátját a hallható hangok felső korlátjához igazítják, és ami ez felett van, azt figyelmen kívül hagyjuk (hiszen úgysem halhatóak). Így ezen kitételnek is a 22,05 kHz-es frekvenciát tekinthetjük.

Tehát a sikeres visszaadáshoz (hullámforma visszaállításhoz) a mintavételezni kívánt hangot alul- és felüláteresztő szűrők segítségével egy ismert frekvenciatartományon (sávszélességen) belül kell tartanunk. Ha ez nem teljesül, mert például az aluláteresztő szűrő 20kHz-nél magasabb frekvenciákat is átenged, akkor azok a digitalizáláskor nem tűnek el, hanem ugyanúgy megjelennek a digitalizált adatokban, mint a többi frekvencia, viszont eredeti formájukban már nem tudjuk őket visszajátszani. Ezek a frekvenciák lejátszáskor visszatükröződnek a felső frekvenciakorlátról (amit Nyquist frekvenciának is nevezünk), és alacsonyabb frekvenciával válnak hallhatóvá. Ezt nevezzük átlapolásnak, angolul aliasing-nek, amiről már volt szó a torzításokkal kapcsolatos részben. Az átlapolás sajnos nagyon is kedvezőtlen hangzást ad, ugyanis ilyenkor úgynevezett inharmonikus frekvenciák jönnek létre, ami azt jelenti, hogy a frekvenciájuk nem egész számú többszöröse az eredeti frekvenciáknak, vagyis nem zenei hangok frekvenciái, ezért hamisnak, nem tiszta hangnak halljuk őket. (A valóságban ezek a frekvenciák általában olyan alacsony jelszintűek, amit normál lehallgatási körülmények között elég nehéz meghallani.)

Bár sokan úgy gondolják, hogy nem használnak, vagy nem állítanak elő 20 kHz feletti frekvenciákat (vagy ha mégis, azokat úgysem halljuk), ez sajnos nem így van. Minden audió eszköz, de a digitális jelfeldolgozás is torzítást okoz, ami egyben felharmonikusokat is előállít, és ezek általában magas frekvenciákon jelennek meg, bőven 20 kHz felett is elhelyezkedhetnek. Bár normál (analóg) esetben nem halljuk őket, a digitalizáláskor keletkező átlapolódás miatt létrejövő alacsonyabb frekvenciák már simán bekerülnek a 20 kHz alatti részbe, vagyis hallhatóvá válnak.

Aliasing egy spektrumanalizátor képernyőjén
Egy egyszerű példa az átlapolás káros hatására: a hangmagasság emelkedésekor egyben egy mélyülő hangsor is létrejön, ami nem harmonikus. Ez azt jelenti, hogy nem az eredeti zenei frekvenciák egész számú többszörösei, sőt sok esetben nem is zenei hangmagasságokat jelentenek, ezért a hangot kellemetlennek, mondhatjuk úgy is, hogy hamisnak, nem tisztának halljuk. A legtöbb esetben az átlapolás csak nagyon alacsony jelszintekkel jelentkezik, így sok esetben nem is halljuk, mert a hasznos frekvenciák elnyomják őket, de ettől még zavaró lehet, hiszen agyunk olyan részletességgel képes hallani, amit még ma sem ismerünk pontosan. Sokan ezért érzik úgy, hogy egy élő koncert mindig jobb hangzású, mint egy felvétel visszajátszva (ami különösen igaz akusztikus hangszerek esetében).

A sávszélesség korlátozását általában a digitalizálást végző átalakító áramkör elé elhelyezett analóg szűrőkkel szokták megoldani. Ezek közös tulajdonsága, hogy nem tökéletesek, sőt ezzel ellentétben ilyen célra -elméletileg- szinte használhatatlanok. Nézzük, hogy milyen sávkorlátozó megoldások jöhetnek szóba az átlapolás elkerüléséhez.

A felüláteresztő szűrők használata nem kifejezetten kötelező, hiszen az 1 Hz-es hang mintavételezéséhez már 2 Hz is elég lenne (ennél pedig mindig többet alkalmazunk), így az alacsony frekvenciák nem okoznak átlapolást. Ami problémát jelenthetne, az az egyenfeszültségek (DC), ezeket viszont jól tudunk szűrni, ha szükséges.
Különböző szűrők által okozott fáziseltérések
by Geek3 - Own work, CC BY 4.0

Az igazi gond a frekvenciasáv felső végében dolgozó analóg aluláteresztő szűrőkkel van. Mint tudjuk, az analóg szűrőknek több fajtája is létezik, de egyik sem tökéletes. Néhány közülük kis fázisforgatással működik, de cserébe nem túl meredeken vág, így olyan frekvenciák is átjutnak rajtuk, amik meghaladják a Nyquist határt (vagyis átlapolás keletkezik). Másoknak meredekebb a görbéjük, így sokkal kevesebb nem kívánatos frekvencia jut át, de cserébe jelentős fázisforgatást okoznak, ami ugyanolyan-, vagy még károsabb lehet. Emellett a jó minőségű (értsd: kevés hibát okozó) analóg szűrők gyártása nagyon költséges, ami jelentősen megemelheti a konverter árát. Az olcsóbb szűrők általában csak 6 dB/oktáv meredekséggel képesek működni, ami eléggé elmarad az elméletileg szükséges 100 dB/oktávtól. (Ebből következik, hogy az olcsó audio interfészekben nem lehet jó minőségű analóg szűrő, vagyis nagy valószínűséggel aliasing problémákat tapasztalhatunk (a megoldást lásd később). Ezek azonban leginkább professzionális szinten okozhatnak problémát.)

Tipp:
Az olcsóbb szűrők meredeksége sokkal kisebb, mint az elméletileg szükséges, ezért egy viszonylag egyszerű trükkel használják őket: a vágási frekvenciájukat a Nyquist határ alá választják. Ezzel biztosítható, hogy a Nyquist határnál már elégséges szűrés történik, viszont cserébe a határ alatti frekvenciák is szűrésre kerülnek, igaz, csak kisebb értékkel. Ilyen esetekben általában 16 kHz a vágási frekvencia.

A digitalizáláshoz használt mintavételi frekvencia kiválasztása ma már szerintem igen egyszerű: válasszuk a lehető legmagasabbat, amit a rendszerünk még képes kezelni. Ez alatt azt értem, hogy a választott frekvencián keletkező adatokat tudjuk tárolni, megfelelő sebességgel mozgatni és feldolgozni, illetve azok nem okoznak problémát az analóg eszközeinkben. Mert hiába van jó minőségű felvételünk, ha azt például nem tudjuk valós időben keverni. Ha elvégzünk néhány próbát ezzel kapcsolatban, hamar kétségbe eshetünk, hogy az addig erősnek hitt számítógépünk milyen hamar le tud térdelni egy-egy nagyobb, vagy lehet hogy már kisebb projekt esetén is, amikor indokolatlanul magas mintavételi frekvenciát választunk.

Vegyük észre, hogy az átlapolás problémája gyakorlati megközelítésben csak a Nyquist határ közelébe eső magas frekvenciáknál jelentkezik, és ezeknél is leginkább akkor, ha jelszintjük magas. Ha konverterünkbe nem túl precíz aluláteresztő szűrőket szereltek, akkor ilyenek lehetnek a sok magasfrekvenciás felharmonikust tartalmazó erős hangok, mint pl. cintányérok, szimfonikus zenekarok vonósai és a fúvós hangszerek, főként ha közeli mikronozással rögzítettük őket. Ezekben az esetekben bizony érdemes magasabb mintavételi frekvenciára kapcsolni, hiszen ezzel sokkal tisztább felvételt készíthetünk. Egyes fejlesztők szerint az optimális mintavételi frekvencia 60 kHz, amit a szabványos 96 kHz-el minden probléma nélkül elérhetünk, azonban a legtöbb mai lejátszó még mindig inkább 44,1 kHz-en működik, így nem valószínű, hogy sok előnyünk származna ebből a való világban. Nem mellesleg a végfelhasználó szempontjából 44,1 kHz-en az össze releváns adat megtalálható a mintavett fájlban, a túlmintavételezés egyetlen valódi előnye ilyenkor csak a szükséges analóg szűrők árának csökkentése.

Tipp:
A túlzott túlmintavételezés rajongói általában hangos, nagy létszámú vonósokat szoktak példaként felhozni, hogy igazolják elméletüket. Érdekes módon azt ők sem tagadják, hogy néhány 16 bit 44,1 kHz-es felvétel sem torzít ilyen esetben, ami azt jelenti, hogy a hiba nem feltétlenül a digitális részben keresendő.

Mintavételi frekvencia lejátszáskor
Miután sikeresen digitalizáltuk a hangot, jó lenne azt vissza is hallgatni. De vajon mi biztosítja azt, hogy a pontosan meghatározott időpontokban mintavételezett feszültségértékek az eredeti hullámformát fogják visszaadni? A probléma megértéséhez tekintsük a mellékelt ábrát. Ezen láthatjuk a már jól ismert szinusz hullámformát (kék szaggatott vonallal), és a mintavett és kvantált feszültségértékeket (vörös körökkel jelölve), amik a rácspontokon helyezkednek el. Ezeket a pontokat azonban nem csak az eredeti hullámforma szerint köthetjük össze, hanem sok más módon is, például az ábrán látható zöld vonallal (csak illusztráció!). Jól látható, hogy bár mindkét görbe áthalad a vörös körökön, ezen kívül gyakorlatilag semmi közük nincsen egymáshoz.

A megoldásban szintén a Shannon-Nyquist tétel nyújt segítséget, ami kimondja, hogy egy folytonos függvény tökéletesen visszaállítható mintáiból, ha a mintavételi frekvencia legalább kétszer akkora, mint a jel sávszélessége, és a sávszélesség korlátozott (vagyis nem végtelen). Tehát a korlátozást nem csak az átlapolás kiszűrésére, hanem a pontos visszaállítás biztosítására is alkalmazzuk. Ha a mintavételezni kívánt hangot alul- és felüláteresztő szűrők segítségével visszajátszáskor is a digitalizáláskor alkalmazott, ismert frekvenciatartományon (sávszélességen) belül tartjuk, akkor a mintavett feszültségértékek által adott pontokat csak egyetlen egy módon lehet "összekötni". A témáról részletesebben olvashatunk a sorozat előző részében.

Figyeljük meg, hogy itt újból szoros kapcsolatba került a digitalizáláskor és a visszajátszáskor (visszaállításkor) alkalmazott sávkorlátozás. Ha ugyanis ez a kettő nem azonos, akkor semmi sem biztosítja, hogy a visszaállított hullámforma azonos lesz az eredetivel. Ismét az analóg technika korlátaiba botlottunk, mert hiába pontos a digitális adat, ha az analóg részegységek nem megfelelően  (vagyis nem azonosan) kezelik a sávszélességet. Az eltérés az egyes gyártók és az egyes típusok között persze nem olyan óriási, hogy ez bárki számára halható problémát jelentene, de elméleti szinten ez nagyon is létező gond.

Természetesen ahhoz, hogy visszajátszáskor az eredeti (digitalizált) hangot kapjuk vissza, elengedhetetlen, hogy ugyanazt a mintavételezési frekvenciát alkalmazzuk, mint felvételkor. Ha nem így teszünk, akkor normál esetben a felvett és lejátszott hang frekvenciája eltérő lesz (és -e mellett persze más paraméterei is változnak, például az időtartama). Megoldást jelenthet a matematikai úton elvégzett mintavételezési ráta konverzió, amit akár valós időben is megtehetünk. Sok esetben ez pl. az operációs rendszerbe van beépítve (windows shared mode), így játszhatunk le egyszerűen, egymás után, vagy akár egyszerre is eltérő mintavételezési frekvenciájú hangokat úgy, hogy azok frekvenciája és lejátszási hossza nem torzul el hallhatóan. Ettől függetlenül az ilyen, operációs rendszerbe épített "valós idejű" konverziók minősége általában elmarad a kifejezetten ilyen célra készült szoftverektől, ezért professzionális szinten mindenképpen kerülni kell a használatukat.

Mintavételi frekvencia próba
Nagyításhoz katt a képre
Több plugin is készült valósidejű mintavételi frekvencia konverzióhoz, de jól használható ingyenes változatban csak a Jeroen Breebaart által készített TimeMachine-t találtam (32 bites plugin, ezért egyes 64 bites DAW-okban csak bridge-el futtatható). Töltsük le, és telepítsük, majd nyissunk meg egy új, 44,1 kHz mintavételezésre állított projektet a DAW-ban, és egy új sávra helyezzünk el egy (lehetőleg) nagy sávszélességű referencia mixet. (Én Lorde-Royals című dalát választottam.) A sáv első insert pontjára helyezzük el a TimeMachine plugint, közvetlenül utána pedig egy beépített spektrumanalizátorral rendelkező ekvalizert, például az ingyenes MEqualizer-t, amin egyelőre az összes szűrőt kapcsoljuk ki. Indítsuk el a lejátszást, és figyeljük meg a spektrumanalizátor képét. Most nagyjából azt halljuk, amikor 44,1 kHz-en mintavételezünk, és azon is játszunk le. Nagy valószínűséggel mindent rendben fogunk találni, és a hangzás is az eredetivel azonos lesz.

Most kezdjük csökkenteni a mintavételezés frekvenciáját (tulajdonképpen mindegy, hogy a digitalizálásról, vagy a visszajátszásról beszélünk), a TimeMachine "Samplerate" paraméterével. Nagyjából 28 kHz (28000 Hz)-ig nem sok különbséget hallani, de ez alatt kezd a zene "eltompulni". Ez természetesen azért van, mert a mintavételi tétel alapján a 28 kHz-es mintavételezés már nem képes a 14 kHz feletti frekvenciákat visszaadni, vagyis kis túlzással "csak egy egyszerű" szűrőként működik. De ne álljunk meg itt, csökkentsük tovább a mintavételi frekvenciát! Kb 19 kHz körül már nem csak szűrést, de hallható torzítást is tapasztalhatunk, legalábbis a magasabb frekvenciájú hangokon, mint pl. az ének. Ha tovább csökkentjük a frekvenciát, egyre tompább és egyre torzabb hangzást kapunk, míg végül elérjük a plugin alsó határértékét, a 2000 Hz-et, ahol elvileg már csak az 1000 Hz alatti frekvenciákat tudjuk átvinni. Figyeljük meg, hogy a basszus ettől még kiválóan hallható, sőt az eredetivel megegyező minőségben, hiszen ezek a frekvenciák bőven 1000 Hz alattiak, tehát tökéletesen visszaállíthatóak 2 kHz-es mintavételezéssel is.

A jelenséget -mármint a mintavételezési frekvencia csökkentésének hatását- nem csak hallani, de kiválóan látni is lehet a spektrumanalizátoron, ahol szintén szépen csökkennek a magas frekvenciák. Hogy még inkább igazoljuk a mintavételi tételt, hasonlítsuk össze a 2 kHz-es mintavételezés, és a neki megfelelő 1 kHz-es aluláteresztő szűrő hangzását. Ehhez először kapcsoljuk ki a TimeMachine plugint, majd kapcsoljuk be az MEqualizer 6-os sávját, és kapcsoljuk aluláteresztő (low pass) módba. (Ha nem látszódna a sávok (BANDS), akkor kattintsunk duplán a feliratra, majd a 6-os számra, és a mellette lévő ikonra. A megjelenő ablakban válasszuk a "Low-pass (120 db/oct)" szűrőt, majd a jobboldali "Slope" kapcsolót állítsuk 8-ra. Ekkor egy 96 dB/oktáv meredekségű aluláteresztő szűrőt kapunk, ami nagyjából megfelel a konverterekben ideális esetben használt 100 dB/oktáv analóg szűrőknek.) Már nincs más dolgunk, mint a szűrő vágási frekvenciáját 1000 Hz-re állítani. Ha most elindítjuk a lejátszást, akkor a 2 kHz-es mintavételezés szimulálásához kísértetiesen hasonlító hangzást kapunk, ami persze nem véletlen, hiszen pontosan így működnek a konverterek. Minderről egyszerűen meggyőződhetünk, ha felváltva hallgatjuk a két plugint (lásd ebben a részben). Az egyetlen különbség, hogy a konverzió során létrejövő kvantálási hibák miatt a csökkentett mintavételi frekvencia esetén létrejönnek torzítások, amik mint felharmonikusok hallhatóak és láthatóak a spektrumanalizátoron is.

Tipp:
A TimeMachine pluginben kipróbálhatjuk a bitmélység csökkentése, és az AD illetve DA konvertereken létrejövő aliasing hatását is!

Mintavételi frekvenciák a DAW-okban
A digitális audió munkaállomások (DAW) egyik közös tulajdonsága, hogy egy előre beállított, nevezzük úgy, hogy mester órajelhez szinkronizálnak mindent. Ez a legtöbbször az audió interfész által használt mintavételi frekvencia, amit beállíthatunk az interfész meghajtóprogramjában, de akár a DAW-on keresztül, közvetve is (ilyenkor a DAW nyitja meg a drivert, lásd a fenti képen).

Tipp:
Ha nem akarunk felesleges problémát magunknak, akkor a mintavételezési frekvenciát mindig az  audió interfész driver programjában állítsuk be, és a DAW saját beállítási lehetőségét inkább kapcsoljuk ki. Ha ez utóbbi nem lehetséges, akkor ugyanazt az értéket használjuk a DAW-ban, mint a driverben. A bitmélység szabadon változtatható, akár sávon belül is.

A legtöbb DAW megköveteli, hogy az azonos projektben lévő audió fájlok mintavételezési frekvenciája azonos legyen. Ez egyrészt a pontosabb szinkron miatt van így, másrészt az eltérő mintavételű fájlok lejátszása alapesetben problémát okoz, mivel ezek lejátszási sebessége nem lesz azonos. Régebben sok probléma keletkezett ebből, pl. a magasabb mintavételezéssel felvett dob ritmusa gyorsabb lett, mint egy másik helyen készült, alacsonyabb mintavételezésű basszusgitár felvétele. Néhány modern DAW, mint pl. a Reaper is lehetővé teszi, hogy a sávokon, sőt akár egyetlen sávon belül is teljesen eltérő mintavételi frekvenciával és bitszámmal készült fájlokat helyezzünk el. Ezt azonban csak úgy tudja megvalósítani, hogy a mintavételi frekvencia átalakítást, az úgynevezett újramintavételezést (resampling) valós időben, az egyes fájlokra egyesével végzi el. Az eredményt erősen befolyásolja, hogy milyen algoritmust választunk minderre, így könnyen előfordulhat, hogy nem a várt minőséget kapjuk. Ezért -bár a módszer elméletileg működőképes lenne- nem biztos, hogy érdemes az egyes hangszerek hangjának megfelelően sávonként eltérő mintavételezési frekvenciát használni, és így spórolni a tárhellyel és a CPU teljesítménnyel.

Külön problémát okozhat, ha a lejátszásra (keverésre) és az exportálásra (renderelésre) más újramintavételezési értéket adunk meg (lásd a fenti ábrán). Ezt sokan például annak reményében teszik meg, hogy spóroljanak a valósidejű CPU teljesítménnyel, de az exportálást már király minőségben tehessék meg. Mixeléskor, amikor valós időben kell a gépnek kiszámolni az egyes sávokon végzett módosításokat, igen zavaró, amikor kattogások, pattanások, vagy akár kihagyások is keletkeznek a nem elégséges CPU teljesítmény miatt. Ezért sokan csökkentett minőségű újramintavételezést állítanak be, mondván, ez úgyis csak egy "előnézet". A kész mix exportálásakor viszont nem okoz gondot a 100%-nál magasabb CPU használat,  mert ez a legtöbbször nem valós időben történik, így sokan a render beállításnak mindig a lehető legmagasabb minőséget szokták megadni. Saját tapasztalatom az, hogy ha eltérő értéket adunk meg, akkor szinte mindig előfordul, hogy a mix és a render nem ugyanazt a hangzást adja. Ilyenkor eszeveszett módon elkezdjük a problémát keresni... pedig azt mi magunk állítottuk elő. Ugyanez a hibajelenség jelentkezhet akkor is, ha például a projektünk 44,1 kHz-re van beállítva, de olyan hangminta alapú hangszert használunk benne (pl. Kontakt, lásd a mellékelt ábrán), amiben 48 kHz-es hangminták vannak. Ezeket konvertálni kell mind lejátszáskor, mind exportáláskor, és ha a két beállítás nem azonos, szintén eltérő hangzást kapunk.

A kész mix úgynevezett offline, vagyis nem valós időben történő exportálása, renderelése szintén tartogathat meglepetéseket. Tegyük fel, hogy a felvétel és a keverés 96 kHz-en történt, és az átlapolás elkerülésére a maszter busz utolsó insert pontjára elhelyezünk egy nagyon meredek (brickwall), lineáris fázisú aluláteresztő szűrőt, amit 22 kHz-re állítunk be. Ebben az esetben biztosak lehetünk benne, hogy a 22 kHz feletti frekvenciák nem jutnak ki a gépből. Exportáláskor kimeneti formátumnak 44,1 kHz-et állítunk be, mert CD-re dolgozunk. Mivel az exportálás előtt megtörténik a Nyquist határ feletti frekvenciák vágása, így a konverzió után nem kell tartanunk az átlapolás okozta kellemetlenségektől, legalábbis ezt gondoljuk. Sajnos a kapott eredmény nem lesz az igazi, ugyanis alapesetben a 44,1-es exportálás idejére a teljes projekt mintavételezési frekvenciáját 44,1 kHz-re állítja át a program, amihez természetesen sávonként végzi el a keverés közben szükséges konverziókat is. Bár a kimeneti formátum a beállított 44,1 lesz, a 22,05 kHz feletti frekvenciák átlapolódva megjelennek a kimeneti fájlban, hiszen azok már a sávokon is jelentkeznek. Nem ez a helyzet viszont, ha a render elindítása előtt bejelöljük a "Use project sample rate for mixing..." jelölőnégyzetet. Ebben az esetben nagyobb valószínűséggel kapjuk meg a mixeléskor hallott hangzást, ugyanis ilyenkor az exportálás a projekt eredeti mintavételezési frekvenciáján készül el, majd a kész 2 (vagy több) sávos fájl kerül konvertálásra (44,1 kHz-re), amiben ugye már nem szerepelnek a 22 kHz feletti frekvenciák. A Reaper DAW a konverzióhoz mindkét esetben a "Resample mode..." beállításnak megfelelő algoritmust és minőséget használja (lásd később, a Túlmintavételezés hátrányai bekezdést).

Mintavétel vs idő (hossz, fájlméret)
Bár a következő probléma az otthoni gyakorlatban nem okoz komoly gondot, jó ha tudunk róla, hogy a mintavételi frekvencia egyben meghatározza azt is, hogy milyen pontosan lehet megadni egy digitálisan tárolt hang hosszát vagy időbeli pozícióját. Ez persze csak akkor jelenthet gondot, ha egyes időpontokhoz sebészi pontossággal illesztett rendszerben kell dolgoznunk.

Reaper beállítási lehetőség arra, hogy a tempó és ütemmutató
váltások csak egész számú mintákkor történhessenek
Remélem mindenki számára egyértelmű, hogy csak egész számú minták lehetségesek, vagyis olyan, hogy 33 és fél minta hosszú hang nem létezik, mert ez teljesen értelmezhetetlen. Tehát eleve nem tudunk előállítani olyan hangfájlt, ami nem egész számú mintát tartalmaz, így ezzel a problémával csak akkor találkozhatunk, ha a kívánt időpont (nem egész) és a mintavételi frekvencia nem esik egybe.

Vegyünk egy egyszerűbb példát, amiben 44,1 kHz-es mintavételezést választunk. Ekkor a legkisebb időegység amit értelmezni lehet, az 0,0000226757... másodperc. Vagyis a hangunk lehet 1 másodperc hosszú, vagy 1,0000226757... másodperc hosszú, vagy 0,9999773243... másodperc hosszú, de ezek között a határok között más nem. Nézzünk egy másik megközelítést, ahol zenei ütemhez igazítunk, például 1/16 zenei hosszúság (vagy pozíció) 120,11 BPM esetében 5507 mintára jön ki, de 120,12 BPM esetében is 5507 mintát kapunk, holott egyértelmű, hogy a második esetben két ütem között -ha csak nagyon kis mértékben is- de kevesebb idő telik el. Mivel a magasabb mintavételi frekvenciákon több részre osztunk fel egy másodpercet, ezért magasabb értékek esetében egyre pontosabban tudjuk meghatározni a nem egész másodperc hosszú hang időtartamát, vagy pozícióját az idővonalon.

A problémával találkozhatunk például a DAW-ban is, ha egy adott hangfájlt olyan időpontnál szeretnénk elvágni vagy indítani, esetleg a tempót vagy az ütemmutatót megváltoztatni, ami nem egész mintavételi időpontra jönne ki. Ez a számítógép számára értelmezhetetlen problémát jelent, amit persze a programozók igyekeznek automatikus hibajavítással kompenzálni. Ilyenkor a hang vagy előbb, vagy később szólal meg, vagy hallgat el. A különbség persze olyan kicsi, hogy nehéz észrevenni, de bizonyos helyzetekben ez is problémát okozhat, pl. ha a hullámforma nem megfelelően illeszkedik. Ilyenkor kattanást, vagy pattanást lehet hallani, rosszabb esetben fázisproblémák alakulnak ki.

Mindezt érdemes figyelembe venni CD íráskor is, ahol nem lehet a lemezre olyan időpontot megadni, ami nem osztható maradék nélkül a 44,100 kHz-nek megfelelő értékkel. A legtöbb CD író program persze a hibákat automatikusan kompenzálja. Ez addig nem is gond, amíg nem akarunk két számot szünet nélkül, egymásba átfutva hallani. Ha viszont igen, akkor a két szám közötti váltás időpontját csak egész értékre helyezhetjük el. Ilyenkor persze az a jó megoldás, ha egyetlen fájllá fűzzük össze őket, és a CD lemez megfelelő információiban helyezzük el a szükséges sávjelzést (track start).

Túlmintavételezés
Ha a mintavételezést a szükséges legmagasabb rögzítendő frekvencia kétszeresénél nagyobbra választjuk, akkor úgynevezett túlmintavételezésről beszélünk. Van-e értelme 44,1 kHz-nél magasabb mintavételi frekvenciát alkalmazni? A rövid válasz: nem, a hosszú pedig igen. Ennek elsősorban technikai előnyei vannak, hiszen a legtöbb ember már a 16 kHz-es frekvenciájú hangokat sem hallja, nem hogy 22 kHz-et, ameddig a CD szabvány 44,1 kHz-e még tökéletesen működik.

A túlmintavételezést szerintem két területre osztva kell kezelni. Az egyik maga az AD és DA átalakításkor, magában a konverterben történő alkalmazás, amire nekünk felhasználóknak nem sok ráhatásunk van, sőt valójában ez a túlmintavételezés azon formája, ami csak előnyökkel jár. A másik terület, amikor a szükségesnél magasabb mintavételi rátával rögzítünk, vagy dolgozunk fel, esetleg játszunk le hangot. Na, ezekben az esetekben sajnos már nem csak előnyökről, sőt sok esetben inkább hátrányról beszélhetünk.

Túlmintavételezés előnyei
Először maradjuk a konverterben történő digitalizálásnál, ahol viszonylag egyszerű, és jó megoldás lehet a mintavételezési frekvencia emelése, mert ezzel megemelkedik a Nyquist határ is, és olyan frekvenciákra kerül, amit mi emberek már nem hallunk. Ennek köszönhetően sokkal gyengébb minőségű (vagyis olcsóbb és egyszerűbb) analóg szűrőket is használhatunk, amiknek tranziens viselkedése is kedvezőbb. A konvertálást követően digitális szűrőkkel nagyon pontosan, és az analóg eszközök zajától mentesen végezhetjük el a szükséges szűrést, mindössze néhány matematikai művelet végrehajtásával. Ezután digitálisan csökkentjük a mintavételi frekvenciát a kívántra, vagyis újramintavételezést alkalmazunk, és kész is az aliasing "mentes" digitalizált hang.

Nagy precizitású DA konverter által előállított négyszöghullám
oszcilloszkóp képe 100x-os nagyításban.
Ez azonban még nem az összes előny! A mintavételezés frekvenciájának növelésével nő a hullámformából vett minták sűrűsége, vagyis a hullámforma leírásának pontossága is, ami által csökken a kvantálási zaj. Ezt úgy is mondják, hogy nő az effektív (valós) bitszám, hiszen a rendelkezésre álló bitek közül egyre kevesebbet használunk el a zaj ábrázolására, és egyre többet a hasznos jelre. A mintavételezési frekvencia minden egyes duplázása 3dB zajszint csökkentést eredményez, ami tulajdonképpen egy plusz előnye a túlmintavételezésnek. Fontos tudni, hogy ilyenkor nem a hullámforma felbontása nő, hiszen azt alacsonyabb frekvenciát alkalmazva is 100%-ban vissza tudjuk állítani (a kvantálási zajtól eltekintve).

Sokan azért használnak a szükségesnél magasabb mintavételi frekvenciát, mert azt gondolják, hogy ettől nő a hullámforma felbontása, pontossága. Ez igaz egy digitalizált kép esetében, de nem igaz  a digitalizált hang esetében! Felejtsük el a régi rossz digitalizált hang ábrázolásokat, ahol a hangot lépcsőfokoknak, egyenes, vízszintes vonalaknak ábrázolták. Ilyet egy átlagos digitál-analóg konverterrel még akkor is nehéz lenne előállítani, ha direkt szeretnénk megcsinálni. A legjobb példa erre a négyszöghullámokkal végzett mérések, amik soha nem adnak szögletes analóg hullámformát. Ez a DAC és a helyreállító szűrő működéséből adódik. A Xiph.org készített is erről egy mindenre kiterjedő filmet, akinek kétségei vannak az nézze meg, ha pedig még ez sem győzte meg, akkor vásárolja meg a filmben látható analóg eszközöket és végezze el a kísérletet saját maga.

A túlmintavételezés ma már mindennapos dolognak számít, a legtöbb AD konverter így működik, még akkor is, ha csak 44,1 kHz-et, vagy ennél alacsonyabb mintavételezési frekvenciát állítunk be. Ez már csak azért is igaz, mert másként nem lennének képesek akár 192 kHz-es mintavételezésre is. A legtöbb AD chip alapból csak pár mintavételi frekvenciát ismer, amit a beépített óra határoz meg. Az AK4524 chiphez használt kristály rezgési frekvenciája  pl. minimum 11.2896, maximum 24.576 MHz. (Külső órajel forrással más frekvenciákon is képes működni.) Ennek megfelelően az órába épített osztók a kiválasztott módnak megfelelően (normál, dupla, négyszeres) a következő mintavételi frekvenciákat képesek előállítani: 32, 44.1, 48, 88.1, 96, 176.4, 192 kHz. (Ezt persze nem mi, hanem a hangkártyában lévő vezérlő kapcsolja, attól függően, hogy mi milyen mintavételezést állítunk be a szoftverben.) Hogy a dolog ne legyen ennyire egyszerű, a négyszeres módot csak DA módban képes használni (úgynevezett monitor módban), tehát ezen digitalizálni nem tud. Ha a hangkártya gyártója ennek ellenére egy ilyen chippel szereli a terméket, és 192 kHz-es mintavételen történő digitalizálást is ígérnek a lejátszás mellé, akkor nagy valószínűséggel a valóságban csak 96 kHz-es mintavételezéssel történik, majd ezt a driver szoftver konvertálta fel 192 kHz-re. Ha kíváncsiak vagyunk a saját hangkártyánk vagy konverterünk képességeire, keressünk rá, hogy milyen chipet használnak benne, és annak mik a paraméterei. Alternatív -bár nem túl olcsó megoldás-, ha az ellenőrzéshez külső teszthang generátort és oszcilloszkópot használunk, amikkel egyértelműen mérhető a valódi átviteli sávszélesség.


A túlmintavételezésnél maradva, a már említett Asahi Kasei Microdevices Corporation AK4524 chipje digitalizáláskor 64x-es, lejátszáskor pedig 128x-os túlmintavételezést alkalmaz, ezzel biztosítva a Nyquist határ feletti frekvenciák minimalizálását, ezáltal az átlapolódás minimálisra csökkentését. Ez persze csak a hardverben valósul meg, mert a szoftver oldalra (a DAW-ba, és onnan kifele) mindig csak a kívánt mintavételezési frekvenciájú jel érkezik meg.

Mint a legtöbb mai ADC úgy a DAC is túlmintavételezéssel dolgozik, így a beépített analóg szűrő (helyreállító szűrő) nagyon nagy mértékben képes kiszűrni a DAW-ban, vagy pluginekkel történt feldolgozás során létrejövő, Nyquist határ feletti frekvenciákat. Ezért sok esetben nem is kell ezekkel számolni, mondhatjuk úgy is, hogy felesleges ezeket a 22 kHz feletti jeleket mindenféle spektrumanalizátor pluginekkel, még a DAW-ban keresgélni (legalábbis normál, egyszerűbb audió felhasználások esetében).

Ha mégis kíváncsiak vagyunk rá, hogy a saját kis hangkártyánk milyen képességekkel rendelkezik, a Xiph.org jóvoltából könnyen elvégezhetjük a következő tesztet. Töltsük le az oldalukról a 30 és 33 kHz-es hangot tartalmazó 96 kHz mintavételezésú hangot wav formátumban, majd nyissunk meg egy 96 kHz mintavételezésre állított új DAW projektet, és helyezzük el benne. Ahhoz, hogy valós eredményt érjünk el, a hangkártyát és a DAW-t is 96 kHz-es mintavételezésre kell állítani, és lehetőség szerint direkt meghajtóprogramot használni (pl. ASIO), mert a windows saját megosztott (shared mode) meghajtói általában egy közbenső feldolgozó algoritmust is használnak, ami többek között a mintavételi frekvencia konverziót is elvégzi (a saját algoritmusa alapján).


A teszttel azt tudjuk megállapítani, hogy a saját rendszerünk képes-e valódi 96 kHz-es lejátszásra. Ez az egész rendszerre vonatkozik, vagyis a hangkártya meghajtó programjára, a DAW-ra, a konverterre és a lehallgató rendszerre egyaránt. Ha elindítjuk a lejátszást és nem hallunk semmit, akkor örülhetünk, mert a rendszerünk képes a 44,1 kHz feletti mintavételezésre, és a 22,05 kHz feletti hangok visszajátszására is. (zárójelben jegyzem meg, hogy ha végtelenítve játsszuk le a fájlt, akkor előfordulhat, hogy az ismétléskor zörej hallható, de szerintem ez nem jelent hibát.) Ha viszont bármilyen zajt, ciripelést, fütyülést, kattogást vagy pattogást, egyszóval bármilyen hangot hallunk, akkor sajnos a rendszer valamelyik eleme nem képes a 22 kHz feletti hangok visszaadására. A "hiba" lehet a konverterben, vagy a meghajtó programjában, ami nem képes a valódi 96 kHz-es mintavételezésre, ezért csak felkonvertálást végez. De lehet az analóg részekben, az erősítőben vagy a hangszórókban is, amik nincsenek felkészítve az ultrahangokra. A teszt során elképzelhető, hogy fel kell hangosítanunk az erősítőt, hogy meggyőződjünk róla, hogy valóban nem szól semmi, vagy csak túl halkan. Ilyenkor nagyon figyeljünk, mert a magas hangerőn esetleg megszólaló hang akár tönkre is teheti az erősítőt vagy a hangszórókat!

Tipp:
A 96 kHz-es mintavételt a hangkártyán, vagy a DAW mester beállításainál tegyük meg, és figyeljünk, hogy a projekt beállításokban (ha van ilyen) ne legyen más érték beállítva, vagy bekapcsolva. Emellett a valós idejű konverziót kapcsoljuk ki, vagy állítsuk a lehető legjobb minőségre. Erre azért van szükség, hogy a DAW még véletlenül se konvertálja át a hátunk mögött a fájlt.


Természetesen a való világban létrejövő digitalizálási és lejátszási minőséget ennél sokkal több dolog befolyásolja, pl. az analóg áramkörök tervezési és építési minősége, az alkalmazott kvantáló algoritmusok, szűrők, stb.

Előnyök feldolgozás közben:
Ha 44,1 kHz-nél magasabb mintavételi frekvencián dolgozzuk fel a digitális audió adatokat, például a DAW-ban, vagy pluginekben, annak két előnye van. Az egyik -és talán nagyobb-, hogy a nem megfelelő programozásból származó aliasing nem válik hallhatóvá, vagy csak olyan kis mértékben, ami már nem zavaró. És ha mégis jelentkezik, akkor egy egyszerű (de jó minőségű) aluláteresztő szűrővel vághatjuk a nemkívánatos frekvenciákat. (Persze csak akkor, ha nem kerültek már eleve 20 kHz alá...) A másik előny az alacsonyabb késleltetés (latency), hiszen minél magasabb a mintavételi frekvencia, annál hamarabb betelik a konverter puffere, és annál hamarabb tudja az abban lévő adatokat átvinni. Vagyis sokkal kevesebbet kell várnia két adatátvitel között.

Túlmintavételezés hátrányai
A túlmintavételezéssel digitalizált vagy lejátszott hangnak sok szempontból csak előnye van, egészen addig, amíg megfelelő minőségű eszközöket használunk, és nem szeretnénk az adatokat tárolni, vagy nagy mennyiségben egy időben (valós időben) továbbítani és feldolgozni, illetve nem kell mintavételi ráta konverziót végezni. Ilyen esetek pl. a digitális külső effektek (eq, kompresszor, késleltető, zengető, stb.), vagy a digitális keverőpultok, hiszen ezeken a hang általában csak keresztül megy, nem tárolnak vagy játszanak vissza belőle nagy mennyiséget.

Az egyik legnagyobb hátrány a megnövekedett adatmennyiség, ami nem csak tárolási kapacitás problémát jelent, hanem a több adat mozgatása és feldolgozása is sokkal több időbe telik. Mivel a digitalizáció a szükségesnél több adatot állít elő, így ennek memóriába továbbítása is több időt igényel. A memóriából jó esetben rögzítésre is kerül az adat, ami ismét több időbe és nagyobb adattároló kapacitásba kerül. A folyamat másik végén, a lejátszáskor is hasonlóak a problémák, beolvasás a memóriába, elküldés a hangkártyára, azonos idő mellett több processzor teljesítményt vesz igénybe.

Ez oda vezet, hogy a hang lejátszása már nem történhet valós időben, és ez a késés a felhasznált sávok számával hatványozottan növekszik. Nem mellesleg, a hangot feldolgozó szoftvereknek, például a plugineknek is több időbe telik, amíg egy másodpercnyi hangot átfuttatnak magukon, ami szintén növeli a késleltetés idejét. Erre persze sokan azt mondják, hogy a mai számítógépek már elég erősek, és el tudják végezni a feladatot. Erre én azt mondom, hogy végezzen el mindenki otthon egy kísérletet, amiben először 44,1 kHz-es mintavételezést használva elkészít egy teszt sávot, amin elhelyez egy olyan plugint, aminek nagy a CPU igénye. Ezt követően elkezdi a sávot duplikálni, egészen addig, amíg a számítógép le nem fagy. Jegyezzük fel a maximálisan elérhető sávok számát, majd "duplázzuk" meg a mintavételezési frekvenciát 96 kHz-re, és ismételjük meg a próbát. Szinte biztos, hogy az elérhető sávok száma a felére csökken. De ne álljunk meg itt, emeljük a frekvenciát 192 kHz-re. Itt már az eredeti sávok számának mindössze egy negyedét tudjuk előállítani, arról nem is beszélve, hogy sok mai plugin nem is képes ezen a mintavételezési frekvencián működni. Tehát az indokolatlan túlmintavételezéssel nem javul jelentősen a hangminőségünk, viszont sokat veszítünk a késleltetésen, és az elérhető sávok számán is, nem is beszélve a megnövekedett számítási kapacitás kiszolgálásához szükséges drágább eszközökről.

Mintavételezési ráta átalakítás
A túlmintavételezéssel rögzített és feldolgozott "király" hangot nem elég előállítani, az le is kell játszani, és a legtöbb esetben azt szeretnénk, ha ez nem csak a stúdiónkban történhetne meg, hiszen nem magunknak, hanem a nagyközönségnek dolgozunk. Nekik viszont a legtöbbször csak viszonylag csökkentett képességű lejátszójuk, vagy csökkentett adatátviteli sávszélességük van, ezért a túlmintavételezett hangot le kell konvertálni

A különböző mintavételi ráták digitális konvertálása sokaknak elsőre könnyű feladatnak tűnhet, de csak addig, amíg nem nézzük meg, hogy miről is van szó! Tekintsük a melléklet ábrát, ahol egy egyszerű szinuszhullámot digitalizáltunk egy magasabb mintavételi rátával (pl. 96 kHz), amit a vörös körökkel jelölt diszkrét értékek reprezentálnak. Ezt szeretnénk egy kisebb mintavételi rátára (pl. 44,1 kHz-re) konvertálni, aminek minta időpontjait lila színnel és sárga körökkel jelöljük. A probléma abból adódik, hogy bár a vörös körök pontos idő és feszültség értékeit ismerjük, a közöttük elhelyezkedő sárga köröknek csak az idő pozíciójuk ismert, a feszültség értékük nem. Ezt a meglévő vörös körökből interpolálható adatokkal kéne meghatározni. Az interpoláció viszonylag pontos értéket ad, ha ismerjük a függvény pontos képletét, ami a legtöbb hang esetében bizony nem áll rendelkezésre. Azt is tudjuk már, hogy ha csak egy kis hibát vétünk az új pont feszültségértékének kiszámításakor, akkor a görbe (és a hang is) torzulni fog. Jól látszik tehát, hogy bármilyen irányba is végezzük az átalakítást, a pontos feszültségértékeket nem ismerjük, azokra csak találgathatunk. A problémát némileg könnyíthetjük, ha az új és régi mintavételi frekvencia egymásnak egész számú többszöröse, mert ebben az esetben lefelé konvertáláskor csak a már meglévő minta értékeket kel használni, felfelé konvertáláskor pedig az előző és következő értékek között helyezkednek el az új pontok (pl. 88,2 <--> 44,1 --> 2 vagy 0,5 szorzó)  Ha a két frekvencia nem egész számú többszöröse egymásnak, akkor bizony nagy bajban vagyunk, ugyanis ebben az esetben tört számok keletkeznek, amit fixpontos ábrázolással nem tudunk kiszámítani (részletesen lásd a következő részben). Ilyenkor a kerekítések miatt további hibák, vagyis torzítások és zajok kerülnek a jelbe, amit kifejezetten kerülni kell (pl. 96 <--> 44,1 --> 2,1786 vagy 0,4593 szorzó, vagy 48 <--> 44,1 --> 1,0884 vagy 0,9187). Ez egyben azt is jelenti, hogy elméletileg soha nem kapunk pontos értéket, vagyis minden egyes konverziónál torzítást viszünk a jelbe. Nem is olyan egyszerű dolog ez, ugye? Sok profi masztering hangmérnök például ezért nem konvertál fel ha nem szükséges, vagy ha mégis, akkor azt analóg kapcsolaton keresztül teszi (ahol szintén keletkeznek hibák, de nem olyan mértékűek, mint a digitális átalakításkor).

A régebbi AD és DA chipek (és meghajtó programjaik) a valós és a szoftver felé továbbított mintavételezési frekvenciák között úgynevezett egyidejű (szinkron) mintavételi frekvencia konverziót végeztek, ami nem volt képes a nem egész számú többszörös értékek között megfelelő minőségben váltani. Ezért pl. 44,1 kHz-es végső kimeneti formátum esetén (CD lemez), ajánlatos volt (és szerintem ma is az) a digitalizálást és a keverést is 88,2 kHz-en végezni, mert ebben az esetben a konverzió (88,2-ről 44,1-re) során nem kell olyan mintaértékeket kiszámolni, ami eredetileg nem található meg a fájlban. Az újabb chipek, meghajtó programok és átalakító szoftverek már aszinkron konverziót használnak, amiben sokkal kifinomultabb technikát találunk. Ezek az algoritmusok nem egyszerűen csak osztanak vagy szoroznak, hanem elemzik a forrás- és a cél mintavételi frekvenciákat, és ezeknek megfelelően csak a szükséges mintákat állítják elő, méghozzá nagy pontossággal. Ennek köszönhetően elméletileg bármilyen mintavételi frekvenciát átalakíthatunk bármely másikra, a minőség persze elméletileg mindig kérdéses.

Tipp:
Sok mai csúcs konverter direkt nem egész számú többszörössel végzi a mintavételezést, mert ezzel a technikával állítólag csökkenthetőek a jitter hibák. A legtöbb esetben mindig a chip által elérhető legmagasabb olyan frekvencián mintavételeznek, ahol a működés a legoptimálisabb, majd szoftveres úton konvertálnak a szükséges (alacsonyabb) frekvenciára.

Ha kíváncsiak vagyunk rá, hogy az általunk használt szoftver milyen minőségben képes mintavételi frekvenciát konvertálni, akkor látogassunk el a http://src.infinitewave.ca/ oldalra. Itt a 96 kHz-ről 44,1 kHz-re történő konverzió közben kialakuló átlapolódásokról kapunk információt, egyfajta speciális grafikon segítségével. Válasszuk ki a kérdéses szoftvert a legördülő listából, és vizsgáljuk meg a kapott ábrát. A mellékelt példában felül a Cubase 10 által végzett konverziót, alul a Cubase régebbi verziói által végzett átalakítás grafikonját láthatjuk. Ha egy viszonylag vékony, egyszínű, világos íves vonalat látunk, mint a felső képen, akkor a konverzió nem hoz létre túl sok átlapolást. Ha az alsó grafikonon látható képet kapjuk, akkor sajnos nagyon sok átlapolás keletkezik, ami gyenge minőségű konverziót jelent.

Az egyik legjobb ingyenes mintavételi ráta konvertáló offline program a Voxengo-r8brain, ami minőségben ver sok drága kereskedelmi szoftvert is. Ezt a DAW-on kívül kell futtatni, és akár kötegelve, egyszerre több fájlt is képes jó minőségben fel-és lekonvertálni. Minőségi grafikonját megtaláljuk az imént említett oldalon, így könnyen összehasonlíthatjuk saját konverterünkkel.

Ultrahangok
Szót kell ejtenünk egy másik túlmintavételezéskor fellépő jelenségről is. Ha ugyanis az indokolatlanul túlmintavételezett hangokat nem megfelelő szűréssel játsszuk le, a jelben ultrahangok maradhatnak meg, amik lehet, hogy eredetileg nem voltak benne, de a digitális jelfeldolgozás (pluginek) beletettek. Ezek azok a 22 kHz feletti frekvenciák, amiket mi ugyan nem hallunk, de erről az erősítők és a hangszórók nem tudnak, így megpróbálják őket átvinni, ami alapvetően inkább csak jelentős energiapazarlást eredményez, vagyis csökken a hallható frekvenciák erősítésére használható energia. Ez mellett a magas frekvenciák intermodulációt is okozhatnak a további, korlátozott sávszélességű eszközökben (stúdió eszközök, erősítők, hangszórók), ami nemkívánatos torzításhoz vezet. A 192 kHz-es lejátszás tehát néhány esetben inkább rosszat tesz, mint jót! Arról pedig ne is beszéljünk, hogy bár a legtöbben már a 16 kHz feletti frekvenciákat sem hallják, a 20 kHz felettieket nemhogy meghallani, de megfelelő minőségben előállítani is nehéz. Bizony nem egyszerű olyan hangszórót vagy fejhallgatót beszerezni, ami ilyen magas frekvenciákon is megfelelően lineáris hangnyomásszintet és dinamikát képes előállítani.

Mindezeket figyelembe véve azt ajánlom mindenkinek, hogy saját, valós tapasztalataira támaszkodva válassza ki az általa használt mintavételi frekvenciákat, és ne másoknak higgyen. Ha pedig azért nem tud választani, mert nem hall különbséget, akkor merje elhinni, hogy nincs is, bármennyire is bizonygatják azt mások. Ha pár év és pár jó mix elteltével mégis megváltozik a véleménye, akkor pedig örüljön neki, hogy fejlődött annyit a hallása és a tapasztalata, hogy már képes a különbséget észrevenni.

A következő részben a bitmélység rejtelmeibe merülünk bele, ahol lesznek fixpontos, és lebegőpontos dolgok is. Addig is eredményes keverést és digitalizálást kívánok mindenkinek!

Felhasznált irodalom:
http://www.sengpielaudio.com/calculator-db-volt.htm
https://people.xiph.org/~xiphmont/demo/neil-young.html
http://www.rane.com/note137.html
https://hu.wikipedia.org/wiki/Jitter
https://en.wikipedia.org/wiki/Nyquist%E2%80%93Shannon_sampling_theorem
https://www.soundonsound.com/techniques/digital-problems-practical-solutions
https://www.soundonsound.com/techniques/does-your-studio-need-digital-master-clock
https://www.soundonsound.com/sound-advice/q-why-882khz-best-sample-rate-recording
http://www.hit.bme.hu/~papay/edu/Acrobat/conv2A.pdf
https://keyboardwaves.com/bpm-ms-samples-calculator/

Nincsenek megjegyzések:

Megjegyzés küldése