Sprache auswählen

In dieser Rubrik sammeln wir Artikel zu Soundkarten.

Dies beeinhaltet Themen wie:

  • Hardware
  • ADC/DAC
  • Betriebssysteme
  • Treiber z.B. ASIO

 

Soundkarten und Audio-Interfaces: Eine technische Übersicht

Eine Soundkarte dient als Brücke zwischen analogen oder digitalen Audio-Schnittstellen und einem PC. Das Herzstück ist die Wandlung zwischen digitaler und analoger Audio-Domäne

Digital-Analog- und Analog-Digital-Wandlung im Detail

Die Qualität der Wandler (DAC und ADC) ist fundamental. Moderne Audio-Wandler arbeiten fast ausschließlich nach dem Prinzip der Delta-Sigma-Modulation.

  • Abtastung und Nyquist-Shannon-Theorem: Das Theorem besagt, dass ein Signal perfekt rekonstruiert werden kann, wenn die Abtastrate mindestens doppelt so hoch ist wie die höchste Frequenz im Signal. Für das menschliche Hörvermögen (bis ca. 20 kHz) genügen theoretisch knapp über 40 kHz. Höhere Abtastraten (96 kHz, 192 kHz) werden genutzt, um das erforderliche Anti-Aliasing-Filter (ein Tiefpassfilter vor dem ADC, um Frequenzen über der halben Abtastfrequenz zu entfernen) flacher gestalten zu können, was Phasenverschiebungen im hörbaren Bereich reduziert. Zusätzlich werden Quantisierungsfehler weiter aus dem hörbaren Frequenzband verschoben.

  • Delta-Sigma Wandlung: Anstatt direkt mit der Ziel-Bittiefe zu quantisieren, nutzen diese Wandler eine sehr hohe Abtastrate (Oversampling, oft 64x, 128x oder mehr der Ziel-Abtastrate) und einen einfachen Quantisierer mit sehr geringer Bittiefe (oft nur 1 Bit). Ein Noise Shaper (Rauschformer) verschiebt dabei das durch die grobe Quantisierung entstehende Rauschen in höhere Frequenzbereiche, weit oberhalb des hörbaren Spektrums. Ein steiles digitales Tiefpassfilter entfernt dieses Rauschen anschließend, und ein Dezimator reduziert die Abtastrate auf den Zielwert (z.B. 44.1 kHz, 48 kHz, 96 kHz). Ein solcher Wandler erreicht hohe Auflösung (Bittiefe) und Linearität ohne extrem präzise (und teure) analoge Bauteile für den Quantisierer selbst.

  • Bittiefe und Dynamikumfang: Die Bittiefe bestimmt die Anzahl der möglichen Amplitudenstufen. Jedes zusätzliche Bit verdoppelt die Anzahl der Stufen und reduziert das Quantisierungsrauschen. Der theoretische maximale Dynamikumfang SNR in dB ergibt sich näherungsweise durch die Formel: SNR =6.02 * Anzahl Bits + 1.76 dB.

    • 16 Bit: ca. 96 dB (CD-Qualität)
    • 24 Bit: ca. 144 dB (Studio-Standard)
    • In der Praxis wird der theoretische Dynamikumfang durch das analoge Rauschen der Schaltung (thermales Rauschen etc.) begrenzt und liegt meist niedriger. Hochwertige Interfaces erreichen heute reale SNR-Werte von 115 dB bis über 125 dB.

Digital Signal Processing (DSP)

Viele Soundkarten, insbesondere externe Interfaces und höherwertige interne Karten, verfügen über dedizierte DSPs.

  • Funktionen: Neben Effekten (Reverb, EQ, Kompression, oft für latenzfreies Monitoring genutzt) übernehmen DSPs oft auch das digitale Routing der Audiosignale zwischen Ein- und Ausgängen sowie zum/vom Computer und das digitale Mischen (Erstellung von Monitor-Mixen).
  • Architekturen: DSPs können mit Festkomma- (Fixed-Point) oder Gleitkomma-Arithmetik (Floating-Point) arbeiten. Floating-Point bietet einen deutlich höheren internen Headroom und verhindert internes Clipping bei der Signalverarbeitung, was zu saubereren Ergebnissen führt, ist aber rechenintensiver.
  • Hardware-Beschleunigung: Durch die Auslagerung von Berechnungen auf den DSP wird die Haupt-CPU (Central Processing Unit) des Computers entlastet, was besonders bei komplexen Projekten mit vielen Spuren und Effekten vorteilhaft ist.

Moderne Audio Workstations verlagern diese Effekte allerdings auf die Grafikkarte (GPU). Einen solche GPU verfügt eine Rechenleistung, die klassische DSPs um Größenordnungen übersteigt. Allerdings sind die LAtenzen erheblich. Daher eignen sich die rechenstarken GPUs für Offline-Effekt und nicht für latenzfrei Echtzeit-Effekte

Analoge Schaltungstechnik

Die Qualität der analogen Komponenten vor dem ADC und nach dem DAC ist entscheidend für das Endergebnis.

  • Operationsverstärker (Op-Amps): Werden für die Verstärkung (Mikrofonvorverstärker, Kopfhörerverstärker), Pufferung und Filterung (Anti-Aliasing, Rekonstruktionsfilter nach dem DAC) eingesetzt. Ihre Qualität (Rauschen, Verzerrungen (THD), Slew Rate, Bandbreite) hat direkten Einfluss auf den Klang.
  • Kondensatoren: Werden zur Kopplung von Audiosignalen zwischen Stufen (Entfernung von DC-Anteilen) und zur Filterung der Stromversorgung verwendet. Die Wahl des Dielektrikums (z.B. Folie, Elektrolyt, Keramik) beeinflusst Klang und Stabilität.
  • Mikrofonvorverstärker (Preamps): Eine kritische Komponente für Aufnahmen. Wichtige Parameter sind Gain (Verstärkungsfaktor, oft bis zu 60 dB oder mehr), Eigenrauschen, THD+N und Frequenzgang.
  • Phantomspeisung (+48V): Eine über das symmetrische XLR-Kabel bereitgestellte Spannung zur Versorgung von Kondensatormikrofonen.

Audio Verbindungen

  • Symmetrische vs. Unsymmetrische Verbindungen:
    • Unsymmetrisch (TS-Klinke, Cinch): Signal wird auf einem Leiter relativ zur Masse geführt. Anfällig für Einstreuungen über längere Kabelwege.
    • Symmetrisch (XLR, TRS-Klinke): Signal wird auf zwei Leitern geführt, einmal normalphasig (+) und einmal invertiert (-), relativ zur Masse. Am Eingang wird die Differenz gebildet. Störungen, die auf beide Leiter gleichmäßig einwirken (Gleichtaktstörungen), heben sich dabei auf (Gleichtaktunterdrückung - Common Mode Rejection Ratio, CMRR). Ermöglicht längere Kabelwege und reduziert Brummen und Rauschen.
  • Digitale Audio Schnittstellen: SPDIF, AES/EBU, ADAT, MADI

Taktung (Clocking) und Jitter

Die Präzision des Taktsignals, das die Abtastung (ADC) und Rekonstruktion (DAC) steuert, ist kritisch.

  • Master Clock: Der Taktgenerator (Oszillator) in der Soundkarte. Seine Stabilität und Genauigkeit beeinflussen die Klangqualität.
  • Jitter: Zeitliche Ungenauigkeiten (Schwankungen) im Taktsignal. Jitter kann zu hörbaren Artefakten führen.
  • Synchronisation (Word Clock): Bei Verwendung mehrerer digitaler Audiogeräte (z.B. mehrere Interfaces, externe Wandler) müssen diese auf einen gemeinsamen Takt synchronisiert werden, um Timing-Fehler (Klicks, Aussetzer) zu vermeiden. Dies geschieht oft über eine separate Word Clock Verbindung (BNC-Anschluss, 75 Ohm) oder über das digitale Audiosignal selbst (z.B. eingebettet in ADAT oder AES/EBU). Ein Gerät agiert als Master, die anderen als Slaves. Dadurch tasten alle Interfaces synchron ab.

Digitale Audio-Protokolle

Soundkarten unterstützen zum Teil vielfältige digitale Audio-Schnittstellen

  • S/PDIF (IEC 60958 Type II): Consumer-Standard, Koaxial (75 Ohm Cinch) oder Optisch (Toslink). Überträgt meist unkomprimiertes Stereo-PCM oder komprimierte Mehrkanalformate (Dolby Digital, DTS).
  • AES/EBU (AES3 / IEC 60958 Type I): Professioneller Standard, symmetrisch (110 Ohm XLR), höhere Signalpegel als S/PDIF, erlaubt längere Kabel. Überträgt Stereo-PCM, kann Metadaten enthalten.
  • ADAT Lightpipe: Optisches Format von Alesis. Überträgt 8 Kanäle PCM bei $44.1/48 kHz$. Mittels S/MUX (Sample Multiplexing) können auch höhere Raten übertragen werden, allerdings mit reduzierter Kanalzahl (S/MUX2: 4 Kanäle bei $88.2/96 kHz$, S/MUX4: 2 Kanäle bei $176.4/192 kHz$).
  • MADI (AES10): Multi-channel Audio Digital Interface. Professionelles Format für bis zu 64 Kanäle über Koaxialkabel (BNC) oder Glasfaser.

Schnittstellen

Soundkarten finden wir heutzutage in vielfältiger Form

  • Integrierte Lösungen: Die Soundkart ist direkt im Mainboard des PC integriert. Mittlerweile erreichen diese Lösungen durchaus brauchbare Qualitäten. Abstriche muss man allerdings beim Mikrofon-Vorverstärker machen.
  • PCI/PCIE für Steckarten mit hoher Datenrate und geringer Latenz
  • USB: am häufigsten findet man heute USB-Soundkarten. Die Schnittstelle ist sehr flexibel und einfach in der Handhabung. Es werden auch sehr hochwertige Lösungen angeboten. Problematische sind höhere Latenzen und die berüchtigten Drop-Outs (Klicks) bei fehlerhafter Implementierung. Lange Zeit waren Treiben sehr fehleranfällig. Mittlerweile unterstützt auch Windows USB Audio 2.0 (Nicht zu verwechseln mit USB 2.0!)
  • Firewire: Diese Schnittstelle ist mittlerweile veraltet. Sie ist aber prinzipiell besser als USB für synchrone Audio-Übertragung geeignet
  • Bluetooth: Dieser Funk-Standard ist mittlerweile auch für Hifi-taugliche Übertragungen geeignet. Audio wird dabei grundsätzlich komprimiert und es treten deutliche Latenzen auf. Zusätzlich ist Bluetooth außerordentlich komplex. Fehlerhafte Umsetzungen verhindern das saubere Zusammenspiel der Geräte.

Treiberarchitekturen und Latenz

Die Software-Schnittstelle (Treiber) zwischen Betriebssystem und Hardware ist entscheidend für Leistung und Latenz.

  • Latenz: Die Gesamtverzögerung vom Analogeingang durch ADC, Pufferung im Treiber/Computer, Verarbeitung in der DAW (Digital Audio Workstation) und zurück durch DAC zum Analogausgang (Round-Trip Latency - RTL). Gemessen in Millisekunden (ms). Fürs Monitoring bei Aufnahmen sind Werte unter 10ms erstrebenswert.
  • Treiber-Modelle:
    • ASIO (Audio Stream Input/Output): Von Steinberg entwickelt, Standard unter Windows für professionelle Audioanwendungen. Umgeht Teile des Windows-Audio-Mixers für direkten Hardware-Zugriff und sehr niedrige Latenzen.
    • Core Audio (macOS): Systemintegrierte Low-Latency-Audioarchitektur von Apple. Bietet von Haus aus geringe Latenzen und gute Performance.
    • WASAPI (Windows Audio Session API): Modernerer Teil des Windows-Audiosystems. Im "Exclusive Mode" kann es ASIO-ähnliche niedrige Latenzen erreichen.
    • WDM (Windows Driver Model): Standard-Treiberarchitektur unter Windows, oft mit höherer Latenz verbunden als ASIO oder WASAPI Exclusive.
    • ALSA / JACK / PipeWire (Linux): ALSA ist die Basis-Architektur. JACK ist ein Low-Latency-Audioserver für professionelle Ansprüche. PipeWire ist ein moderner Nachfolger, der PulseAudio und JACK vereinheitlichen soll.

Erweiterte Qualitätskriterien

Zusätzlich zu SNR, Abtastrate und Bittiefe:

  • Frequenzgang: Sollte möglichst linear (flach) über den relevanten Frequenzbereich sein 20 Hz - 20 kHz. Abweichungen bedeuten eine Verfärbung des Klangs.
  • Total Harmonic Distortion + Noise (THD+N): Misst die Summe aller harmonischen Verzerrungen und des Rauschens relativ zum Nutzsignal. Angegeben als Prozentwert (z.B. < 0.001%) oder in dB (z.B. < -100 dB). Je niedriger, desto sauberer das Signal.
  • Intermodulationsverzerrung (IMD): Misst Verzerrungen, die entstehen, wenn mehrere Frequenzen gleichzeitig wiedergegeben werden. Oft kritischer als THD+N für die subjektive Wahrnehmung. Durch nicht-lineare Effekte entstehen Mischprodukte.
  • Kanaltrennung (Crosstalk): Misst, wie viel Signal von einem Kanal auf den anderen überspricht. Dieser Wert wird in dB angegeben

Fazit

Die technische Leistungsfähigkeit einer Soundkarte oder eines Audio-Interfaces ist das Ergebnis eines komplexen Zusammenspiels aus Wandlerqualität, analogem Schaltungsdesign, Bauteilauswahl, Taktgenauigkeit, Stromversorgung, Abschirmung und Treiberstabilität. Während Spezifikationen wichtige Anhaltspunkte liefern, ist die tatsächliche Implementierung und das Zusammenspiel aller Komponenten entscheidend für die erreichte Audioqualität und Zuverlässigkeit im Praxiseinsatz. Die Wahl des richtigen Geräts hängt daher stark von den spezifischen technischen Anforderungen der Anwendung ab.