Nochmal moin!
Bis der Rest der Diskussion hierher verschoben wird, fange ich schon mal an. Und zwar mit einem Gedankenexperiment, das ganz gut geeignet ist, zu erklären, was Rauschen denn überhaupt ist und wie es bei Bildsensoren zustandekommt.
Wir stellen uns verschieden große Tische vor (große und kleine Sensoren), die wir flächendeckend mit gleich hohen, aber unterschiedlich großen Gefäßen vollstellen (verschieden große Sensor-Pixel bzw. Sensel (für Sensor-Element)). Und diese Tische stellen wir für gleich lange Zeiten (die Belichtungszeit) in einen schön gleichmäßigen Regen. Die Regentropfen (Photonen/Elektronen) sollen alle gleich groß und schwer sein. Offensichtlich werden große Gefäße bei starker Beregnung (aufgrund längerer Beregnungszeit und/oder stärkerem Regen) mehr Tropfen enthalten, als kleine Gefäße be geringer Beregnung.
Aber vor allen Dingen werden nicht alle Gefäße von gleich viel Regentropfen getroffen, sondern ihre Anzahl ist statistisch verteilt. Mathematisch wird das durch die Poisson-Verteilung beschrieben, die bei ausreichender Tropfenzahl einer Gaußschen Normalverteilung entspricht mit -und jetzt kommt's- einer Standardabweichung, die gleich der Wurzel aus der mittleren Tropfenzahl ist. Wenn meine Gefäße im Mittel von 100 Tropfen getroffen wurden, dann ist die Standardabweichung σ= ±10, bei 1000 Tropfen ist sie ±32, bei 10000 Tropfen ±100. Und das bedeutet, dass bei einer mittleren Tropfenzahl von 100 ca. 70% der Gefäße zwischen 90 und 110 Tropfen enthalten werden, die anderen 30% enthalten noch mehr oder noch weniger. Die absolute Größe der Standardabweichung steigt also mit der Tropfenzahl. Aber viel wichtiger ist das Verhältnis aus mittlerer Tropfenzahl (Signal) und Standardabweichung (Rauschen), und dieses Verhältnis wird immer besser, je größer die Tropfenzahl ist. Bei im Mittel 100 Tropfen ist die Standardabweichung 10x kleiner, bei 1000 Tropfen 32x, bei 10000 Tropfen 100x. Und das ist der Signalrauschabstand, englisch abgekürzt SNR (Signal-to-Noise-Ratio) und meistens in dB angegeben. In meinen 3 Beispielen mit 100/1000/10000 Tropfen ist der SNR =20dB/30dB/40dB.
Das beschriebene ist nach meiner Einschätzung ein anschauliches Gedankenexperiment für Photonenrauschen (shot noise), und dieser Rauschanteil überwiegt bei heutigen Sensoren über einen weiten Belichtungs- und ISO-Bereich bei weitem alle anderen Rauschanteile. Es erklärt auch ganz anschaulich, warum kleine Sensel "auf Pixelebene" stärker rauschen und warum es bei geringer Belichtung stärker rauscht.
Bislang haben wir so getan, als könnten wir die Tropfenzahl exakt bestimmen. tatsächlich muss sie aber irgendwie gemessen werden. Das passiert in diesem Beispiel vielleicht mittels einer Skala an den Gefäßen, wo das Regenvolumen abgelesen werden kann. Angenommen, ich kann die Tropfenzahl auf diese Weise auf ±10 Tropfen bestimmen. Das entspricht bei einem Sensor dem Ausleserauschen. Das hat dann auf die im Mittel 10000±100 Tropfen keinen erkennbaren Einfluss, bei 100±10 aber doch. Die Statistik sagt nun, dass sich die Standardabweichungen in diesen Fällen quadratisch addieren, hier wird σ= ±√(10²+10²) = ±14.
Wie vergleiche ich nun Bilder von Sensoren mit unterschiedlicher Senselzahl? Nun, ich muss gleich viele Bildpunkte (und die nenne ich jetzt Pixel) erzeugen, und zwar sinnvollerweise 1. weniger als jeder der Sensoren Sensel haben 2. etwa soviele, wie ein Mensch beim betrachten eines Bilds überhaupt auflösen kann. Da kann man nun alle möglichen Annahmen treffen. Bill Claff nutzt etwa 1MPixel, DxOMark benutzt 8MPixel. Wenn ich nun also den Inhalt vieler kleiner Gefäße in wenige große zusammenschütte und für die dann die Standardabweichung bestimme, dann ist in denen natürlich die Tropfenzahl höher und dementsprechend der SNR größer, und zwar proportional zur Wurzel aus dem Pixelverhältnis bzw. um 10*LOG(Pvorher/Pnachher) dB. Das dürft Ihr gern mal bei DxOMark beim Vergleich der Ansichten "print" und "screen" verifizieren.
Man könnte in dieses Modell jetzt auch noch den ISO-Verstärker reinmodellieren, aber das spare ich mir erstmal. Entscheidend ist: Hohe ISO kommt mit geringerer Belichtung aus (das ist ja der Grund dafür), und allein deshalb rauscht es schon mehr. Bei einigen Kameras ändert sich das Ausleserauschen deutlich mit den ISO, bei anderen fast gar nicht, aber dazu später.
Und jetzt die Dynamik. Angenommen, mein Sensel kann insgesamt 50000 Elektronen aufnehmen ("Full Well Capacity") Dafür muss es von etwa doppelt sovielen Photonen getroffen worden sein ("Quanteneffizienz"), aber das spielt hier keine Rolle. 50000 ist eine durchaus realistische Zahl für heutige DSLR. Wenn der ganze Sensor nun so belichtet wird, dass alle Sensel im Mittel diese 50000 Elektronen enthalten (würden, geht ja nicht, 1/2 der Sensel würde überlaufen), dann ist σ= ±224 und der Rauschabstand wäre 47dB. Und angenommen, die Sensel hätten wirklich ein Ausleserauschen von ±10. Dann wäre der Rauschabstand bei 100 Elektronen 17dB und bei etwa 10,5 Elektronen 0dB. Dieser Punkt, wo SNR =0dB erreicht ist, ist bei DxOMark die Untergrenze des Dynamikumfangs. Die Obergrenze liegt 1/2LW unter der Senselkapazität, in meinem Beispiel wäre das 50000/√2 =35000. Und das Verhältnis dieser beiden Werte, ausgedrückt in Zweierpotenzen/Blenden/Lichtwerten ist der Dynamikumfang, hier also LOG2(35000/10,5) =12LW.
All das hatte bisher nichts mit der Bittiefe der Raw-Daten zu tun. Wenn wir mal eine lineare und elektronenzahlproportionale 14bit-Codierung annehmen (ich kenne keine Foto-Kamera, wo das nicht grundsätzlich so wäre), dann wäre die höchste codierbare Zahl 16383 und damit zu klein, um wirklich Elektronen einzeln zu "zählen" (die Höchstzahl soll ja 50000 sein). Mit einer Skalierung von etwas über 3 Elektronen pro "Zählschritt" könnte aber der gesamte Bereich abgedeckt werden. Ich nehme mal der Einfachheit halber den Faktor 4 an. Die Elektronenzahl wird dann in Vielfachen von 4 erfasst. Das ist bei großen Elektronenzahlen völlig egal, bei kleinen aber nicht. In der Nähe des SNR =0dB-Punktes werden also nicht 10, 11 oder 12,7 Elektronen gezählt (wegen des Ausleserauschens können auch Nachkommastellen vorkommen), sondern 8, 12 oder 16. Das bringt eine weitere Rauschquelle ins Spiel, das Quantisierungsrauschen. Und dessen Standardabweichung, die wiedr quadratisch zu den anderen zu addieren ist, ist Δ/√12, hier also 4/√12 = ±1,2. Angesichts eines angenommenen Ausleserauschens von ±10 spielt das überhaupt keine Rolle, die Dynamik sinkt dadurch nur minimal. Und selbst wenn man 12bit nutzen würde mit σq = ±4,7, hätte das fast keinen Effekt auf die Dynamik. Erst mit 10bit würde sie auf auf etwa 11LW sinken.
Natürlich hat die Quantisierung auch den Effekt, dass es leichter zu Tonwertabrissen kommen kann, was ich hier jetzt nicht berücksichtigt habe. Hier ging's ja erstmal nur um rauschen, Dynamik und Bittiefe.
Gruß, Matthias