FIELD GUIDE / GLOSSAR DE

 

Die Gamma-Kurve bestimmt den Kontrast und Dynamikumfang einer Aufnahme. Eine neblige Winterszene mit flachem Kontrast kann vielleicht noch von einer steileren Gammakurve (Cinelike-D, Hypergamma, 709, ...) vom tiefsten bis hellstem Grau erfasst werden, während ein Portrait vor einem Fenster im Sommer um die Mittagszeit nur mit einer flachen logarithmischen Kurve (Slog2, Slog3, Vlog, Clog, ...) noch Detail außen einfangen kann, vorausgesetzt der Dynamikumfang des Sensors ist groß genug.

 

Visualisierung des Dynamikumfanges einer 709- und einer typischen log-Kurve

 

Logarithmische Aufzeichnung verteilt pro Blende in einer Szene die zur Verfügung stehenden Schattierung von Schwarz zu Weiß gleichmäßig bei gegebener Farbtiefe. Eine steilere 709-artige Gammakurve weisst einen Großteil der Werte den hellsten Lichtern zu, wobei die wichtigsten Bildteile, wie Hauttöne, nur wenige Farbabstufungen erhalten.

 

Bei 8 bit Farbtiefe stehen nur insgesamt 256 und bei 10 bit 1024 Schattierungen pro Grundfarbe zur Verfügung. Das rein technische flache und scheinbar farbarme Log-Bild verlangt eine LUT (look-up table) oder Color Grading, um ein normal-kontrastiges Bild anzuzeigen.

 

LUTs sind Dateien, die einen Grade/Farbkorrektur programmunabhängig tragen können. Angewendet in Kameras oder im Schnitt erlauben sie temporär Log-Material mit normalem Kontrast und Farben anzuzeigen. Adobe Premiere und Resolve z.B. sind mit einer Reihe von LUTs für die bekanntesten Kameras ausgestattet.

 

Der Dynamikumfang in Blenden (f-stops) gibt den Abstand zwischen Weiß und dem dunkelsten Detail an den eine Kamera bzw. Sensor abbilden kann. Dabei bestimmt die Stärke und Art des Rauschens eine untere subjektive Grenze.

 

Clipping beschreibt Bildinformation zu hell (oder zu dunkel) für die verwendeten Aufnahmeparameter. Überbelichtete Areale, die nur als Weiß aufgezeichnet werden, sind "geclippt". Häufigstes Beispiel sind geclippte Fenster oder Himmel die keine Struktur mehr enthalten. Im Waveform erscheinen diese Bildteile als Strich, der das ETTR-Belichtungsniveau anzeigt was ideal knapp unterschritten werden sollte.

 

 

2 Histogramme: Normale Belichtung (oben), ETTR (unten)

 

Expose To The Right (ETTR) ist eine Belichtungsmethode, bei der man so viel wie möglich Licht sammelt, um das Signal-zu-Rausch-Verhältnis für Log- oder RAW-Aufnahmen zu optimieren, um das Rauschen im Bild (Signal) zu minimieren. Dabei öffnet man die Blende, möglichst ohne die hellsten Bildteile zu clippen. Das Signal verschiebt sich dabei im Histogramm nach rechts.

 

Histogramme (siehe Abb. oben) plotten die Bildanteile nach Helligkeit, von links (Schwarz) nach rechts (Weiß). Nach ETTR belichte Aufnahmen vergrößern möglichst den Abstand zwischen den dunkelsten Bildinformation und dem Grundrauschen des Sensors. Man könnte also argumentieren, daß eine klassische Belichtung, nach Herstellerangaben, die noch Raum bis zum Clipping läßt, eine Unterbelichtung bedeutet.

 

Native ISO bezeichnet die "Empfindlichkeit" (oder besser Lichtsammelleistung) einer Kamera bzw. ihres Sensors. Ein Sensor besitzt in der Regel nur eine native (oder base) ISO, wie ein analoger Film. Höhere oder niedrigere Einstellungen der identischen ISO oder GAIN Regler verstärken oder reduzieren nur das Signal des Sensors elektronisch. Die Lichtsammelleistung des Sensors bleibt gleich.

 

Mit nativer ISO zeichnet eine Kamera den größten Kontrast(Dynamik)-Umfang auf und ist damit ihr bester Modus. Veränderungen in beide Richtungen reduzieren den Dynamikumfang ohne das Rauschniveau zu beeinflussen.

 

Codec steht kurz für Encoder und Decoder. Codecs sind Algorithmen die Bild oder Ton in ein bestimmtes Format umwandeln und zurückwandeln (encodieren und decodieren). Dabei  komprimieren Codecs meist die Daten, denn die Datenmenge von unkomprimiertem Video kann die Möglichkeiten der Mehrzahl der Filmprojekte überschreiten. High-end Workflows verwenden Codecs ohne, oder mit verlustfreier Kompression, wie Arri RAW bei der Aufnahme und OpenEXR und DPX in der Postproduktion.

 

Beispiele für Videocodecs mit verlustbehafteter Kompression sind die Prores und DNxHD Varianten oder h264/AVC-basierte wie XAVC-S, XAVC-I, XF-AVC, ... . Sie sind unterschiedlich effizient, d.h. bei gleicher Qualität benötigt ein Codec unterschiedliche Datenmengen, angegeben als Bitrate in Megabit/Sekunde, Mbit/s. Die Bitrate gibt letztlich die Qualität an, weniger Farbtiefe (8, 10 bit, ...) oder Farbunterabtastung (chroma subsampling) 420, 422, oder 444.

 

Inter-frame (long-GOP) Codecs zeichnen nur in Abständen vollständige Einzelbilder (keyframes) auf, für die Bilder dazwischen speichern sie nur die Unterschiede von Bild zu Bild. Die Methode erlaubt besonders in Szenen mit wenig Bewegung Reduktion der Datenmenge. Wird im Schnitt ein Einzelbild zwischen 2 Keyframes angefahren, muss der Decoder alle Daten ab dem vorangehenden Keyframe lesen und decodieren. Je stärker das Material auch noch komprimiert ist, desto größer ist die Wartezeit bis das gewünschte Frame angezeigt wird. XAVC-L oder h265-basierte Codecs beispielsweise sind extrem komprimiert und verhalten sich träge selbst in modernen Programmen, während der mpeg2-Codec einer C300 z.B. kann auch von alten Rechnern mit Avid flüssig bearbeitet werden. Probleme haben Inter-frame Codecs mit bewegtem Detail, ist die Bitrate nicht hoch genug.

 

Intra-frame (all-Intra) Codecs speichern jedes Einzelbild vollständig und lassen sich daher flüssig bearbeiten. Sie benötigen jedoch, bei gleicher Qualität, wesentlich mehr Bitrate als ein inter-frame Codec. Beispiele sind Prores, DNxHD, aber auch Bildsequenzen wie DPX oder OpenEXR.

 

Container oder Wrapper wie MOV (Quicktime), MXF oder MP4 nehmen encodierte Ton- und Video-Streams auf. MOV und MXF z.B. sind mit einer Vielzahl von Codecs kompatibel. Wird also ein MOV angefragt, kann das fast alles bedeuten, ein Prores444XQ mit unkomprimiertem PCM Ton (500 Mbit/s über 200 GB/h, oder ein stark komprimiertes h264 von unter 1 Mbit/s, das ein Sender über eine Mediathek dem Kunden in schlechter Qualität anbietet.

 

Farbunterabtastung (Chroma subsampling) ist ein altes Verfahren aus analogen Zeiten zur verlustbehafteten Reduktion der Bitrate, das sich Eigenheiten des menschliche visuellen Systems zu nutze macht: Farbinformationen werden mit geringerer Auflösung wahrgenommen als Helligkeitsinformationen.

 

4:4:4 bedeutet keine Unterabtastung, 4:2:2 läßt die Hälfte der Farbinformationen aus und 4:2:0 reduziert die Farbauflösung auf 1/4. Farbunterabtastung wird noch vor Kompression durch den Codec durchgeführt. Je stärker die Unterabtastung, desto mehr farbbasierte Artefakte treten besonders in kontrastreichen Bildteilen auf.

 

Ist die Bitrate nicht das Nadelöhr, bestimmt die Farbtiefe die Qualität von Farbverläufen.

Eine Farbtiefe von 8 bit bedeutet

 

2^8 = 256 Schattierungen im Graustufenverlauf von Schwarz (0) zu Weiß (255) und

256^3 ≈ 16,7 Millionen Farbkombinationen der 3 Farbkanäle (R, G, B) insgesamt.

 

Bei 10 bit Farbtiefe: 2^10 = 1024 Stufen von Schwarz zu Weiß; 1024^3 ≈ 1,07 Milliarden Farben.

 

Der RGB Wert: (255, 0, 0) stellt 100% Rot in 8 bit dar. Grün: (0, 255, 0)...

Wie rein oder gesättigt dies Rot tatsächlich ist, hängt von den physikalischen Eigenschaften der Anzeige ab. Je nach Größe des Farbraumes (Gamut) eines Anzeigegerätes werden Farben blasser oder gesättigter angezeigt. Kalibration auf einen Arbeitsfarbraum, wie REC709, ermöglicht konstante Ergebnisse, gegeben der Gamut des Displays schließt diesen Farbraum ein.

 

8 bit oder weniger entspricht den Fähigkeiten der meisten Displays und sonstiger Anzeigegeräte, in der Regel hinreichend für das menschlichen Auge. Nur sehr sanfte Verläufe profitieren von höherer Bitrate. In der Nachbearbeitung profitiert man von 10 bit oder größerer Farbtiefe, um zum Beispiel Strukturen in Himmel herauszuarbeiten, oder allgemein Material stärker bearbeitet zu können, ohne daß Bilder "auseinander fallen" und Farbabstufungen sichtbar werden (Banding, Posterization).

 

Die Begriffe Auflösung, Schärfe (-Eindruck) und Pixeldimension werden häufig vermischt.

 

Auflösung ist hier die entscheidende Größe. Sie gibt an, wie fein ein optisches System (Kamera) Details wiedergeben oder "auflösen" kann. Bestimmt wird die Auflösung vom maximalen Auflösungsvermögen von Objektiv und Sensor, aber auch Fokus, den Lichtverhältnissen, Filtern, oder Zustand der Luft beeinflussen die Auflösung einer Aufnahme. Bewegung von Objekten oder der Kamera reduziert ebenfalls, bei gegebener Belichtungszeit, die Auflösung (Bewegungsunschärfe). Letztlich bestimmen die Parameter des digitalen Aufnahmeformats die Auflösung: Pixeldimension, Farbtiefe, Farbunterabtastung, Codec und Bitrate.

 

Anders als von vielen Herstellern suggeriert, bestimmt nicht die Menge an Photosides (Pixeln) des Sensor das maximale Auflösungsvermögen und Bildqualität eines Sensors. Qualität der Pixel, Signalverarbeitung, Codec und seine Bitrate nehmen ebenfalls Einfluss. So kann beispielsweise eine Kamera mit 3K Sensor evtl. gleich oder mehr Detail auflösen, als eine Kamera mit 4K Sensor. Kameras ohne OLPF zeigen ausgeprägtes Aliasing, welches als falsches Detail wahrgenommen wird und hohe Schärfe und Auflösung vortäuscht.

 

Tatsächliches Auflösungsvermögen wird bestimmt mit Testtafeln, die Muster von alternierenden weißen und schwarzen Linienpaaren zeigen. Die gröberen Linienpaare entsprechen gröberem Detail und niedrigeren Frequenzen, feinere Linienpaare feinerem Detail und kürzeren Frequenzen. In Richtung der kürzeren Frequenzen nimmt der Kontrast zwischen den Linien ab, bis sie nicht mehr unterscheidbar sind. Hier liegt die Auflösungsgrenze, angegeben in Linienpaaren pro Millimeter (Lp/mm).

 

 

Der abnehmende Kontrast zwischen den schwarzen und weißen Linien wird in so genannten MTF Graphen geplottet, um optische Systeme einfach miteinander vergleichen zu können.

 

Schärfe und Schärfeeindruck sind schwammige Begriffe. Schärfe bezeichnet den Kontrast oder die Unterscheidbarkeit von Details (z.B. den Linienpaaren einer Testtafel), unabhängig von der Auflösung. Ist eine Szene im Fokus, ist das Bild einer Kamera mit beliebiger Auflösung scharf. Wird jedoch jedes Bild vergrößert, verliert es an Schärfe. Auch Änderung des Kontrastes, oder Schärfe- und Weichzeichnungsfilter in der Nachbearbeitung modifizieren die Schärfe.

 

Ein hoher Eindruck von Schärfe ist ebenfalls kein Anzeichen für hohe Auflösung. Der Schärfeeindruck wird durch Kontrast von gröberem Detail bestimmt.

 

Das obere Bild wirkt schärfer, besitzt aber nur die halbe Auflösung des unteren. Werden 4K Kameras oder Fernseher verkauft, demonstrieren Hersteller oft überschärftes Material, was dem Kunden Auflösung vorgaukeln soll.

 

Pixeldimensionen der häufigsten Formate

 

Pixeldimension gibt die Anzahl von Pixeln in Höhe und Breite eines digitalen Bildes an und damit nur seine maximal mögliche Auflösung.

 

Die maximale Auflösung wird bei Sensoren von 2 physikalischen Realitäten beschränkt: Das Nyquist-Shannon Theorem und den Limits moderner CMOS-Sensoren mit Bayer-Farbfilter.

 

Nach dem Nyquist-Shannon Theorem muß ein Bilddetail mindestens mit der doppelten Frequenz abgetastet werden. Z. B.: ein HD-Bild, 1920x1080, löst demnach maximal 960 horizontale Linienpaare und 540 vertikale Linienpaare auf.

 

 

Links: typischer CMOS Sensor mit standard Bayer-Farbfilter-Mosaik; Rechts: resultierendes RGB Bild, wenn für einen einfarbigen Pixel im Sensor ein RGB-Pixel interpoliert wird, z.B. 4K Sensor -> 4K Videos.

 

Sensoren nach dem CMOS-Bayer-Design finden sind in sämtlichen modernen Kameras aller Preisklassen. CMOS-Sensoren können jedoch physikalisch nicht die Hälfte der Linienpaare, die ihre K-Zahl (4K z.B.) und Nyquist vermuten läßt, auflösen. Pixel digitaler Bilder enthalten jeweils Informationen für die drei Grundfarben (Rot, Grün, Blau), d.h. Sensoren müßten für jeden Bildpunkt im resultierenden Bild, eine rote, grüne und blaue Photoside (Pixel im Sensor) besitzen. CMOS-Sensoren enthalten aber nur eine Photoside für einen Pixel im resultierenden Bild. Zudem sind die Menge der Photosides pro Grundfarbe ungleich verteilt: 25% blaue, 25% rote und 50% grüne Photosides (Abb. links oben). Durch Interpolation (Demosaicing oder Debayering) werden die fehlenden Farbinformationen für jeden Pixel generiert (Abb. rechts oben).

 

Es ist also irreführend, wenn eine Kamera mit 4K Sensor auch 4K Videos produzieren soll. Während des Debayering werden dabei unnötig hohe Datenmenden produziert. Die Arri Alexa/Amira (3K Sensor) oder C300 MKI (4K Sensor) wurden als 2K/HD-Kameras vermarktet. Heute bewerben viele Hersteller Kameras mit xK-Sensor als xK-Kameras.

 

Wird demnach von einem Auftraggeber ein Master mit der Pixeldimension von beispielsweise 4K verlangt, bleibt unklar, ob das Master auch die maximale Auflösung von 4K ausnutzen soll, oder ob nur die Kamera ein 4K Label aufweisen muss. Sollen 4K ausgenutzt werden, reicht eine Kamera mit 4K Sensor nicht aus.

 

Auflösung wird auch häufig mit Bildqualität gleichgesetzt, oder als zentraler Faktor angesehen. Auflösung gibt letztlich an, wie groß ein Bild angezeigt werden kann. Kameras bieten seit Jahren ausreichend Auflösung für TV - nur auf der Leinwand zeigen sich noch Unterschiede. Häufig limitiert aber die Bitrate die Bildqualität, wie im Fernsehen oder bei Streamingdiensten. Die obere sinnvolle Grenze für die Auflösung von Bildern wird durch das menschliche Auge bestimmt und wurde bereits vor Jahren von höherwertigen Kameras für die meisten Anwendungen erreicht.

 

Siehe zu dem Thema die Demo von Steve Yedlin ASC: http://yedlin.net/ResDemo

Einführendes Interview mit der Zeitschrift American Cinematographer:

https://theasc.com/articles/a-clear-look-at-the-issue-of-resolution

 

 

 

Aliasing und resultierendes Moiré einer A7SII in HD 1:1 Pixel

 

Aliasing ist der Fachbegriff für Fehler in der Signalverarbeitung/abtastung. Aliasing ist unvermeidbar wenn ein Sensor mit endlicher Auflösung die analoge Wirklichkeit digital abtastet. Das Aliasing in der Bild-Signalverarbeitung zeigt sich als "flirrende" Treppen-Artefakte an kontrastreichen Kanten. Bei kontrastreichen Mustern (Textilien z.B.) manifestiert sich Aliasing als Morié-Effekt.

Sichtbares Aliasing in Videos zeigt, daß der Sensor nicht vermag für das Motiv ausreichend feines Detail aufzulösen, bei hinreichendem Auflösungsvermögen der Optik. Sensoren höherwertiger Kameras sind daher mit einem OLPF (optical low pass filter) ausgestattet, ein Filter der direkt auf dem Sensor sitzt und Details, zu fein für den Sensor, herausfiltert.

Aliasing kann auch bei unsauberer Signalverarbeitung auftreten, in der Kamera oder in Postproduktion. Viele moderne Kameras mit 4K-Sensor zeigen bei HD-Aufnahme teils starkes Aliasing.

 

Oversampling erzeugt feinere, aliasing-ärmere Bilder. Dazu wird in höherer Pixeldimension, 3k z.B., aufgezeichnet, um durch Herunterskalieren ein sauberes HD-Bild zu erzeugen.

 

Eine Kamera mit kleinerem Super35-Sensor sieht nur einen Ausschnitt von dem was ein Vollformatsensor bei gleicher Brennweite wahrnimmt.  Soll also die Kamera mit s35 Sensor das selbe Sichtfeld einer Vollformatkamera mit 50mm Ojektiv zeigen, benötigt sie ein weitwickligeres Objektiv (kürzere Brennweite). Der Umrechnugsfaktor wird Formatfaktor (Cropfaktor) gennant und beträgt von Kleinbild auf s35 1,4 (1,5 bei Alexa oder APS-C Kameras), was einer 35mm Linse entspricht.

 

Fokalreduktoren sind Adapter, die zwischen Objektiv und Kamera sitzen. Sie bündeln Licht eines Objektivs gebaut für ein größeres Format (Kleinbild z.B.) auf einen kleineren Sensor (Super35 z.B.). Dabei erhöht sich die Lichtmenge, Tiefenunschärfe und Abbildungsleistung, bei gleicher Blende.

 

Die kompakteren Spiegellosen Photokameras (mirrorless cameras) mit elektronischem Sucher verdrängten mit Erscheinen der Sony Alpha A7S Digitale Spiegelreflexkameras (DSLRs) mit optischem Sucher für Videoanwendungen. Spiegellose Kameras boten bessere Videofunktionen, wie höhere Bitrate und, besonders seit der A6300, durch Oversampling (statt kostspielige OLPF), erstmals aliasingarme Aufnahmen in der Preisklasse.

 

Infrarotkontamination bezeichnet einen roten Farbstich in Aufnahmen, verursacht durch Infrarotstrahlung, die unzureichend herausgefiltert den Sensor erreicht. Blau wird Violett und Schwarz zu einem Lila-Braun.

 

Fixed Pattern Noise (FPN)  ist ein unbewegter gewebeähnlicher Bildfehler der bei stärkeren Unterbelichtungen sichtbar wird.

 

TROLLFILM

BOXHAGENER STR.117

D-10245 BERLIN

+49 (0)30 9836 1160