Was ist Datenkomprimierung? (Definition, Bedeutung und Methoden) • BUOM

15. Juli 2021

Die Speicherung und Übertragung von Daten ist für Unternehmen, Regierungen und andere Organisationen oft ein kritisches Thema. Durch die Datenkomprimierung können diese Organisationen die Datenmenge maximieren, die sie verarbeiten können, und gleichzeitig den damit verbundenen Platzbedarf und die Kosten minimieren. Wenn Sie im Rahmen Ihrer Arbeit Daten speichern oder übertragen, kann es hilfreich sein zu verstehen, wie die Komprimierung funktioniert und welche Vorteile sie Ihnen und Ihrem Unternehmen bieten kann. In diesem Artikel definieren wir Datenkomprimierung, diskutieren ihre Bedeutung, beschreiben verschiedene Komprimierungsmethoden und geben Tipps für die Implementierung der Komprimierung.

Was ist Datenkomprimierung?

Datenkomprimierung ist die Aktion oder der Prozess zur Reduzierung der Größe einer Computerdatei. Durch die Verwendung eines Algorithmus oder einer Reihe von Regeln zum Ausführen einer Operation können Computer Wege finden, lange Datenketten zu kürzen und sie nach dem Extrahieren in einer erkennbaren Form zusammenzusetzen. Das Ergebnis ist eine Datei, die weniger Bits oder Informationseinheiten verwendet als die Originaldatei. Es gibt zwei Arten der Datenkomprimierung:

Keine Verluste

Bei verlustfreien Daten bleiben alle Originaldaten erhalten. Der Algorithmus reduziert die Dateigröße so, dass die Informationen erhalten bleiben, die zum Erweitern der Datei auf ihre ursprüngliche Größe beim Dekomprimieren erforderlich sind. Das verlustfreie Format ist für Dateien erforderlich, die ohne alle Originaldaten nicht funktionieren oder sichtbar gefährdet wären. Zu diesen Dateien gehören Softwareanwendungen, Dokumente und bestimmte Medienformate, die von Profis wie Fotografen, Filmemachern und Musikern verwendet werden.

mit Verlusten

Durch verlustbehaftete Komprimierung kann die Dateigröße weiter reduziert werden, allerdings mit einigen Kompromissen im Detail. Dieses Format eignet sich für Dateitypen, bei denen verlorene Details kaum wahrnehmbar sind. Zu diesen Dateien gehören benutzerseitige Mediendateien wie Musik-, Film- und Bild-Downloads. Bei ihnen kommt es zu einer gewissen Verschlechterung der Wiedergabequalität, die der Verbraucher jedoch kaum bemerken wird.

Warum ist Datenkomprimierung wichtig?

Durch die Datenkomprimierung wird der von Dateien auf Ihrer Festplatte beanspruchte Speicherplatz minimiert und die Zeit zum Übertragen oder Herunterladen verkürzt. Diese Platz- und Zeitersparnis kann zu erheblichen Kosteneinsparungen führen. Beispielsweise können Organisationen, die große Datenmengen speichern, wie Konzerne und Gesundheitsdienstleister, Kosten für die Datenspeicherung einsparen, da sie durch die Komprimierung mehr Dateien bei geringerer Kapazität speichern können. Da die Übertragung komprimierter Dateien über das Internet weniger Zeit in Anspruch nimmt, ist es außerdem weniger wahrscheinlich, dass solche Unternehmen in kostspielige Bandbreiten-Upgrades investieren müssen.

Für einige andere Organisationen ermöglicht die Komprimierung die Bereitstellung optimaler Dienste bei maximalem Komfort. Beispielsweise verarbeiten Telekommunikationsdienstleister riesige Mengen an Audio- und Videodaten. Durch die Komprimierung können sie eine große Anzahl von Kunden mit minimalen Auswirkungen auf die Hör- oder Sehqualität bedienen.

Datenkomprimierungsmethoden

Nachfolgend sind einige gängige Datenkomprimierungsmethoden aufgeführt:

Lempel-Ziv

Die Lempel-Ziv-Komprimierung ist ein verlustfreier Algorithmus, der doppelte Zeichen in einem Datensatz findet und sie durch Token oder verkürzte Sequenzen ersetzt. Beispielsweise scannt der Algorithmus in einer Nachricht mit der Aufschrift „AAABABAAABAA“ die Nachricht, stoppt bei jeder unbekannten Buchstabenfolge und weist ein Token zu. Die erste unbekannte Sequenz wird ein einzelner Buchstabe „A“ sein, der den Token „1“ erhalten kann. Der nächste wird „AA“ sein, also „2“. „BA“ wäre die dritte Sequenz, die eine „3“ erhalten würde. Die Sequenzen danach wären bekannt. Der Algorithmus kann die ursprüngliche Nachricht mit einer Komprimierung von fast 60 % in „1233231“ umwandeln.

Lauflängenkodierung

Die Lauflängenkodierung ist eine verlustfreie Technik, die häufig wiederholte Zeichenfolgen oder Serien wiederholter Daten verwendet. Wenn eine Bilddatei beispielsweise eine Folge von 10 aufeinanderfolgenden Pixeln derselben Farbe enthält, fügt der Algorithmus möglicherweise Daten ein, die das Vorhandensein von 10 solcher Pixel anzeigen, und entfernt dann alle redundanten Daten. Während der Algorithmus einige Daten hinzufügt, entfernt er viel mehr, wodurch sich die Gesamtdateigröße verringert.

Wörterbuchkodierung

Die Wörterbuchcodierung ist eine weitere verlustfreie Technik, die die Originaldaten mithilfe der Bits 0 und 1 in einen verkürzten numerischen Code umwandelt und dann ein „Wörterbuch“ als Referenz verwendet, um den Code wieder in eine erkennbare Form umzuwandeln. Dies kann mit einem Restaurant verglichen werden, das Zahlen verwendet, um verschiedene Kombinationen von Gerichten auf der Speisekarte darzustellen. Die Zahl eins könnte beispielsweise „Brathähnchen mit Kartoffeln und Erbsen“ bedeuten. Die Beschreibung des Menüpunkts umfasst 36 Zeichen und es gibt nur einen Zahlencode. Vokabular ist hier das Wissen, dass eine bestimmte Zahl ein bestimmtes Gericht darstellt.

Stellen Sie sich bei Computerdateien eine 100-Byte-Bilddatei vor, die aus zwei Farben besteht. Der Algorithmus kann die Bytes in Gruppen von 10 einteilen und für jede Farbe einen dreistelligen Code verwenden. Jede Gruppe von 10 Bytes ist wie ein Menüpunkt, und das Wörterbuch ist die Legende, die jeden von ihnen dem Code zuordnet. Indem der Algorithmus alle 10 Bytes durch eine Zeichenfolge aus drei Ziffern ersetzt, kann er eine endgültige komprimierte Bildgröße von nur 30 Bit erzeugen. Nach dem Extrahieren der Datei können die Bits wieder in ihre ursprüngliche Form konvertiert werden.

Wahrnehmungskodierung

Wahrnehmungscodierung ist eine verlustbehaftete Komprimierungstechnik, die Teile einer Datei verwirft, die die meisten Menschen nicht wahrnehmen können. Abhängig vom Dateityp kann der Algorithmus bestimmen, welche Elemente der Datei zu dieser Beschreibung passen, und anschließend deren Vorhandensein reduzieren oder entfernen. Beispielsweise kann eine rohe Musikdatei Schallwellen im Ultraschallbereich enthalten, die der Mensch nicht hören kann. Auf diese Weise kann der Algorithmus alle ultraschallbezogenen Daten vollständig entfernen und so die Gesamtdateigröße erheblich reduzieren, ohne die Audioqualität spürbar zu beeinträchtigen.

Gleiches kann für Bilder und Videos gelten. Im ersten Fall kann der Algorithmus Elemente beibehalten, die normalerweise vom menschlichen Auge gut wahrgenommen werden, wie z. B. den Kontrast zwischen Objekten, aber subtile Komponenten innerhalb von Objekten reduzieren, wie z. B. Pixel ähnlicher Farbe. Im letzteren Fall kann der Algorithmus die Übertragung statischer Pixel zwischen Bildern reduzieren, beispielsweise bei stationären Objekten.

Empfehlungen zur Datenkomprimierung

Beachten Sie die folgenden Tipps zur Implementierung der Datenkomprimierung:

Wählen Sie den entsprechenden Komprimierungstyp aus

Bestimmen Sie für jede Datei, die Sie komprimieren müssen, zunächst, ob sie verlustfrei oder verlustbehaftet sein soll. Um zu entscheiden, was Sie verwenden möchten, fragen Sie sich, ob Kompromisse bei der Datenqualität akzeptabel sind. Wie bereits erwähnt, dürfte ein gewisser Detailverlust in Audio-, Video- und Grafikdateien kaum spürbar sein, daher ist eine verlustbehaftete Komprimierung für sie geeignet. Bei Dateien wie Textdokumenten kommt es jedoch zu einem merklichen Detailverlust, weshalb eine verlustfreie Komprimierung empfohlen wird.

Verwenden Sie einen Coprozessor

Ein Coprozessor ermöglicht es Ihrem Computer, Rechenleistung auf eine sekundäre CPU umzuleiten und so die Ressourcen Ihres Hauptcomputers für normale Aktivitäten freizugeben. Dadurch können Sie beim Komprimieren von Dateien produktiv bleiben, was eine ressourcenintensive Funktion sein kann. Erwägen Sie die Hinzufügung eines feldprogrammierbaren Gate-Arrays (FPGA), eines Mikrochips, der als zusätzlicher Prozessor konfiguriert werden kann. Dies ist besonders nützlich für die Komprimierung großer Datentypen.

Erwägen Sie die Datendeduplizierung

Datendeduplizierung ist ein Prozess, der Duplikate in einem Datensatz entfernt. Dabei werden Datenmuster verglichen, ermittelt, welche Muster bereits im gespeicherten Satz vorhanden sind, und redundante Instanzen durch eine Referenz ersetzt, die auf das bereits gespeicherte Muster verweist. Da sich solche Muster in einer bestimmten Datenübertragungs- oder Speicherinstanz wiederholen können, kann die Deduplizierung die verarbeitete Datenmenge erheblich reduzieren. Somit ist es eine sinnvolle Ergänzung zur Komprimierung.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert