|
Datenkompression
Kriterien
Übersicht Formate
Grundlagen
Kompressionsverfahren
Datenformate
Applikationen und Projekte
Freeware Applikationen
Freeware Bibliotheken
prof. Applikationen
Referenzdatensätze
Calgary Corpus
Vergleiche Calgary Corpus
Glossar
Stichwortverzeichnis
Download
|

Calgary Corpus
Den sogenannten "Calgary Text Compression Corpus" haben Ian H. Witten und Timothy C. Bell zusammengestellt und 1989 erstmals publiziert. Er setzt sich in seiner umfangreichen Fassung aus insgesamt 18 Dateien zusammen und repräsentiert 9 verschiedene Datentypen.
Alle Texten liegt die englische Sprache zugrunde. Kodiert sind die Daten nach dem ASCII Zeichensatz. Trotz der Bezeichnung sind in dem "Text Compression Corpus" auch Maschinenkode, wissenschaftliche Daten und Bilddaten enthalten (ca. 27%).
| Datei |
Größe |
Inhalt |
| bib |
111.261 |
strukturierter Text (Bibliographie, Literaturverzeichnis), Aufbau z.B. geeignet für Import von Daten in eine Datenbank |
| book1 |
768.771 |
Text, Roman |
| book2 |
610.856 |
formatierter Text, fachspezifisch |
| geo |
102.400 |
geophysikalische Daten |
| news |
377.109 |
formatierter Text, Skript mit Nachrichten |
| obj1 |
21.504 |
Programmkode (Objektdatei), ausführbarer Maschinenkode |
| obj2 |
246.814 |
Programmkode (Objektdatei), ausführbarer Maschinenkode |
| paper1 |
53.161 |
formatierter Text, fachspezifisch |
| paper2 |
82.199 |
formatierter Text, fachspezifisch |
| paper3 |
46.526 |
formatierter Text, fachspezifisch |
| paper4 |
13.286 |
formatierter Text, fachspezifisch |
| paper5 |
11.954 |
formatierter Text, fachspezifisch |
| paper6 |
38.105 |
formatierter Text, fachspezifisch |
| pic |
513.216 |
Bilddaten (schwarz-weiß) |
| progc |
39.611 |
Quellkode |
| progl |
71.646 |
Quellkode |
| progp |
49.379 |
Quellkode |
| trans |
93.695 |
Aufzeichnung Terminaldaten |
| |
3.251.493 |
Summe |
| |
3.265.024 |
TAR (7-Zip) |
Der Calgary Corpus hat sich mittlerweile als Standard etabliert, um verlustlose Kompressionsverfahren und -formate zu vergleichen. Im übrigen rührt der Name von der Universität in Calgary her, an der Ian Witten damals tätig war.
|
< ^ >
|
Externe Links:
BinaryEssence ist nicht verantwortlich für die Inhalte externer Internetseiten:
Download University of Calgary (FTP) [ ]
|
|
Anzeigen:

Informations- und Kodierungstheorie bei Amazon.de
|