Korpus C4 - Projekt

Zusammensetzung

Am Korpus C4 beteiligt sind das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) aus Berlin, das Austrian Academy Corpus (AAC) aus Wien, das Korpus Südtirol aus Bozen und das Schweizer Textkorpus (CHTK) aus Basel/Zürich.

Das Projekt verfolgt das Ziel, die deutsche Standardsprache des 20. Jahrhunderts möglichst ausgewogen zu erfassen und online zugänglich zu machen. Momentan setzt sich das Korpus aus 20 Mio. Textwörtern des DWDS, 4.1 Mio. Textwörtern des AAC, 1.7 Mio. Textwörtern des Korpus Südtirol und 20 Mio. Textwörtern des CHTK zusammen.

Abfragesystem

Eine technische Besonderheit des Korpus C4 ist die verteilte Abfrage. Jedes Teilprojekt stellt seine Daten auf einem eigenen Server zur Verfügung, und erst zum Zeitpunkt der Abfrage werden die Resultate von den einzelnen Servern abgeholt und zusammengesetzt. Die Zusammenführung der Teilkorpora zu einem gemeinsamen ganzen Korpus C4 ist also nur virtuell. Technisch nutzt das Korpus dazu vor allem Funktionen der linguistischen Suchmaschine DDC, die vom Berliner Teilprojekt DWDS entwickelt wurde.

Informationen

Zusammensetzung

Abfragesystem