Aufgabenbereiche

Die Hauptaufgabe der Projektgruppe Datenintegration Karten besteht darin, alle kartierten Sprachdaten zu den modernen Regionalsprachen des Deutschen vollständig in eine zentrale Datenbank zu überführen. Zur Umsetzung des Vorhabens sind folgende Teilaufgaben (Aufbereitung des Kartenmaterials) nötig:

  1. Digitalisierung und Geokodierung der in gedruckter Form vorliegenden Sprachkarten
  2. Erfassung und Überführung der Daten von den georeferenzierten Karten in die REDE-Datenbank
  3. Integration digital vorliegender Daten in die REDE-Datenbank und ihre Aufbereitung
  4. Generierung von Karten aus der REDE-Datenbank
  5. Erfassung von Metadaten.

 

Ziele

Innerhalb der übergeordneten Ziele von REDE, der systematischen Erschließung der modernen Regionalsprachen des Deutschen, ist das Hauptziel der Projektgruppe Datenintegration Karten im Bereich des Teilziels 1 (Aufbau des forschungszentrierten Informationssystems SprachGIS) und dort im Aufgabenfeld I (Integration der Sprachdaten und Forschungsresultate in die REDE-Datenbank) angesiedelt.

Ein Vergleich abgeschlossener und laufender Sprachatlasprojekte zeigt, dass die kartierten Daten in der Regel nicht ohne erheblichen Aufwand miteinander vergleichbar sind. Daher sollen die Daten so in die REDE-Datenbank integriert werden, dass sie von den Nutzern für eigene Zwecke und Ziele abgerufen, aggregiert und vergleichend analysiert werden können. Ebenso soll über die graphische Benutzerschnittstelle eine interaktive Online-Kartierung ermöglicht werden (Systementwicklung).

Um linguistisch fundierte sprachdynamische Analysen zu ermöglichen, werden die in die REDE-Datenbank überführten Daten mit den neu erhobenen Daten (Empirie), Tonaufnahmen (Datenintegration Ton) sowie bibliographischen Daten (Bibliographie) vernetzt.

 

Anwendungsmöglichkeiten

Die vollständige Erfassung und Aufbereitung sämtlicher aktuell und künftig kartierten Sprachdaten zu den modernen Regionalsprachen des Deutschen in einer zentralen Datenbank bietet vielfältige Anwendungsmöglichkeiten, wie z.B.:

  • für die Regionalsprachenforschung, indem sie systematische vergleichende Analysen der modernen Regional­spra­chen des Deutschen unter Einbeziehung soziolinguistischer, historisch-administrativer und politischer Inter­pre­tationsmit­tel ermöglicht
  • für sprachgeschichtliche Untersuchungen, indem sie zur Entstehung einer Datenbasis und eines Instruments beiträgt, mit deren Hilfe historisches Kartenmaterial mit Karten moderner Regionalatlan­ten überblendet und der Wandel der gesprochenen Sprache auf den unterschiedlichen linguistischen Systemebenen über ein Jahrhundert hinweg analysiert werden kann
  • für den Bereich Deutsch, Deutsch als Fremdsprache und Deutsch als Zweitsprache, indem sie den Deutschlehrenden und Deutschlernenden in der ganzen Welt einen kostenlosen Zugang zu den wich­tigsten regionalsprachlichen Informationen zum Deutschen eröffnet
  • für eine breite Öffentlichkeit, die über die REDE-Plattform auf die Ergebnisse soziolinguistischer und variationslinguistischer Forschung kostenlos von zu Hause aus zugreifen und sich schnell über die einzelnen Varietäten und Sprechlagen der deutschen Sprache informieren kann.

Anwendungsbeispiele

  • Überblendung einer historischen Karte aus dem "Sprachatlas des Deutschen Reichs" (1888–1923) mit einer Karte aus einem modernen Regionalatlas, dem "Schlesischen Sprachatlas" (1965–1967)

 

Stand der Bearbeitung (02.11.2018)

Zum derzeitigen Bearbeitungszeitpunkt stehen dem REDE-Nutzer Karten aus den folgenden Sprachatlanten zur Verfügung:

  • Atlas der Celler Mundart (Cell MA)
  • Atlas zur Geographie der Schwäbischen Mundart (Fischer)*
  • Das rheinische Platt (Rheinisches Platt)*
  • Deutscher Familiennamenatlas (DFA)
  • Deutscher Sprachatlas auf Grund des Sprachatlas des Deutschen Reichs von Georg Wenker (DSA)*
  • Dialekt à la carte: Dialektatlas Westmünsterland – Achterhoek – Liemers – Niederrhein (DWALN)
  • Digitaler Luxemburgischer Sprachatlas (LuxSA)
  • Fränkischer Sprachatlas (FSA)
  • Ergänzungskarten zum Deutschen Sprachatlas. Nacherhebungen in Süd- und Osteuropa (WEK)*
  • Kleiner Niederländischer Sprachatlas (KNSA) unter Einschluss des Westfriesischen
  • Mittelrheinischer Sprachatlas (MRhSA)
  • Nordbairischer Sprachatlas (Nordb. SA)
  • Pronomina in Nordwestdeutschland (Pronomina NWD)*
  • Schlesischer Sprachatlas (Schles. SA)
  • Sprachatlas der deutschen Schweiz (SDS)*
  • Sprach-Atlas der Rheinprovinz nördlich der Mosel sowie des Kreises Siegen (Rheinprovinz)*
  • Sprachatlas des Deutschen Reichs: Georg Wenkers handgezeichnetes Original (WA)*
  • Sprachatlas von Bayerisch-Schwaben (SBS)
  • Sprachatlas von Mittelfranken (SMF)
  • Sprachatlas von Niederbayern (SNiB)
  • Sprachatlas von Nordostbayern (SNOB)
  • Sprachatlas von Nord- und Mitteldeutschland (NMD)*
  • Sprachatlas von Nordwestdeutschland (NWD)*
  • Sprachatlas von Oberbayern (SOB)
  • Sprachatlas von Oberösterreich (SAO)*
  • Sprachatlas von Unterfranken (SUF)
  • Südwestdeutscher Sprachatlas (SSA)
  • Thüringischer Dialektatlas (ThDA)
  • Tirolischer Sprachatlas (Tirol. SA)*
  • Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus (VALTS)
  • Westjiddischer Sprachatlas (WjSA)

 Darüber hinaus liegen außersprachliche Interpretamentkarten sowie einzelne historische Sprachkarten vor.

 * Die Karten dieses Atlasses wurden in dem Vorgängerprojekt Digitaler Wenkeratlas (DiWA) aufbereitet und in REDE implementiert.

 

Personen

 

Arbeitsgruppe Datenintegration Karten

 

Leitung der Arbeitsgruppe

 

Mitarbeiter

 

Hilfskräfte
  • Carolin Bächt, B.A.
  • Marlene Helmling, B.A.
  • Saskia Peter, B.A.
  • Natalia Sablin

 

Ehemalige Mitarbeiter

 

Ehemalige Co-Leitung

 

Ehemalige Mitarbeiter
  • Alois Dicklberger
  • Rico Stiel
  • Paul Urschel

 

Ehemalige Hilfskräfte
  • Ellen Bartels
  • Sophie Christmann
  • Luise Dallendörfer, B.A.
  • Sara Dejanovic, B.A.
  • Alena Dörr
  • Philipp Gehring, M.A.
  • ​Karla Gutberlet
  • Theresa Herzberger, B.A.
  • Manuel Hoos
  • Mona Kellermann
  • Jasmina Koy
  • Jan Kriebel
  • Chang Liu
  • Tabea Maus
  • Sebastian Müller
  • Benedikt Fabian Naglik, B.A.
  • Jana Nellesen, B.A.
  • Johanna-Lena Paulsen, B.A.
  • Sven Eric Peters
  • Lisa Reimann, B.A.
  • Katrin Ritte, B.A.
  • Lisa Sangmeister
  • Hannah Schmidt
  • Laura Schellhaas, B.A.
  • Jonas Stach
  • Julia Rosé Stiegeler, B.A.
  • Jan Steiner, B.A.
  • Verena Wagner, B.A.
  • Theresa Wetter
  • Jens Wetekam
  • Stephanie Winter
  • Katharina Zahorak

 

Aufbereitung des Kartenmaterials

Die Bereitstellung der kartierten Sprachdaten in REDE wird in Abhängigkeit von der Form der vorliegenden Daten auf zwei Wegen erreicht:

  1. Liegen die Daten in Form gedruckter Sprachkarten vor, werden diese zunächst gescannt und georeferenziert. Abschließend werden die Sprachdaten von der Karte über eine Eingabemaske in die REDE-Datenbank überführt (Typ 1: Integration moderner Regionalatlanten via Scan, Georeferenzierung und Datenbankerfassung).
  2. Liegen die Sprachkarten als Datensätze vor, werden sie über einen ETL-Prozess so auf­­bereitet, dass sie in die REDE-Datenbank importiert werden kön­nen. Dabei werden die vorliegenden Zeicheninformationen in phonetische oder grafische Zeichen kon­­­ver­tiert und die Karten können direkt aus der Datenbank ge­­neriert werden (Typ 2: Integration moderner Regionalatlanten des Deutschen via Datenbankimport).

Im Folgenden werden diese beiden standardisierten Bearbeitungsverfahren beschrieben.

Integration moderner Regionalatlanten via Scan, Georeferenzierung und Datenbankerfassung

(1) Erfassen von Primärdaten: Damit der REDE-Nutzer Karten und Daten gezielt suchen kann, werden zentrale Karteninformationen der zu bearbeitenden Karten in einer zentralen Datenbank erfasst. Hierzu gehört die Angabe von

  • Atlastitel (Werk, aus dem die Karte stammt)
  • Bandnummer
  • Kartennummer
  • Kartenkurztitel.

Die Angaben dienen als Übersicht über die zu bearbeitenden Karten. Ebenso bilden die Einträge die Schnittstelle zu den bearbeiteten Kar­ten, die mit ihnen verlinkt werden, und sind damit Grundlage für Abruf- und Such­funk­ti­o­nen der REDE-Benutzeroberfläche.

(2) Digitalisierung: Alle Karten werden in 600dpi ge­scannt (Partnerfirma: graphic sience), auf DVD gebrannt und geprüft.

(3) Georeferenzierung: Anschließend werden die Karten mit dem Programm QGIS so bearbeitet, dass sie unabhängig von Größe, Ausschnitt oder Maßstab übereinander gelegt und miteinander verglichen werden können. Dazu werden einzelnen Bildpixeln Koordinaten zugewiesen (Geokodierung). Mithilfe der gesetzten Passpunkte werden anschließend die Koordinaten für jedes einzelne Pixel berechnet (Referenzierung). Das Resultat dieses Arbeitsschrittes ist eine Karte, die über geographische Informationen verfügt. Anschließend werden die überflüssigen Randbereiche der Karten "abgeschnitten" (Polygonisierung). Um einen schnellen Zugriff (in unterschiedlichen Zoomstufen) auf die Karten zu gewährleisten, werden diese, bevor sie dem Nutzer zugänglich gemacht werden, einem Kompressionsverfahren unterzogen und in ECW-Dateien (Enhanced Compressed Wavelet) umgewandelt. Dieses Verfahren wurde schon im Projekt DiWA angewendet. Weitere Informationen und Anschauungsmaterial finden sich auf der Homepage von DiWA. Gleichzeitig bil­den die Karten die Arbeitsgrundlage für die Arbeitsschritte (6) bis (8).

(4) Legenden erstellen: Die zu den Karten gehörigen Legenden werden als isolierte Dateien abgespeichert, damit sie in einem gesonderten Fenster angezeigt werden können. Dies vereinfacht sowohl die Arbeit mit den Karten als auch das Erfassen der Legendeninformationen in Arbeitsschritt (7).

(5) Zeichensätze erstellen: Damit die Daten der Karten erfasst und in die REDE-Datenbank aufgenommen werden können, werden für jeden Atlas zwei Fonts erstellt, die die linguistischen Informationen und die Kartensymbole re­prä­­sentieren. Für jeden Atlas werden mithilfe der Fonts zwei Zeichensätze erstellt. Ein Zei­chen­­­satz enthält das für die phonetische Umschrift benötigte Symbolinventar und ein wei­terer Zeichensatz enthält das In­ven­tar derjenigen Symbole, die auf den Karten abgebildet sind.

(6) Ortsnetz anlegen: Bevor in der REDE-Datenbank die Zuordnung eines Symbols zu dem Ort, an dem es erscheint, stattfinden kann, wird für jeden Atlas ein Ortsnetz angelegt. In diesem sind die geographischen Informationen für jeden Ort, der in einem bestimmten Atlas erhoben wurde, aufgeführt.

(7) Legendeninformationen erfassen: Mit den in Arbeitsschritt (5) erstellten Zeichensätzen wird für jede Karte eine Legende angelegt, die alle auf einer Karte auftretenden Symbole und deren Auflösung enthält. Die Eingabe der Legenden findet über eine für den jeweiligen  Atlas spezifische Eingabenmaske statt, die eine gezielte Suche der benötigten Zeichen ermöglicht.

(8) Erfassen der Symbole am Ort: Mit Arbeitsschritt (8) findet die eigentliche Verknüpfung von linguistischen (s. Arbeitsschritt (7)) mit geographischen Informationen (s. Arbeitsschritt (6)) statt. Am Ende dieses Arbeits­schrittes ist jedem Er­he­bungs­ort einer Karte eine lin­gu­istische Information zuge­wie­sen und die aufbereiteten Daten können als Karten angezeigt oder nutzer­spe­zi­fisch abgerufen werden. Um diesen sehr zeit­auf­wän­di­gen Arbeitsschritt mög­lichst effizient zu gestalten, wurden für das REDE-SprachGIS spezielle Werkzeuge ent­wickelt.

(9) Erfassen von Metadaten: Damit der REDE-Nutzer Karten und Daten gezielt suchen kann, werden in der REDE-Datenbank für jede Karte bestimmte Informationen festgehalten. Hierzu ge­hört neben den Pri­märdaten z.B. die Angabe von:

  • Kategorie
  • kartiertem Phänomen
  • linguistischer Ebene des kartierten Phänomens (Laut-, Form-, Wort- oder Syntaxkarte)
  • vollständiger Originalklassifikation (Klassifikation der Karte innerhalb des Werks)
  • Abfragekontext des kartierten Phänomens
  • Suchbegriff
  • ...

Ebenso werden dem Nutzer Erläuterungstexte mit zen­tra­len Eck­daten der zugehörigen Atlanten zur Ver­fü­gung gestellt, wie z.B.

  • Herausgeber
  • Erscheinungsdatum
  • Umfang des Werks
  • Erhebungszeitraum
  • Exploratoren
  • kartierte Sprachebenen
  • Kartierungsverfahren.

(10) Kontrolle: Die Kontrollen der bearbeiteten Karten finden in zwei Schritten statt. Alle Kar­ten werden von den Hilfskräften sowohl in Bezug auf die Metadaten als auch in Bezug auf die Kartenanzeige kontrolliert. Zusätzlich finden Stichprobenkontrollen durch die Be­ar­beiter statt.

Integration moderner Regionalatlanten des Deutschen via Datenbankimport

(1) Erfassen von Primärdaten: S. Bearbeitungsverfahren für Typ 1.

(2) Import digitaler Daten in die REDE-Datenbank: Liegen Datensätze der gedruckten Karten vor, entfallen die unter Typ 1 beschriebenen Arbeitsschritte (2) bis (4) sowie (7) und (8). Die Ergebnisse dieser Ar­beits­schritte sind in den vorliegenden Datensätzen enthalten. Da nicht alle Daten in ein und demselben Format verfügbar sind, werden die Datenstrukturen so transformiert, dass sie in die Da­ten­­bank überführt und den Metadaten (s. Arbeitsschritt (9)) zugewiesen werden können.

(3) Aufbereitung digitaler Daten: Die vorliegenden Datensätze werden entschlüsselt und so kon­ver­tiert, dass sie sowohl den Zeichensätzen als auch den geographischen Informationen zugewiesen werden können. Diese Arbeitsschritte führen dazu, dass für jede Karte eine Legende erzeugt werden kann und sich über die Information, an welchem Ort, welche Symbole vorkommen, eine Karte aus der Datenbank erzeugen lässt.

(4) Erfassen von Metadaten: S. Bearbeitungsverfahren für Typ 1.

(5) Kontrolle: S. Bearbeitungsverfahren für Typ 1.