Glossar: Einstiegsdefinitionen informationswissenschaftlicher Begriffe

Diese Liste von Begriffen, die wir im Projekt verwenden, wird fortlaufend erweitert und aktualisiert.

BioCRM

BioCRM ist eine Erweiterung zu CIDOC CRM, die zur Modellierung von biographischen Daten verwendet wird.

CIDOC CRM

CIDOC CRM ist eine Ontologie zur einheitlichen Beschreibung , die sich insbesondere zur Integration von Daten aus verschiedenen Beständen bzw. Quellen eignet. CRM (Conceptual Reference Model) stellt dazu zentrale Klassen zur Repräsentation von Akteuren, Ereignissen, Gegenständen, Zeitspannen und Orten bereit. Die Modellierung folgt dabei einem Ereignis-basierten Ansatz, indem z.B. nicht nur historische Ereignisse, die daran beteiligten historischen Akteure, der Ort sowie die Zeit des Ereignisses repräsentiert werden können, sondern z.B. auch die nur für eine bestimmte Zeitspanne verwendete Benennung eines Ortes (d.h. der zu einer bestimmten Zeit verwendete historische Ortsname). CRM eignet aufgrund seiner Aussagekraft und Flexibilität zum Aufbau einer Graphdatenbank für die komplexe Wissensrepräsentation in Digital Humanities-Projekten.

CRMgeo

CRMgeo ist eine Erweiterung zu CIDOC CRM, die speziell bei der Modellierung von Ortsdaten zum Einsatz kommt.

CSV

CSV steht für „comma separated value“ und bezeichnet ein einfaches Dateiformat für tabellarische Daten, in dem die Inhalte jeder Spalte durch Kommas getrennt sind. CSV-Dateien sind leicht verarbeitbar und daher sehr gut geeignet, um Daten in leicht nachnutzbarer und interoperabler Form bereitzustellen. Die meisten Datenbanksysteme oder auch Tabellenkalkulationsprogramme können das CSV-Format importieren. Es eignet sich für den Export von Daten aus Datenbanken, zur Datenanalyse und Datenvisualisierung oder zur Weiterverarbeitung der Daten anhand von Programmiersprachen wie Python.

Cypher

Cypher ist die Datenbankabfragesprache für Graphdatenbanken im verbreiteten Graphdatenbanksystem Neo4j.

Gazetteer

Ein Gazetteer ist ein Verzeichnis (historischer) Ortsnamen ggf. inkl. Geodaten (Koordinaten der Orte). Ein Gazetteer kann prinzipiell gedruckt oder in digitaler Form vorliegen. In den Digital Humanities sind damit meist nach dem Linked Data-Prinzip erstellte und frei im Internet verfügbare Ortsdatenverzeichnisse gemeint (z.B. World Historical Gazetteer).

GitHub

GitHub ist ein Onlinedienst zur kollaborativen Versionsverwaltung und Ablage von Software-Quelltext, aber auch von Forschungsdaten in Repositorien.

Graphdatenbank

Eine Graphdatenbank ist eine Datenbank, die Graph-Strukturen nutzt, um vernetzte Informationen besser erfassen zu können, als dies mit dem relationalen Datenbankmodell ( Relationale Datenbank) möglich ist. Ein Graph ist eine Struktur bestehend aus sog. Knoten und Kanten. In einem Graph repräsentieren Knoten z.B. Personen oder Orte und die Kanten die Beziehungen dieser untereinander. Eine solche Beziehung kann auch gerichtet sein. D.h., dass nicht nur festgelegt wird, dass Person A und Person B Korrespondenzpartner sind, sondern dass z.B. Person A der Briefschreiber und Person B der Briefempfänger ist. Für die meisten historischen Fragestellungen sind Graphdatenbanken aufgrund der direkteren Abbildbarkeit der Untersuchungsgegenstände und Zusammenhänge tendenziell besser geeignet und technisch einfacher zu handhaben als relationale Datenbanken.

JSON/GeoJSON

Datenformat zur Speicherung und zum Austausch strukturierter Daten bzw. Ortsdaten, wobei in einem Datensatz beliebig viele Eigenschaften einer Einheit beschrieben werden können. GeoJSON Dateien können von allen gängigen Geoinformationssystemen gelesen werden und lassen sich auf GitHub direkt in einer Karte abbilden.

Klassen

Klassen entsprechen in einer Ontologie den Begriffen, auf deren Bedeutung man sich zuvor in der konzeptuellen Modellierung geeinigt hat. Die Klassen E21 Person und E53 Place von CRM ( CIDOC CRM) dienen z.B. zur Repräsentation von Instanzen konkreter Personen und Orte, d.h. deren Eigenschaften und Beziehungen zueinander. Dabei wird in CRM der Zusammenhang zwischen einer Person und deren Geburtsort typischerweise über die Modellierung des entsprechenden Geburtsereignisses hergestellt.

Linked Data

Linked Data sind kuratierte und durch Einsatz von Ontologien einheitlich aufgebaute RDF-Daten ( RDF), die über sog. Uniform Resource Identifier ( URI) untereinander verlinkt sind. Dabei dienen Internettechnologien als technische Grundlage für die Verknüpfung der verschiedenen Datenbestände, die auf verschiedenen Servern bereitgestellt werden können.

Ontologie

Ontologie als philosophische Disziplin beschäftigt sich mit der Grundstruktur der Realität und deren Einordnung in fundamentale Kategorien. In der frühen Neuzeit wurde der Begriff Ontologia zum ersten Mal 1606 im Lehrbuch Ogdoas Scholastica von Jacob Lorhard verwendet. In den acht Büchern der Ogdoas Scholastica werden begriffliche Unterscheidungen aus didaktischen Gründen diagrammatisch dargestellt. Die Verwendung von Diagrammen findet man später auch in der Informatik wieder, um informatische Ontologien zu entwerfen und zu veranschaulichen. In der Informatik wurde der Begriff im Bereich der Künstlichen Intelligenz in den 1990er eingeführt und wird klassisch wie folgt definiert: “[a]n ontology is a formal, explicit specification of a shared conceptualization” (Studer et al. 1998). (Siehe auch: What Is an Ontology?) Informatische Ontologien bieten also einen formalen Rahmen, um für DigiKAR relevante begriffliche Unterscheidungen, auf die man sich im Projekt durch die Methoden konzeptuelle Modellierung und ontologische Analyse geeinigt hat („shared conceptualization“), explizit zu machen. Durch die formale Modellierung werden die Untersuchungsgegenstände in einer logisch kohärenten, nicht mehrdeutigen und expliziten Weise repräsentiert (siehe dazu: Charakterisierung formaler Modelle von Piotrowski (2016)) .

Ontology Design Pattern

Ontology Design Patterns sind Ontologie-Entwurfsmuster als Lösung für oft wiederkehrende Modellierungsprobleme. Sie werden in DigiKAR z.B. zur Modellierung von historischen Ortsnamen erarbeitet, wobei die dazu am besten geeignete Verwendungsweise der Klasse E13 Attribute Assignment aus der CIDOC CRM festgelegt wird. Ontology Design Patterns können in Entwurfsmuster-Katalogen gesammelt werden (siehe z.B. SARI-Muster für historische Ortsnamen und -klassifikationen). Für DigiKAR exisitiert ein laufend aktualisierter Katalog der bisher im Projekt entstandenen Ontologie-Entwurfsmuster. Grundlage für die Entwicklung der Ontology Design Patterns bilden die Anforderungen verschiedener Nutzergruppen. Diese werden in User Stories aus Anwender*innenperspektive formuliert. Aus diesen lassen sich wiederum konkrete Anwendungsbeispiele als Fragen an die Datenbank ableiten: die Competency Questions. (Siehe dazu Dokumentation der User Stories und Competency Questions im DigiKAR-Projekt.)

RDF

RDF steht für Resource Description Framework und ist ein Standard zur Beschreibung von Daten. Es wurde ursprünglich zur Beschreibung von Metadaten im Internet entwickelt, wird nun aber in vielen Forschungskontexten genutzt, um Daten in gemäß dem RDF-Datenmodell einheitlicher Form als Aussagen über „Ressourcen“ zu modellieren. Dabei werden die Daten als gerichteter Graph bzw. als Tripel modelliert (siehe dazu: http://www.bobdc.com/blog/whatisrdf/)

Relationale Datenbank

Eine relationale Datenbank ist eine Datenbank, die auf einer Sammlung von Tabellen (sog. Relationen) beruht, die Datensätze enthalten, die über sog. Schlüssel mit Einträgen in anderen Tabellen verknüpft sein können. Relationale Datenbanken können mit einer Vielzahl an freier oder proprietärer Software erstellt werden, wobei sich unterschiedliche Software-Produkte für unterschiedliche Nutzungszwecke etabliert haben. Besonders gut eignen sich relationale Datenbanken für die Erfassung klar umrissener Eintragskategorien (wie Kunden oder Produkte), die festgelegte Eigenschaften (wie Name, Geburtsdatum, Adresse, Kontonummer etc.) haben.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) ist eine graphbasierte Abfragesprache für RDF-Daten ( RDF). SPARQL wird zum Beispiel zur Abfrage von Daten aus Wikidata eingesetzt.

SQL

SQL steht für Structured Query Language und ist eine Datenbanksprache zur Beschreibung von Datenstrukturen und zur Abfrage von Daten in relationalen Datenbanken.

URI

Eine URI (Uniform Resource Identifier) dient der Identifikation von Ressourcen im Internet. URIs können für Webseiten verwendet werden ( URL), aber auch für Email-Sender, Email-Empfänger, oder einzelne Metadatensätze (z.B. URIs in Zotero). Anwendungen nutzen diese eindeutige Identifikation, um mit einer Ressource zu interagieren oder Daten der Ressource abzufragen. URIs spielen für das Linked Data-Prinzip ( Linked Data) eine zentrale Rolle.

URL

Über eine URL (Uniform Resource Locator) werden Ressourcen im Web, z.B. eine Website, identifiziert und lokalisiert, d.h. abrufbar gemacht.