L3: Modeling Reality — Skript¶

Diese Lecture ist die prüfungsrelevanteste im gesamten Kurs: Drei der behandelten Themenblöcke (Messskalen, Entities & Fields, Vektor & Raster) sind als direkte Altfragen in den Prüfungsterminen Juli 2024 und 2025 aufgetaucht. Der Prof bezeichnete diese Session selbst als "the most important part" und eines der "core topics" der gesamten Lehrveranstaltung.

Motivation und Digitale Repräsentation¶

Den Einstieg in das Thema Modeling Reality macht der Prof mit einem anschaulichen Praxisbeispiel: GPS-Tracking von drei Kindern an einem Wochenende in Cheshunt, UK. Die farbigen Trajektorien auf einer OpenStreetMap-Karte zeigen, wo sich die Kinder bewegt haben, wann sie an welchem Ort waren und wie schnell sie unterwegs waren. Das kennt jeder, der schon einmal Strava oder Garmin Connect benutzt hat.

Entscheidend ist, was hinter diesen bunten Linien steckt: eine Datentabelle mit den Spalten Person, Zeit, X-Koordinate, Y-Koordinate, Geschwindigkeit (Speed) und GDOP (ein Mass fuer die GPS-Genauigkeit). Jede Zeile dieser Tabelle ist ein einzelner Messpunkt, der einen winzigen Ausschnitt der Realitaet in Zahlen uebersetzt. Genau das ist der Kern von Repräsentation (Representation): Informationen werden in eine standardisierte Form oder ein Modell gebracht, um sie uebermitteln, speichern und analysieren zu koennen.

Repräsentationen vereinfachen dabei immer die Wahrheit. Die GPS-Tracks zeigen Bewegungsmuster, aber nicht, was die Kinder eingekauft haben, ob sie im Urlaub waren oder wie ihr Tag zur Schule aussah. Die farbigen Trajektorien bestehen nur aus wenigen geraden Liniensegmenten zwischen Messpunkten; wuerde man genauer hinschauen, wuerde man mehr Information entdecken. Das ist kein Fehler, sondern Absicht: Jede Repräsentation ist eine bewusste Reduktion.

Die digitale Repräsentation (Digital Representation) basiert auf dem Binärsystem (Binary) -- Nullen und Einsen. Speicherformen umfassen unter anderem Short (16-Bit), Long (32-Bit), ASCII, Floating Point Numbers und BLOBs (Binary Large Objects). Die Vorteile digitaler Repräsentation sind erheblich: Daten koennen unabhaengig von ihrer Bedeutung verarbeitet werden, sie sind leicht kopier- und uebertragbar, lassen sich bei hoher Dichte speichern und sind einfach zu transformieren, zu verarbeiten und zu analysieren. Digitale Repräsentation bildet die Grundlage nahezu aller modernen menschlichen Kommunikation.

Das fundamentale Problem¶

Das zentrale Problem der Geoinformatik laesst sich in einem einzigen Satz zusammenfassen: "The world is infinitely complex, but computer systems are finite." Wir koennen niemals die gesamte Komplexitaet der realen Welt im Computer abbilden, sondern muessen abstrahieren. Geographische Daten bestehen dabei aus atomaren Elementen, die drei Komponenten verknuepfen: Place (Ort), Time (Zeit) und Property (Eigenschaft). Jeder einzelne GPS-Punkt aus dem Kinderbeispiel ist ein solches Atom -- ein bestimmter Ort zu einer bestimmten Zeit mit bestimmten Eigenschaften wie Geschwindigkeit.

Die Abstraktion selbst ist ein kognitiver Prozess (Cognitive Task), der von zwei Faktoren beeinflusst wird: den kulturellen Normen des Beobachters und dem Zweck der Untersuchung. Ein Forstwirt modelliert denselben Wald voellig anders als ein Umweltschuetzer -- beide abstrahieren, aber sie waehlen unterschiedliche Aspekte als relevant aus.

In diesem Zusammenhang fuehrt die Vorlesung mehrere zentrale Begriffe ein. Cognition bezeichnet die Faehigkeit, Wissen zu erwerben und zu nutzen. Spatial Cognition (räumliche Kognition) beschreibt die Prozesse, durch die raeumliches Wissen erworben, gespeichert und abgerufen wird. Ein Conceptual Model of Space (konzeptuelles Raummodell) ordnet Objekte und raeumliche Beziehungen nach Erfahrung und Kognition an. Ein Data Model (Datenmodell) ist eine abstrakte Beschreibung der Realitaet. Das Geographical Data Model (geographisches Datenmodell) schliesslich ist die Abstraktion und Repräsentation raeumlicher Phaenomene nach einem formalisierten Konzept, das typischerweise mit geometrischen Primitiven (Punkte, Linien, Flaechen) oder diskretisierten kontinuierlichen Feldern umgesetzt wird.

Warum abstrahieren wir ueberhaupt? Weil der Informationsaustausch ueber groessere Domaenen wie Raum und raeumliche Phaenomene formale Modelle erfordert, um eindeutige Kommunikation sicherzustellen. Slide 11 erwaehnt als Beispiel die Semiotik (Semiotics), also die Wissenschaft der Zeichensysteme, wie etwa kartographische Zeichen oder Verkehrszeichen. Der Prof hat dieses Thema jedoch explizit ausgeklammert: "No need to know about semiotics."

Datentypen und Messskalen¶

ALTFRAGE -- Hoechste Prüfungspriorität

Der Prof woertlich: "Please mark that one with yellow, I'm pretty sure there will be a question somewhere at the end of the semester." Die Altfrage von Juli 2025 fragt direkt nach "nominal/ordinal/interval/rational data".

Bevor man geographische Daten modellieren kann, muss man verstehen, welche Arten von Daten es ueberhaupt gibt und was man mit ihnen tun darf. Die grundlegende Unterscheidung ist die zwischen qualitativen Daten (Qualitative Data) und quantitativen Daten (Quantitative Data). Qualitative Daten sind attributiv und deskriptiv -- sie beschreiben Eigenschaften ohne numerischen Wert, etwa Landnutzungskategorien wie Wald, Wiese oder Siedlung. Quantitative Daten hingegen sind numerisch und druecken messbare Groessen als Zahlen aus, etwa Temperatur, Hoehe oder Geschwindigkeit.

Eigenschaften (Properties) koennen aus einfachen Messungen (Measurements) stammen, durch komplexe mathematische Operationen erzeugt werden oder als narrative Beschreibungen (Narrative Descriptions) vorliegen. Sie koennen kategorisch sein, wie etwa Landnutzungsklassen, oder skalar bzw. kontinuierlich, wie Temperatur oder ein Staedteranking.

Entscheidend ist: Fuer unterschiedliche Datentypen gelten unterschiedliche Operationen. Arithmetische Operationen (+, -, , /) sind nur fuer Integer- und Realzahltypen zulaessig. Logische Operationen* (Boolesche Algebra: True/False, 0/1) gelten hingegen fuer alle Datentypen. Wer Autobahnnummern miteinander multipliziert, erhaelt sinnlose Ergebnisse -- und genau deshalb ist die korrekte Zuordnung von Datentypen und Operationen fundamental.

Die vier Messskalen¶

Die vier Messskalen (Measurement Scales) nach S.S. Stevens (1946) bilden eine Hierarchie, in der jede hoehere Stufe alle Operationen der niedrigeren umfasst plus zusaetzliche. Sie sind das Herzstuck dieses Clusters.

Die Nominalskala (Nominal Scale) repraesentiert das niedrigste Informationsniveau. Daten auf dieser Skala sind Kategorien ohne natuerliche Ordnung. Man kann lediglich pruefen, ob zwei Werte gleich oder ungleich sind. Erlaubte Operationen: = und !=. Beispiele sind Farben, Telefonnummern, Gefuehle, Ortsnamen (1 = Zuerich, 2 = Bern, 3 = Basel), Tierarten oder Trikotnummern im Fussball. Dass ein Spieler die Nummer 10 traegt und ein anderer die 7, bedeutet nicht, dass der eine "mehr" ist als der andere. Ein Spezialfall ist die dichotome Variable (Dichotomous Variable): eine nominale Variable mit nur zwei Klassen, etwa 0/1, die dem booleschen Datentyp entspricht.

Die Ordinalskala (Ordinal Scale) fuegt eine klare Rangordnung (Ordering) hinzu: Werte koennen nicht nur auf Gleichheit geprueft, sondern auch in eine Reihenfolge gebracht werden. Allerdings sagen die Abstande zwischen den Werten nichts ueber absolute Differenzen aus. Der Erste im Rennen ist vor dem Zweiten, aber ob er eine Sekunde oder eine Stunde schneller war, laesst sich aus dem Rang allein nicht ablesen. Erlaubte Operationen: =, !=, >, <. Beispiele sind Schulnoten, Ranglisten im Sport, Energieeffizienzklassen und die Mohs-Haerteskala fuer Mineralien.

Die Intervallskala (Interval Scale) erlaubt es erstmals, die absoluten Abstande zwischen Werten zu messen und zu vergleichen. Die Skala hat gleiche Intervalle, aber einen willkürlichen Nullpunkt (Arbitrary Zero). Das bedeutet: Differenzen sind sinnvoll, Verhaeltnisse aber nicht. Die Differenz zwischen -15 °C und 4 °C ist gleich gross wie die zwischen 14 °C und 33 °C (jeweils 19 °C). Aber 40 °C ist nicht "doppelt so warm" wie 20 °C, weil 0 °C kein absoluter Nullpunkt ist, sondern lediglich der Gefrierpunkt des Wassers. Erlaubte Operationen: =, !=, >, <, +, -. Beispiele sind Temperatur in Celsius, Datumsangaben und die IQ-Skala.

Die Ratioskala (Ratio Scale), auch Verhältnisskala genannt, repraesentiert das hoechste Informationsniveau. Sie besitzt einen realen Nullpunkt (Defined Real Zero Value), weshalb Verhaeltnisse berechenbar sind: 1 km ist tatsaechlich halb so lang wie 2 km, und eine Person mit 1,80 m Koerpergroesse ist doppelt so gross wie ein Kind mit 90 cm. Temperatur in Kelvin gehoert auf die Ratioskala, weil der absolute Nullpunkt physikalisch definiert ist (Absolute Null der Thermodynamik). Erlaubte Operationen: =, !=, >, <, +, -, *, /. Weitere Beispiele sind Geschwindigkeit, Laenge, Alter und Einkommen.

Die Uebersichtstabelle auf Slide 20 fasst die vier Skalen zusammen und zeigt fuer jede Skala die Interpretation, die erlaubten mathematischen Operatoren und typische Beispiele. Diese Tabelle ist die ideale Lerngrundlage fuer die Pruefung. Die hierarchische Struktur ist dabei zentral: Nominal dient der Klassifikation, Ordinal der Ordnung, Intervall dem Messen (mit willkuerlichem Null) und Ratio dem Messen (mit realem Null). Daten duerfen ausschliesslich mit den fuer ihre Messskala zulaessigen Operationen verarbeitet werden.

Diskrete Objekte und Kontinuierliche Felder¶

ALTFRAGE

Direkte Altfrage in beiden Pruefungsterminen Juli 2024 und 2025: "Entities and Fields". Der Prof dazu: "Just two conceptual views, nothing more."

Nachdem klar ist, welche Arten von Daten es gibt, stellt sich die naechste Frage: Wie betrachten wir die reale Welt ueberhaupt, bevor wir sie in Daten uebersetzen? Die Geoinformatik kennt dafuer genau zwei fundamentale konzeptuelle Sichtweisen, und es ist wichtig zu verstehen, dass es sich dabei um Denkmodelle handelt -- nicht um technische Implementierungen.

In der Entity View (Discrete Object View, Objektsicht) wird die Welt als grundsaetzlich leer betrachtet, ausser dort, wo sie von Objekten mit klar definierten Grenzen (Well-Defined Boundaries) besetzt ist. Diese Objekte sind Instanzen allgemein anerkannter Kategorien. Sie sind zaehlbar, besitzen Attribute, werden in einem Koordinatensystem verortet und haben eine Dimensionalität (Dimensionality): 0D = Punkte (Points), 1D = Linien (Lines), 2D = Flaechen (Areas). Diese drei Formen heissen geometrische Primitive (Geometric Primitives).

In der Field View (Continuous Field View, Feldsicht) wird die reale Welt hingegen als endliche Anzahl von Variablen repraesentiert, die an jedem beliebigen Punkt auf der Erdoberflaeche definiert und messbar sind. Felder unterscheiden sich darin, was variiert und wie glatt (Smoothly) die Variation ist. Die Attributwerte variieren kontinuierlich ueber den Raum und lassen sich typischerweise durch eine kontinuierliche mathematische Funktion darstellen. Meist wird nur ein einzelnes Attribut gemessen.

Ein anschauliches Beispiel fuer die Entity View ist ein Baer: Er ist leicht als diskretes Objekt zu konzeptualisieren, denn er behaelt seine Identitaet ueber die Zeit und ist von leerem Raum umgeben. Weitere Beispiele sind Gebaeude, Strassen, Fluesse, Seen und Grundstuecke.

Beispiele fuer die Field View sind Satellitenbilder (die Helligkeit an jedem Punkt misst die eingefangene Strahlung), digitale Hoehenmodelle (Elevation/DEM) wie das simulierte Bild der Carrizo Plain in Suedkalifornien, sowie Temperatur, Luftdruck und Niederschlag. Bei all diesen Phaenomenen ist der Attributwert an jedem Punkt im Raum definiert und variiert kontinuierlich.

Es gibt allerdings auch Grenzfaelle (Borderline Cases), die die Grenzen beider Sichtweisen aufzeigen. Seen sind ein klassisches Beispiel: Sie sind schwer als diskrete Objekte zu konzeptualisieren, weil ihre Grenzen oft unklar sind. Wo genau beginnt und endet ein See? Wie unterscheidet man einen breiten Fluss von einem See? Diese Ambiguitaet zeigt, dass die Wahl der konzeptuellen Sichtweise immer eine Modellierungsentscheidung ist, die vom Untersuchungszweck abhaengt.

Vektor- und Rastermodell¶

ALTFRAGE

Direkte Altfrage in beiden Pruefungsterminen Juli 2024 und 2025: "Raster and Vector data".

Die beiden konzeptuellen Sichtweisen (Entity View und Field View) muessen in konkrete Datenmodelle (Data Models) uebersetzt werden, die ein Computer verarbeiten kann. Dafuer stehen zwei fundamentale geographische Datenmodelle (Geographical Data Models) zur Verfuegung: das Vektormodell (Vector Model) und das Rastermodell (Raster Model).

Beide Modelle sind formalisierte Konzepte, die geographische Phaenomene in Formen uebersetzen, die in Computerdatenbanken kodierbar sind. Die Grundannahmen beider Modelle sind, dass Phaenomene eindeutig identifiziert, ihre Position registriert und die Aufloesung der Beobachtung bestimmt werden koennen. In der Praxis besteht eine starke Assoziation: Raster wird typischerweise fuer Fields (kontinuierliche Felder) verwendet, Vektor fuer Entities (diskrete Objekte). Grundsaetzlich kann aber jedes Modell beide konzeptuellen Sichten abbilden.

Das Rastermodell¶

Im Rastermodell wird der geographische Raum in ein Array gleichfoermiger Zellen (Cells) unterteilt, die normalerweise quadratisch, manchmal rechteckig sind. Jede Zelle erhaelt genau einen Attributwert -- etwa eine Temperatur, eine Hoehenangabe oder eine Landnutzungsklasse. Die gesamte geographische Variation wird durch die Zuweisung von Eigenschaften oder Attributen an diese Zellen ausgedrueckt.

Die Zellen heissen Pixel (Picture Elements). Slide 31 zeigt ein Rasterbeispiel, in dem jede Farbe einen anderen Wert einer nominalen Variablen repraesentiert, die die Landbedeckungsklasse angibt: Mixed Conifer, Douglas Fir, Oak Savannah und Grassland.

Die Dimension d eines Pixels bestimmt die Resolution (Aufloesung): die kleinste Objektgroesse, die noch erfasst werden kann. Eine Resolution von 5 m bedeutet, dass ein Pixel eine Flaeche von 5 x 5 m auf dem Boden abdeckt. Beim Rastermodell unterscheidet man zwei Formen der Zerlegung: Regulaere Tessellation (Regular Tessellation) und irregulaere Tessellation (Irregular Tessellation). Eine kontinuierliche Oberflaeche wird dabei in Grundeinheiten (Basic Units) diskretisiert.

Bei der regulaeren Tessellation wird die Oberflaeche in gleichfoermige Einheiten zerlegt. In 99 % der Faelle kommen Quadrate (Pixel) zum Einsatz. Weitere moegliche Formen sind Dreiecke und Hexagone, wobei letztere zunehmend fuer statistische Auswertungen verwendet werden. Regulaere Tessellation eignet sich sowohl fuer die Darstellung statischer Phaenomene als auch fuer dynamische Veraenderungen (zeitliche Vergleiche).

Slide 34 zeigt die drei regulaeren Tessellationsformen nebeneinander: Quadrate, Dreiecke und Hexagone, jeweils als Einzelform und als Flaechenabdeckung.

Bei der irregulaeren Tessellation werden unregelmaessige Dreiecke (Irregular Triangles) verwendet, die auf den Prinzipien der Triangulation basieren und in der Landvermessung eine lange Tradition haben. Die kontinuierliche Landoberflaeche wird durch ein Dreiecksnetz approximiert, dessen Knoten an gemessenen Hoehenpunkten (Spot Heights) liegen. Der grosse Vorteil: Die Dichte des Netzes kann an die Gelaendeform angepasst werden (Variable Resolution) -- steileres Gelaende erhaelt ein feineres Netz, flaches Gelaende ein groeberes.

Praktisch eingesetzt werden irregulaere Tessellationen als TIN (Triangulated Irregular Network) bei digitalen Gelaendemodellen (DTM, Digital Terrain Model) und in der Finite-Elemente-Modellierung, etwa fuer Grundwasserstroeme und Windfelder. Allerdings merkte der Prof an, dass TINs heute kaum noch praktische Bedeutung haben und zunehmend durch hochaufgeloeste regulaere Raster ersetzt werden: "Doesn't have too much practical value anymore."

Das Vektormodell¶

Im Vektormodell (Vector Model) wird der Raum als Menge diskreter, durch Entitaeten definierter Einheiten repraesentiert, die durch Koordinaten geographisch referenziert sind. Alle Linien werden als Punkte erfasst, die durch gerade Liniensegmente verbunden sind. Es gibt genau drei geometrische Primitive (Geometric Primitives): Point, Line und Polygon.

Ein Point (Punkt, 0-dimensional) wird durch ein Koordinatenpaar (x, y) definiert, dem zugehoerige Attribute A1, A2, ..., An zugeordnet werden. Beispiel: der Standort einer Messstation oder die GPS-Position eines Kindes zu einem bestimmten Zeitpunkt.

Eine Line (Linie, 1-dimensional) ist eine geordnete Menge von Punkten (Vertices), die durch gerade Liniensegmente verbunden sind. Die Reihenfolge der Punkte ist entscheidend, da sie den Verlauf der Linie bestimmt. Linien werden auch Polylines genannt. Beispiele sind Strassenverlaeufe und Flusslaeufe.

Ein Polygon (Flaeche, 2-dimensional) ist eine geschlossene Linie, bei der der erste Punkt gleich dem letzten Punkt ist. Dadurch erkennt das GIS, dass es sich um eine Flaeche und nicht um eine offene Linie handelt. Auch hier ist die Punktreihenfolge relevant. Beispiele sind Grundstuecke, Gebaeudeumrisse und Seen. Polygone sind die homogene Repräsentation eines zweidimensionalen Raumes.

Slide 42 erwaehnt noch Complex Spatial Entities -- komplexere Definitionen von Punkten, Linien und Polygonen, die die interne Struktur einer Entitaet abbilden koennen, etwa eine Stadt bestehend aus Strassen, Gebaeuden und Parks mit administrativen Funktionen. Der Prof hat dieses Thema jedoch klar als nicht pruefungsrelevant markiert: "Don't expect a question from that one."

Der Gesamtzusammenhang: Von der Realitaet zur digitalen Repräsentation¶

Der Weg von der Realitaet zur digitalen Repräsentation laesst sich in vier Schritten zusammenfassen. Im ersten Schritt steht die Realitaet -- unendlich komplex, und wir muessen entscheiden, welche Aspekte relevant sind. Im zweiten Schritt waehlen wir ein konzeptuelles Modell: entweder die Objektsicht (Objects/Entities mit klar definierten Grenzen) oder die Feldsicht (Smooth Continuous Spatial Variation). Im dritten Schritt uebersetzen wir dies in ein Datenmodell: diskrete Objekte mit Attributen und Relationen oder kontinuierliche glatte Felder. Im vierten Schritt schliesslich waehlen wir die Repräsentation: Vektordatenmodelle (Punkte, Linien, Polygone) fuer die Objektsicht oder Tessellation (Raster, TINs) fuer die Feldsicht.

Dieses Gesamtbild -- Realitaet, konzeptuelle Modelle, Datenmodelle, Repräsentationen -- ist die zentrale Lernuebersicht fuer die gesamte Session. Das Thema Repräsentation, oder breiter gefasst Ontologie (Ontology), ist eines der fundamentalen Themen der Geoinformatik als Wissenschaft (GI Science).