Zum Inhalt springen

This page is also available in English.

Zur Powderguide-Startseite Zur Powderguide-Startseite
Bergwissen

Welt der Wissenschaft | Frank Techel (SLF) über Menschen und Modelle

Menschen und Modelle in der Lawinenwarnung - kennt die künstliche Intelligenz die Gefahrenstufe von morgen?

26.02.2025 von Lea Hartl
Frank Techel ist Lawinenwarner und Forscher am SLF. Er befasst sich mit der Integration von Modellen in die operationelle Lawinenprognose und glaubt, dass es großes Potential gibt, die Lawinenwarnung zu verbessern, wenn Mensch und Maschine zusammenarbeiten. Im Interview erklärt er, wie “die KI” das menschliche SLF Team bei der Erstellung des Bulletins unterstützt und wo die Grenzen der Modelle liegen.

Zusätzlich zum physikalischen Schneedeckenmodell SNOWPACK, das anhand von Wetterdaten die Schichtung der Schneedecke an einem bestimmten Punkt berechnet, werden am SLF drei Machine Learning (“KI”) Modelle eingesetzt. Diese Modelle haben anhand von Trainingsdatensätzen statistische Zusammenhänge zwischen Schneedeckensimulationen, Wetterdaten und Lawinenbeobachtungen oder Gefahrenstufen “gelernt”. Die erlernten Zusammenhänge werden genutzt, um relevante Lawinenparameter (Auslösewahrscheinlichkeit, Gefahrenstufe) ohne Zutun menschlicher PrognostikerInnen vorherzusagen.

PG: In deinen Publikationen schreibst du, dass der Trend in der Schweizer Lawinenwarnung weg geht von einem reinen “expert based approach” und hin zu einem “data and model-driven Approach”. Ist das ein grundsätzliches Ziel bei euch? 

FT: Ich weiss nicht, ob ein reiner Daten- und Modell-getriebener Ansatz wirklich das Ziel ist, aber ich sehe ein stärkeres Eingehen von immer besser werdenden Modellen in den Prognoseprozess als eine logische Entwicklung. Bis vor ungefähr fünf Jahren hatten wir in der Lawinenwarnung eigentlich nur die Beobachtung von heute, Messwerte von heute und eine Wettervorhersage für den Folgetag. Wir hatten auch schon das Schneedeckenmodell SNOWPACK, es wurde bei uns aber wenig genutzt. Wettermodelle waren also die einzigen Modelle, die wirklich eine Rolle gespielt haben. Den ganzen Rest haben die Lawinenwarnerinnen und -warner mit ihrer Erfahrung, ihrem Wissen, ihrem Bauchgefühl gemacht. Das meine ich mit Expert Based Approach. 

Seit ein paar Jahren haben wir viel mehr Modelldaten zur Verfügung. Zum einen SNOWPACK, das wir zunehmend auch prognostisch benutzen, und zum anderen die Machine Learning Modelle, die quasi auf SNOWPACK oben drauf kommen. Da hat sich viel getan, seit der letzte PowderGuide Artikel zu dem Thema erschienen ist. Damals hatten wir die Modellketten schon teilweise getestet, aber mittlerweile läuft das sehr stabil und ist operationell im Einsatz. Neben der ganzen Programmierarbeit, die dafür nötig war, ist auch die Schulung der Lawinenwarner und -warnerinnen mega wichtig. Wir müssen alle lernen, was die Modelle können und vor allem, was sie nicht können.

Nimmst du in Nachbarländern auch diesen Trend wahr, hin zu Modellen und weg von rein menschlichem Expertentum? 

Ja. Wenn ich mit Kollegen in Tirol spreche, oder in Norwegen oder Kanada, ist eigentlich allen klar, dass Modelle eine große Chance bieten. Da rede ich nicht von KI, sondern von allen Modellen. Es ist sicher noch viel Umsetzungsarbeit nötig, genauso wie Forschung, aber Modelle haben großes Potential, die Lawinenwarnung zu verbessern. Ich versuche diesen Transfer voranzutreiben - dass die Modelle wirklich von der Forschung zu uns in die Lawinenvorhersage kommen. 

Wie sieht der “model-driven approach” im laufenden Betrieb aus?

Ich weiss nicht, ob ich schon von einem model-driven approach sprechen würde. Aber die Modelle bieten jetzt schon eine wertvolle zweite Meinung, wie die vorhandenen Daten interpretiert werden können. Wenn ich also eine Prognose erstelle, dann mache ich mir weiterhin genau die gleichen Überlegungen wie vor ein paar Jahren, aber ich habe auch ein Modell, das mir zum Beispiel etwas zur Wahrscheinlichkeit von Spontanlawinen sagt.

Bergwissen
presented by

Was erhoffst du dir in Zukunft von den Modellen?

Die Modelle helfen mir, meine eigene Prognose zu hinterfragen. Wenn das Modell etwas anderes sagt als ich, überlege ich, ob ich etwas verpasst habe, oder ob das Modell etwas nicht sieht. Und dann können uns Modelle auch unterstützen, räumliche Muster zu erkennen, was dann auch zu räumlich genaueren Prognosen führen kann. Man sieht jetzt schon bei uns, dass die Lawinenprognose langsam immer höher aufgelöst wird. Vor zehn Jahren haben wir vielleicht fünf verschiedene Gefahrengebiete im Schweizer Alpenraum unterschieden und beschrieben. Jetzt sind es oft zehn Gebiete. Dieser Trend hat aber einen Deckel, der dadurch bestimmt ist, was der Mensch kann. Denn wir Lawinenwarner sind eingeschränkt in unserer Kapazität, Daten zu verarbeiten. Modelle können räumlich und auch zeitlich fast unendlich hochauflösend rechnen. 

In der Schweiz gibt es zweimal am Tag ein Bulletin und die räumliche Auflösung sind die sogenannten Microregions.

Ja, das ist in etwa das, was wir als Menschen leisten können. Und selbst da machen wir keine Einschätzung für jede der hundertvierzig Microregions, sondern wir fassen zusammen. Theoretisch könnten wir alle hundertvierzig einzeln einschätzen, aber wir müssten dann auch zu jeder Region wissen, wie sich diese von Nachbarregionen unterscheidet, und dann für jede Region einzeln was schreiben. Das ist mit zwei oder drei Leuten im Prognoseteam nicht möglich. Damit so was möglich wäre, müsste die Maschine einen großen Teil übernehmen können. Aber kann sie das? Und welche Auflösung ist mit den vorhandenen Daten derzeit sinnvoll?

Man könnte ja denken, hohe Auflösung ist super, mehr Information ist mehr Information. Wann ist es zu viel, oder nicht mehr sinnvoll?

Das ist eine gute Frage und da habe ich im Moment auch keine Antwort. Rein von dem, was ich jetzt operationell sehe, ist für mich ganz klar: Modelle machen keine Einzelhangprognose. Eine etwas höhere Auflösung als das, was wir jetzt haben, geht wahrscheinlich schon. Herauszufinden, was möglich wäre, wenn Mensch und Modell zusammenarbeiten, ist mega schwierig. 

Warum machen die Modelle keine Einzelhangprognose?

Mein Gefühl ist, dass wir davon im Moment noch weit, weit weg sind. In der Schweiz arbeiten wir mit Schneedeckensimulationen, die an Wetterstationen gemacht werden und dann interpolieren wir dazwischen. Das heißt, alles, was wir dazwischen machen, ist eine Art Verschmieren von Punktinformationen. Wir berücksichtigen zwar Hangausrichtung und Meereshöhe, aber keine lokale Topografie, wirklich null. 

Die Geländedaten dafür gäbe es ja in der Schweiz, oder? 

Ja, theoretisch kann man die Schneedecke für beliebige Punkte oder Hänge simulieren. Aber inwiefern diese Simulationen lokale Effekte, oder die Variabilität der Schneedecke abbilden können, ist fraglich.Deswegen bin ich der Meinung, dass da noch sehr viel Forschungsarbeit nötig ist.

Reden wir etwas genauer über die Modelle, die bei euch im Einsatz sind. Kannst Du kurz sagen, was SNOWPACK macht?

SNOWPACK nimmt Wetterdaten und berechnet daraus quasi die Schneedecke. Jedes Wetterereignis hat einen Einfluss auf die Schneedecke, sei es ein Zuwachs mit einer Neuschneeschicht, oder wenn Schmelzwasser eindringt, oder sonst irgendwas. SNOWPACK simuliert diese Prozesse dann für einen bestimmten Punkt. 

SNOWPACK ist kein KI Modell, sondern ein physikalisches Modell, dass basierend auf unserem Prozessverständnis ausrechnet, was in der Schneedecke passiert, wenn es zum Beispiel regnet oder drauf schneit. 

Genau, ja. 

Ihr habt mittlerweile einige KI Modelle -  darunter das Danger Level Model, das Instability Model und das Natural Avalanche Model. Was machen die?

Wir haben wie gesagt die sehr komplexen Simulationen aus SNOWPACK an hunderten Datenpunkten und für verschiedene Expositionen. In Summe sind das sehr viele Daten, die man für den Lawinenwarner erstmal nutzbar und interpretierbar machen muss. Mit den KI Modellen versuchen wir, die relevantesten Informationen herauszufiltern. 

Alle drei KI Modelle sind auf eine ganz spezifische Fragestellung trainiert. Sie können jeweils eine spezielle Sache. Das Gefahrenstufenmodell zum Beispiel hat mit Daten der letzten zwanzig Jahre gelernt, welche Kombination von Wetterdaten und SNOWPACK Schneeschichten ungefähr mit welcher Gefahrenstufe korreliert.

Das Instability Modell ist anders. Das nimmt nur das simulierte Schichtprofil und geht jede Schichtkombination durch. Wie sieht die Schicht aus? Könnte das eine Schwachschicht sein und liegt ein Schneebrett drüber? Das Modell hat die Korrelationen anhand von Rutschblocktests gelernt. Es gibt dann eine Wahrscheinlichkeit an, dass dies eine typische Kombination von einer Schwachschicht und dem “Brett” darüber ist. Basierend auf den Daten aus der Vergangenheit erwarten wir dann ein mehr oder weniger schwaches Rutschblock-Ergebnis. Die ungünstigste Schicht-Brett-Kombination in einem simulierten Profil klassiert dann das Schneeprofil als schwach oder als stabil.

Das Spontanlawinenmodell baut auf dem Instability Model auf und nimmt auch noch Neuschnee als Parameter. Das hat aus einem historischen Datensatz mit beobachteten Lawinen gelernt. Das Modell haben wir letzten Winter das erste Mal operationell eingesetzt und anschließend ausgewertet, wie die Vorhersagen des Modells mit Radar-detektierten Lawinen korrelieren. Die Radardaten stammen von bestimmten Lawinenzügen, wo fest installierte Sensoren erkennen, wenn eine Lawine abgeht. Solche Systeme werden zum Beispiel bei exponierten Verkehrswegen für automatisierte Straßensperrungen genutzt. Für die Evaluierung des Spontanlawinenmodells ist das ein interessanter Datensatz, weil das Radar die Lawinen quasi in Echtzeit registriert. Menschliche Lawinenbeobachtungen sind dagegen meistens zeitlich etwas verzögert, weil wir die Lawinen ja nicht immer gleich während des Abgangs bemerken, oder weil es schneit und wir einfach nichts sehen. Der Abgleich mit den Radar-Detektionen hat unser Gefühl bestätigt, dass das Modell ein bisschen verzögert reagiert. Das liegt vermutlich daran, dass das Modell mit den menschlichen Beobachtungen trainiert wurde, die eben auch ein bisschen verzögert sind. Es ist bei allen Modellen also sehr wichtig, dass wir wissen, wie die Modelle trainiert sind, weil das auch potenzielle Fehler bestimmt.

Die KI basierten, statistischen Modelle werden mit euren Prognosen und Beobachtungen und den Schneedecken Simulationen von SNOWPACK trainiert. Das heißt, wir brauchen weiterhin das physikalische Prozessverständnis und können uns nicht nur irgendwie auf die Zauberei der KI verlassen, oder?

Genau. Ich hätte sehr gern Modelle, die die physikalischen Prozesse möglichst gut abbilden. Ich schaue eigentlich nie nur den Output des Instability Modells an, sondern ich gehe immer wieder auch zurück zur SNOWPACK Simulation und schaue mir für einige Stationen an, ob die Schichten plausibel aussehen. Es ist mega wichtig, dass wir in diesen langen Modellketten wenigstens ansatzweise verstehen, was passiert. Die KI Modelle kommen ganz, ganz am Ende und sind eigentlich nur drüber gestülpt über alles, was davor passiert. 

Die KI Modelle helfen, das Relevante rauszuziehen. SNOWPACK spuckt sehr, sehr viel Information aus und die KI filtert dann für uns. Kann man es so zusammenfassen? 

Ja, das kann man so zusammenfassen. Letztendlich sind das einfach Modelle, die am Ende auf SNOWPACK oben drauf kommen. Aber diese “kleinen” Modelle haben bei uns zu einem recht großen Sprung in der Verwendung von SNOWPACK im Prognosedienst geführt. Denn die machen plötzlich den komplexen Output des SNOWPACK Modells verdaubar, indem sie daraus relativ einfach verständliche, relevante Informationen extrahieren. Daher denke ich, dass es wichtig wäre, wenn wir die Modelle noch einfacher bei der Erstellung der Prognose integrieren könnten.

Bergwissen
presented by

Man muss den KI Modellen gute Trainingsdaten geben, damit sie gute Ergebnisse liefern und das Gefahrenstufenmodell wurde mit euren Lawinenprognosen trainiert. Woher wisst ihr denn, ob die Prognosen gut waren und das Modell das richtige lernt?

Das Gefahrenstufenmodell wurde nicht einfach nur mit unseren Prognosen trainiert, sondern mit überprüften Prognosen. Allerdings steckt sowohl in der Prognose als auch rückblickend bei der Überprüfung immer der Mensch drin. Denn es ist immer ein Mensch, der eine Gefahrenstufe festlegt. Für die Überprüfung verwenden wir beispielsweise die Rückmeldungen von Beobachtern, die eine Gefahreneinschätzung machen. Oder die beobachtete Lawinenaktivität. Außerdem diskutieren wir im Nachhinein, wenn wir dann alle Daten zu einem Tag haben, ob die Gefahrenstufe rückblickend gepasst hat. Aber eine zuverlässige Überprüfung der Prognose ist mit den vorhandenen Daten wirklich mega schwierig. [Weiteres von Frank zur Verifikation von Lawinenprognosen gibt es in diesem PG-Artikel]

Wie interpretierst Du es, wenn das Modell Dir etwas sagt, das Du nicht erwartest? 

Primär ist dann für mich wichtig: Das Modell sagt etwas anderes, als ich mir vorgestellt habe. Das heißt dann, entweder habe ich etwas übersehen, oder dem Modell fehlen Informationen. Wenn wir zum Beispiel in eine Lawinenphase starten und von großen Lawinen hören, dann fließt diese Information in  unsere Prognose für morgen mit ein. Das Gefahrenstufenmodell hat diese Information nicht. Das hat keine Ahnung, was schon an Lawinen abgegangen ist, es rechnet einfach mit dem Wetter weiter. Das wäre ein Fall, wo meine Einschätzung wahrscheinlich richtiger ist, weil ich weiß, dass schon große Lawinen abgegangen sind.

Dann gibt es auch weniger klare Fälle, zum Beispiel, wenn wir ein Altschneeproblem haben, und im Rückgang sind von Stufe Drei auf Zwei. Da geht das Gefahrenstufenmodell häufig etwas schneller zurück als wir. Da ist immer die große Frage, sind wir einfach zu vorsichtig oder sieht das Modell die schwachen Schichten nicht? Da haben wir auch noch keine Lösung, ob und wie wir das Modell berücksichtigen sollten. 

Das Gefahrenstufenmodell ist ja schon operationell integriert, oder?

Ja, wir haben jetzt einen Ansatz, der das Gefahrenstufenmodell direkt in der Bulletin-Software integriert. Die anderen Modelle fließen als Zusatzinformation ein, während wir die Prognose vorbereiten. Ich denke, dass wir da auf einem guten Weg sind, aber so ganz ideal sind unsere Abläufe noch nicht. Zudem müssen wir herausfinden, wann die Modelle besser sind als wir und wann sie es einfach noch nicht schaffen. Das sind die großen Herausforderungen für einen möglichst sinnvollen Einsatz der Modelle.

In eurem Workflow geben alle PrognostikerInnen und das Gefahrenstufenmodell einen Vorschlag ab für die Gefahrenstufe von morgen. Das Modell wird quasi wie ein weiteres Teammitglied behandelt, das eine Prognose abgibt. Dahinter steckt die Idee, dass das Ergebnis besser wird, je mehr Ensemble Member bzw. Vorschläge man hat?

Genau, wir nehmen den Median dieses Ensembles. Die Grundbedingung, dass so etwas funktioniert, ist, dass jedes Ensemble Member kompetent ist. Das heißt nicht, dass man immer richtig ist, aber dass man im Schnitt häufiger richtig als falsch ist. Wenn Du drei schlechte Prognostiker hast und ein Mittel bildest, wird das Ergebnis unter Umständen noch schlechter. Wenn alle drei im Mittel ziemlich gut sind, ist der Mittelwert meist ein guter Ausgangspunkt für die anschließende Diskussion.

Wir arbeiten immer mit zwei Lawinenwarnerinnen oder -warnern und dem Modell. Wenn die zwei Leute sich einig sind und das Modell abweicht, und man dann einen Median bildet, dann hat das Modell eigentlich gar nichts zu sagen. Und wenn sich die zwei Personen uneinig sind, dann kann das Modell den Ausschlag geben. Wir können das Modell aber bewusst auch ausschließen, wenn wir uns ziemlich sicher sind, dass es daneben liegt. Der Gedanke ist also, dass man zuerst einen möglichst objektiven Vorschlag ermittelt und diesen dann diskutiert. Denn es soll nicht eine starke Persönlichkeit ihren Vorschlag durchboxen, sondern wir diskutieren das im Team, ausgehend von einem statistisch gesehen relativ starken Anker.

Wie läuft das in der Praxis ab? Ich sage Drei plus. Du sagst Vier minus, das Modell sagt drei plus. Dann bilden wir den Median. Wie sieht dann die Diskussion aus?

In diesem Fall würden wir, wenn wir das Modell mit dazu nehmen, mit 3+ als Ausgangspunkt starten. Nehmen wir mal an, ich wäre jetzt sehr unzufrieden damit, der Situation für morgen einen Dreier zu geben. Dann wäre meine Aufgabe, den anderen zu erläutern, wieso ich das für nicht richtig halte. Möglichst datenbasiert, wobei dies natürlich schwierig ist, denn am Ende steckt immer unsere menschliche Interpretation drin. In dieser Diskussion wird wahrscheinlich auch mal so, mal so entschieden. Und das ist auch eine unserer Schwächen, denn wir Menschen sind nicht immer konsistent.

Also es menschelt nach wie vor?

Es menschelt ganz klar. Wir sind weiterhin primär menschliche Lawinenwarner. Die Modelle können uns aber unterstützen und uns aufzeigen, wo wir vielleicht heute noch mal genauer hinschauen müssen. 

Bleibt das auch in Zukunft so?

Ich weiß nicht, wie eine Lawinenwarnung der Zukunft aussehen wird. Vielleicht ist in zehn Jahren die Prognose hoch aufgelöst, vielleicht machen Modelle dann auch einen großen Teil der Prognose. Wer weiß? Vielleicht ist es deswegen dann aber umso wichtiger, dass wir noch Erläuterungen mitgeben und dem User kommunizieren können: “Passt genau dort auf…” Also diese menschliche Stimme, die man noch mit rein bringt. Wie die Lawinenprognose der Zukunft aussieht, ist für mich noch sehr offen.

Ähnliche Artikel

Kommentare

Es sind noch keine Kommentare vorhanden.

Anmeldung

Wenn du noch kein Benutzerkonto bei uns hast, kannst du dich kostenlos registrieren.

Bergwissen
presented by