Foundation Models im Vergleich: Chronos, Moirai und TimesFM
Foundation Models stehen für präzise Prognosen ohne aufwendiges Vortraining oder Modellanpassungen. Wir vergleichen für Sie drei der populärsten Modelle.
Foundation Models im Vergleich: Chronos, Moirai und TimesFM
Foundation Models stehen für präzise Prognosen ohne aufwendiges Vortraining oder Modellanpassungen. Wir vergleichen für Sie drei der populärsten Modelle.
Chronos – Learning the Language of Time Series
Chronos (Ansari et al., März 2024) umfasst eine Familie von Foundation Models unterschiedlicher Größe, die speziell für Zeitreihenvorhersageaufgaben entwickelt wurde. Chronos basiert auf der T5-Architektur und wurde auf einem umfangreichen Korpus von Zeitreihendaten aus verschiedenen Domänen sowie synthetisch erzeugten Daten vortrainiert. Chronos nutzt für die Verarbeitung der Zeitreihen horizontales Binning (mehr dazu erfahren Sie ebenfalls auf unserem Datenanalyse-Blog). Dieses Preprocessing ermöglicht es das zugrunde liegende Transformer-Modell mit nur wenigen Anpassungen nutzen zu können.
Moirai – Masked EncOder-based UnIveRsAl TIme Series Forecasting
Mithilfe verschiedener architektonischer Anpassungen, wie Änderungen am Attention-Mechanismus ist Moirai ein Modell, das universell für jegliche Vorhersageszenarien verwendet werden kann. Dies umfasst Zeitreihen über unterschiedliche Frequenzen hinweg, mit einer beliebigen Anzahl von Variablen für multivariate Zeitreihen sowie exogene Faktoren. Moirai nutzt vertikales Binning (mehr dazu erfahren Sie ebenfalls auf unserem Datenanalyse-Blog).
TimesFM – Time-series Foundation Model
TimesFM (Das et al., April 2024) wurde sowohl auf gängigen öffentlichen Datensätzen als auch auf Zeitreihen von Google Trends und Wikipedia Pageviews trainiert. Das zugrundeliegende Decoder-only Transformer Modell nutzt ebenfalls vertikales Binning (mehr dazu erfahren Sie ebenfalls auf unserem Datenanalyse-Blog). Im Gegensatz zu Chronos und Moirai beschränkt sich TimesFM auf Punktprognosen anstelle von Vorhersageintervallen. Die Kenntnis der Vorhersageintervalle ist oft entscheidend, um die Zuverlässigkeit der Prognosen besser zu verstehen.
Foundation Models im Vergleich
Modell | Dimension | Anzahl Parameter | Anzahl Trainingsdatenpunkte | Architektur |
Chronos | Univariat | 8 Millionen (chronos-tiny) bis 710 Millionen (chronos-large) | 84 Milliarden | T5, encoder-decoder Transformer |
Moirai | Multivariat | 14 Millionen (Moirai-small) bis 311 Millionen (Moirai-large) | 27 Milliarden | Encoder-only Transformer |
TimesFM | Univariat | 200 Millionen | 100 Milliarden | Decoder-only Transformer |
Anwendung und Bewertung der Modelle auf Zeitreihendaten aus der Praxis
Wir haben die Leistung besagter Foundation Models anhand verschiedener von uns verwendeter Zeitreihendaten analysiert. Es ist erwähnenswert, dass alle diese Modelle Open Source und für kommerzielle Zwecke nutzbar sind. Bei den durchgeführten Versuchen handelt es sich zwecks Vergleichbarkeit um univariate Zeitreihen. Alle Modelle wurden ohne zusätzliches Fine-Tuning, d.h. zero-shot angewandt. Zusätzlich vergleichen wir die Vorhersagen mit Saisonal Naiven Prognosen (SNaive) als populäre Baseline. Diese Methode, die auch als “Persistence Model” in der Literatur bekannt ist, behält die Werte der jüngsten saisonalen Periode bei und setzt sie für den gewünschten Prognosehorizont fort. Bei einer Periodizität von einer Woche, würde beispielsweise die Vorhersage für die nächste Woche einfach die Werte der aktuellen Woche übernehmen.
Bei der Auswertung muss berücksichtigt werden, dass Chronos selbst mit einem Kontextfenster von 512 Tokens und einem Vorhersagezeitraum von 64 Tokens trainiert wurde. Das Kontextfenster bezieht sich auf die Menge an Zeitpunkten, auf die das Modell zurückblicken kann und beim Generieren von neuen Vorhersagewerten referenzieren kann. Für Lastprognosen kann sich diese Einschränkung negativ auf die Vorhersagequalität auswirken.
Anwendungsbeispiel: Lastprognosen im Energiesektor
Ein typisches Szenario, in dem wir Zeitreihenmodelle für Lastprognosen verwenden, könnte beispielsweise folgendermaßen aussehen: Wir nehmen an, wir haben die Lastkurve der letzten 7 Tage vorliegen und möchten eine Lastprognose für die nächsten zwei Tage erstellen. Unter der Annahme eines im Energiesektor üblichen zeitlichen Intervalls von 15 Minuten würden dabei die jeweils 672 (7*24*4) und 192 (2*24*4) resultierenden Token das Trainingsszenario von Chronos überschreiten. Um längerfristige saisonale Effekte einzufangen, werden teils noch größere Kontextfenster erforderlich. Diese Einschränkung verdeutlicht, wie wichtig es ist, die Merkmale der Zeitreihendaten bei der Auswahl eines geeigneten Modells sorgfältig zu berücksichtigen.
Zero-shot Performance verschiedener Foundation Models auf unterschiedlichen Verbrauchszeitreihen. Der mittlere absolute Fehler basiert bei probabilistischen Modellen auf dem Median und wurde bei allen Modellen durch den Fehler der SNaive-Baseline normalisiert. Ein Wert größer als 1 entspricht einer höheren Fehlerrate im Vergleich zu einer saisonal naiven Prognose.
Grundsätzlich ergab sich eine gute Leistung des Chronos Modells. Eine bemerkenswerte Beobachtung war, dass Chronos bei verbrauchsbezogenen Zeitreihen, wie z. B. der Stromnachfrageprognose, gute Ergebnisse mit z.T. deutlich geringeren Prognosefehlern als das SNaive Benchmark erzielte. Allerdings lieferte es bei Zeitreihen mit starken Saisonalitäten höhere Fehlerraten als naive saisonale Ansätze. Im konkreten Beispiel war dies reduzierter Stromverbrauch im Einzelhandel am Sonntag.
Exemplarische Darstellung einer Lastprognose durch Chronos (zero-shot) verglichen mit den Ist-Werten. Für Chronos ist neben dem Median das 80% Vorhersageintervall abgebildet. Der Kontext für das Modell ist jeweils die vorherige 7-Tage-Periode der Zeitreihe.
Lastprognose durch Snaive für die gleiche Zeitreihe.
Exemplarische Darstellung einer Lastprognose durch Chronos (zero-shot) für eine Zeitreihe mit starker wöchentlicher Saisonalität. Für Chronos ist neben dem Median das 80% Vorhersageintervall abgebildet. Der Kontext für das Modell ist jeweils die vorherige 7-Tage-Periode der Zeitreihe. Ein systematischer Fehler wird bei der Sonntagsprognose deutlich, da das Modell unter den gegebenen Bedingungen nicht den reduzierten Stromverbrauch angemessen berücksichtigt.
Zusätzlicher Ressourcenaufwand durch große Foundation Models – Wirtschaftliche Abwägung bei der Modellauswahl
Die Verwendung großer Foundation Models bringt zusätzlichen Ressourcenaufwand mit sich. Betrachten wir beispielsweise Chronos-large mit seinen 710 Millionen Parametern, wird schnell deutlich, dass die Nutzung spezieller Hardware, wie z.B. einer GPU erforderlich ist. In dem oben beschriebenen Setting benötigten wir mit einer Nvidia A10G GPU etwa 2 Sekunden pro Inferenz. Wenn mehrere Zeitreihen vorliegen, kann der zeitliche Aufwand durch Batch Processing reduziert werden. Je nachdem wie häufig und wie schnell Vorhersagen benötigt werden, sollte dies im Vergleich zu naiven Ansätzen berücksichtigt werden.
Zusammenfassend lässt sich sagen, dass Foundation Models vielversprechende Ansätze für die Zero-Shot-Zeitreihenvorhersage bieten. Ihre Fähigkeit zur Verallgemeinerung für verschiedene Aufgaben ohne umfangreiche Feinabstimmung macht sie äußerst vielseitig und praktisch für eine breite Palette von Anwendungen. Ihre Leistung kann jedoch je nach den Merkmalen der Zeitreihendaten variieren, und es können zusätzliche Techniken oder Modellanpassungen erforderlich sein, um spezifische Herausforderungen wie Saisonalität oder Trends zu bewältigen. werden diese Basismodelle voraussichtlich zunehmend zu einem integralen Bestandteil des Werkzeugsatzes bei der Vorhersage von Zeitreihen.