L'essor des modèles fondamentaux dans les séries temporelles

Par
Ghait Boukachab, 12 décembre 2024
Rétrospective
Séries temporelles
Apprentissage profond

Un changement de paradigme ou juste un autre engouement?

L'analyse des séries temporelles, pilier de l'analytique prédictive, a connu diverses avancées au fil des décennies, avec une évolution des modèles passant des méthodes statistiques traditionnelles à des approches sophistiquées d'apprentissage profond. Récemment, les progrès des modèles fondamentaux, notamment dans des domaines comme le traitement du langage naturel, ont suscité un intérêt pour leur application à la prévision des séries temporelles. Cependant, cet engouement soulève des questions cruciales : ces modèles peuvent-ils réellement relever les défis inhérents à la prévision des séries temporelles ? Ou bien les mêmes limitations qui ont freiné l'apprentissage profond dans ce domaine s'appliquent-elles encore ?

Apprentissage profond et séries temporelles : Une relation complexe

La relation entre l'apprentissage profond et la prévision des séries temporelles est complexe. La nature séquentielle des données de séries temporelles, combinée à la nécessité de préserver les dépendances temporelles, a rendu ce domaine résistant aux avancées ayant transformé d'autres domaines comme le traitement d'images et de textes. Les premières tentatives d'application de l'apprentissage profond à la prévision des séries temporelles ont souvent déçu. Bien que les réseaux neuronaux récurrents soient capables de gérer des données séquentielles, leurs performances dans les tâches de prévision des séries temporelles ont été incohérentes.

Zeng et al. (2022), dans leur article "Are Transformers Effective for Time Series Forecasting?", remettent en question l'efficacité des modèles Transformer appliqués à la prévision des séries temporelles. L'étude soutient que la nature indépendante de l'ordre des Transformers, qui est avantageuse pour traiter les langues et les images, entraîne une perte d'informations temporelles critiques dans les données de séries temporelles. Fait surprenant, l'étude montre que des modèles linéaires simples surpassent souvent les modèles basés sur les Transformers dans les tâches de prévision des séries temporelles à long terme, remettant en question l'adéquation de ces modèles avancés pour de telles applications.

De même, l'article "Why do tree-based models still outperform deep learning on tabular data?" par Kadra et al. (2021) met en avant le succès continu des modèles basés sur les arbres comme XGBoost et Random Forests par rapport aux modèles d'apprentissage profond dans les domaines où les données tabulaires sont courantes. Cette recherche souligne les défis auxquels sont confrontés les modèles d'apprentissage profond pour capturer les interactions complexes dans les données tabulaires, un défi également pertinent pour les données de séries temporelles, compte tenu de leur nature structurée et séquentielle.

Modèles fondamentaux : Le nouvel espoir ?

L'application des modèles fondamentaux à l'analyse des séries temporelles représente un développement significatif dans le domaine de l'apprentissage automatique. Malgré les défis inhérents, les chercheurs explorent de plus en plus le potentiel de ces modèles, notamment dans la prévision des séries temporelles. Ces approches novatrices visent à exploiter les capacités de généralisation des modèles fondamentaux pour surmonter les limitations persistantes de l'apprentissage profond appliqué aux séries temporelles.

Une enquête approfondie menée par Zhang et al. (2024), intitulée "Large Language Models for Time Series: A Survey", propose une catégorisation systématique des méthodes adaptant les Large Language Models (LLMs) aux tâches de séries temporelles. L'enquête distingue cinq approches principales : le prompting, la quantification, l'alignement, l'utilisation de la vision comme pont et l'intégration d'outils. Tout en mettant en évidence le potentiel des LLMs pour gérer des tâches complexes en séries temporelles, les auteurs soulignent également des défis critiques, notamment la nécessité de stratégies avancées de tokenisation et l'intégration des connaissances spécifiques au domaine. Complétant ce travail, Gruver (2023), dans leur article "Large Language Models Are Zero-Shot Time Series Forecasters", démontrent l'efficacité des LLMs en tant que prévisionnistes zero-shot, une capacité particulièrement précieuse dans des scénarios caractérisés par la rareté des données ou une évolution temporelle rapide.

Chronos, développé par Ansari et al. (2024), représente l'une des premières tentatives d'adaptation des LLMs aux données de séries temporelles. Le cadre Chronos utilise une méthode de tokenisation novatrice, en mettant à l'échelle et en quantifiant les données de séries temporelles dans un vocabulaire fixe. Cette approche permet l'entraînement de modèles de langage basés sur les Transformers sur ces séquences. Cependant, le maintien de la continuité temporelle reste un défi majeur, crucial pour une prévision efficace des séries temporelles.

S'appuyant sur ces bases, TimeGPT (Garza et al., 2023) a émergé comme un modèle fondamental pionnier spécifiquement conçu pour la prévision des séries temporelles. Utilisant des architectures basées sur les Transformers, TimeGPT est préentraîné sur une collection diversifiée et étendue de données de séries temporelles. Cet entraînement préalable permet au modèle de se généraliser à diverses tâches de prévision avec un minimum de réglages supplémentaires, voire en mode zero-shot. Les évaluations empiriques indiquent que TimeGPT surpasse à la fois les méthodes statistiques traditionnelles et les modèles d'apprentissage profond contemporains sur plusieurs ensembles de données de référence.

La famille de modèles MOMENT, introduite par Goswami et al. (2023), représente une autre contribution significative au domaine. Ces modèles fondamentaux open source sont conçus pour l'analyse des séries temporelles à usage général. Préentraînés sur le Time Series Pile, un ensemble de données large et diversifié, MOMENT démontre des compétences dans des tâches telles que la prévision, la classification et la détection d'anomalies sur des données de séries temporelles hétérogènes.

Lag-Llama, développé par Rasul et al. (2024), présente un modèle fondamental spécifiquement adapté à la prévision probabiliste univariée des séries temporelles. Utilisant une architecture de Transformer à décodeur unique, Lag-Llama intègre des caractéristiques retardées comme covariables, permettant des prédictions plus nuancées en prenant explicitement en compte l'incertitude, un aspect critique dans la prévision probabiliste.

Parallèlement à ces développements, les modèles d’espace d’états (State Space Models, SSMs) sont apparus comme des outils prometteurs pour capturer les dynamiques temporelles complexes dans la prévision des séries temporelles. Le modèle S4 (Structured State Space), introduit par Gu et al. (2022) dans "Efficiently Modeling Long Sequences with Structured State Spaces", a démontré des performances remarquables dans la gestion des dépendances à long terme. S'appuyant sur ce travail, le même groupe de recherche a développé le modèle Mamba, une alternative prometteuse aux Transformers, qui constituent la base de la plupart des modèles fondamentaux. Exploré dans Gu et al. (2023) "Is Mamba Effective for Time Series Forecasting?", Mamba a encore amélioré les capacités des SSMs. Son mécanisme d’espace d’état sélectif permet une capture efficace des motifs dans les longues séquences, surpassant potentiellement les modèles traditionnels basés sur les Transformers dans diverses tâches de prévision. Ce développement suggère que les SSMs pourraient jouer un rôle crucial dans la prochaine génération de modèles fondamentaux pour l’analyse des séries temporelles.

Les modèles de langage à grande échelle comme prévisionnistes des séries temporelles : Nouvelles perspectives

Des recherches récentes ont élargi l’application des Large Language Models (LLMs) à la prévision des séries temporelles, offrant des résultats intrigants. L’étude menée par Gruver et al. (2023), "Large Language Models Are Zero-Shot Time Series Forecasters", démontre que les LLMs, initialement conçus pour le traitement des textes, peuvent être efficacement reprogrammés pour la prévision des séries temporelles. En reformulant la prévision des séries temporelles comme un problème de prédiction du prochain jeton et en encodant les données numériques sous forme de texte, les auteurs montrent que des modèles comme GPT-3 et LLaMA-2 peuvent égaler ou surpasser les performances des modèles spécialisés dans les séries temporelles, notamment dans les scénarios zero-shot.

Cependant, une analyse critique par Tan et al. (2024) dans "Are Language Models Actually Useful for Time Series Forecasting?" remet en question les avantages perçus des LLMs pour les tâches de séries temporelles. À travers des études d’ablation approfondies, les auteurs montrent que la suppression de la composante LLM des modèles de prévision aboutit souvent à des performances comparables, voire améliorées. Ces résultats soulèvent des questions importantes sur l’efficacité computationnelle et l’utilité pratique des LLMs dans l’analyse des séries temporelles.

Adoptant une perspective nuancée, le cadre TIME-LLM, introduit par kin et al. (2023) dans "Time-LLM: Time Series Forecasting by Reprogramming Large Language Models", propose une approche alternative. Cette méthode adapte les LLMs pour la prévision des séries temporelles en reprogrammant les données d’entrée dans des formats compatibles avec les LLMs sans affiner le modèle. Les résultats des auteurs indiquent que les LLMs, lorsqu’ils sont adaptés de manière appropriée, peuvent servir de prévisionnistes efficaces, notamment dans les scénarios d’apprentissage few-shot et zero-shot.

Conclusion

Alors que nous attendons avec impatience l'atelier inaugural de NeurIPS 2024 "Time Series in the Age of Large Models" et les perspectives futures de l’analyse des séries temporelles, il est évident que les modèles fondamentaux représentent une avancée significative. Ces modèles offrent une approche novatrice pour relever les défis de la prévision des séries temporelles en exploitant les capacités du préentraînement à grande échelle et de l'apprentissage par transfert. Cependant, la communauté du machine learning doit adopter une perspective critique et éviter de supposer que les modèles fondamentaux sont une solution universelle à toutes les complexités inhérentes à l’analyse des séries temporelles.

Les modèles fondamentaux nous ont indéniablement rapprochés d’une approche plus unifiée et généralisable de l’analyse des séries temporelles. Pourtant, ils ne doivent pas être considérés comme la réponse définitive à tous les défis dans ce domaine. Les problématiques soulevées par les recherches antérieures restent pertinentes, et le chemin vers une prévision des séries temporelles véritablement efficace s’étend bien au-delà du simple passage à l’échelle des modèles existants.