feat: "first commit"

Files changed (10) hide show

README.md +0 -128
bert_config/config.json +23 -0
tokenizer.json → bert_config/tokenizer.json +0 -0
tokenizer_config.json → bert_config/tokenizer_config.json +0 -0
vocab.txt → bert_config/vocab.txt +0 -0
config.json +4 -53
configuration_aurora.py +1 -46
modeling_aurora.py +1 -2
vit_config/config.json +21 -0
preprocessor_config.json → vit_config/preprocessor_config.json +0 -1

README.md DELETED Viewed

@@ -1,128 +0,0 @@
----
-license: mit
-language:
-- en
-pipeline_tag: time-series-forecasting
-tags:
-- code
----
-<div align="center">
-<img alt="intro" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/ytpsIAr98keUvNouoOVmb.png" width="30%"/>
-  <h1> Aurora: Towards Universal Generative Multimodal Time Series Forecasting </h1>
-  The official code repo of our ICLR 26's paper: <a href="https://arxiv.org/pdf/2509.22295">Aurora: Towards Universal Generative Multimodal Time Series Forecasting</a>
-[![ICLR](https://img.shields.io/badge/ICLR'26-Aurora-orange)](https://arxiv.org/pdf/2509.22295)  [![Python](https://img.shields.io/badge/Python-3.10%2B-blue)](https://www.python.org/)  [![PyTorch](https://img.shields.io/badge/PyTorch-2.4.1-blue)](https://pytorch.org/)  ![Stars](https://img.shields.io/github/stars/decisionintelligence/Aurora)
-</div>
-## Introduction
-Aurora is a highly capable multimodal time series foundation model. Based on the **Modality-Guided Multi-head Self-Attention** and  **Prototype-Guided Flow Matching**, Aurora can effectively utilize the domain-specific knowledge contained in modalities and support generative probabilistic forecasting, thus covering versatile forecasting scenarios.
-See **Figure 1**, to our best knowldege, Aurora is the first pretrained multimodal time series foundation model! Evaluated on three well-recognized benchmarks, including TimeMMD, TSFM-Bench, and ProbTS, Aurora is demonstrated the state-of-the-art.
-<div align="center">
-<img alt="intro" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/YdsPeh5mrn_lef19vQXfa.png" width="60%"/>
-</div>
-## Architecture
-In this work, we pretrain Aurora in a cross-modality paradigm, which adopts Channel-Independence on time series data, and models corresponding multimodal interaction to inject domain knowledge. Note that the each variable of time series is first normalized through Instance Normalization to mitigate the value discrepancy. See **Figure 2**, Aurora mainly consists of two phases: 1) in Aurora Encoder, we tokenize and encode each modality into modal features, then fuse them to form multimodal representations; 2) in Aurora Decoder, we utilize a Condition Decoder to obtain the multimodal conditions of future tokens, leverage a Prototype Retreiver to retrieve the future prototypes based on the domain knowledge, and conduct flow matching on them to make generative probabilistic forecasts.
-<div align="center">
-<img alt="intro" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/d82jT96jiGD0QL9s8RYg-.png" width="100%"/>
-</div>
-## Quickstart
-We release the original code of Aurora in this repo. You can also download the pretrained checkpoints in our [huggingface](https://huggingface.co/DecisionIntelligence/Aurora) repo and put them in the folder: aurora/.
-If you want to pretrain an Aurora on your own time series corpus, you need to install the following important packages:
-```shell
-$ pip install torch==2.4.0
-$ pip install torchvision==0.19.0
-$ pip install transformers[torch]
-```
-## Experiments
-You should refer to our [github repo](https://github.com/decisionintelligence/Aurora) for the complete experimental pipelines. For benchmarking (TSFM-Bench, ProbTS, TimeMMD, TFB, and EPF), you can install additional packages based on the requirement files under folders, and the datasets can be fetched from this [link](https://drive.google.com/file/d/12tJk858WaoG7ZVSvUq8KU1oHfGNJrARF/view?usp=drive_link). All experimental results can be reproduced by running the scripts in the benchmark folder：
-```shell
-# TimeMMD
-TimeMMD/scripts/run_aurora_timemmd_zero_shot.sh
-# EPF
-EPF/scripts/run_aurora_short_term_zero_shot.sh
-# ProbTS
-ProbTS/scripts/run_aurora_probts.sh
-# TSFM-Bench
-TFB/scripts/run_aurora_tfb.sh
-# TFB univaraite
-TFB/scripts/run_aurora_uni.sh
-```
-## Performance
-**Aurora ahieves consistent state-of-the-art performance on these 5 benchmarks:**
-<div align="center">
-<img alt="arch" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/Vh0ENMXJWwiPkWvMeeftG.png" width="100%"/>
-</div>
-<div align="center">
-<img alt="arch" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/2nPl7KumS6DU2lRzm8ACr.png" width="100%"/>
-</div>
-<div align="center">
-<img alt="arch" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/glgp6HoirIEO3yWBQD2Hw.png" width="100%"/>
-</div>
-<div align="center">
-<img alt="arch" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/RmOgS8recYalH-FjsfEOM.png" width="100%"/>
-</div>
-<div align="center">
-<img alt="arch" src="https://cdn-uploads.huggingface.co/production/uploads/66276727368ec2a0b933772c/JatnUn_fSmD2eJdMPb68y.png" width="100%"/>
-</div>
-## Citation
-If you find this repo useful, please cite our paper.
-```latex
-@inproceedings{wu2026aurora,
-  title     = {Aurora: Towards Universal Generative Multimodal Time Series Forecasting},
-  author    = {Wu, Xingjian and Jin, Jianxin and Qiu, Wanghui and Chen, Peng and Shu, Yang and Yang, Bin and Guo, Chenjuan},
-  booktitle = {ICLR},
-  year      = {2026}
-}
-```
-## Contact
-If you have any questions or suggestions, feel free to contact:
-- [Xingjian Wu](https://ccloud0525.github.io/) ([xjwu@stu.ecnu.edu.cn](mailto:xjwu@stu.ecnu.edu.cn))
-- [Peng Chen](https://pengchen12.github.io/) (pchen@stu.ecnu.edu.cn)
-Or describe it in Issues.

bert_config/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.6.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

tokenizer.json → bert_config/tokenizer.json RENAMED Viewed

File without changes

tokenizer_config.json → bert_config/tokenizer_config.json RENAMED Viewed

File without changes

vocab.txt → bert_config/vocab.txt RENAMED Viewed

File without changes

config.json CHANGED Viewed

@@ -1,19 +1,19 @@
 {
   "architectures": [
     "AuroraForPrediction"
   ],
-  "model_type": "aurora",
   "auto_map": {
     "AutoConfig": "configuration_aurora.AuroraConfig",
     "AutoModelForCausalLM": "modeling_aurora.AuroraForPrediction"
   },
-  "hidden_size": 256,
   "dropout_rate": 0.2,
   "hidden_act": "silu",
   "token_len": 48,
   "intermediate_size": 512,
   "max_position_embeddings": 10000,
   "num_attention_heads": 8,
   "num_enc_layers": 1,
   "num_dec_layers": 9,
@@ -27,60 +27,11 @@
   "mask_ratio": 0.5,
   "norm_mode": "batch",
   "num_prototypes": 1000,
   "num_retriever_enc_layers": 1,
   "num_retriever_dec_layers": 1,
   "num_text_cross_layers": 1,
   "num_vision_cross_layers": 1,
   "num_text_connect_layers": 1,
   "num_vision_connect_layers": 1,
-  "num_distill": 10,
-  "text_config": {
-    "_name_or_path": "google-bert/bert-base-uncased",
-    "architectures": [
-      "BertForMaskedLM"
-    ],
-    "attention_probs_dropout_prob": 0.1,
-    "gradient_checkpointing": false,
-    "hidden_act": "gelu",
-    "hidden_dropout_prob": 0.1,
-    "hidden_size": 768,
-    "initializer_range": 0.02,
-    "intermediate_size": 3072,
-    "layer_norm_eps": 1e-12,
-    "max_position_embeddings": 512,
-    "model_type": "bert",
-    "num_attention_heads": 12,
-    "num_hidden_layers": 12,
-    "pad_token_id": 0,
-    "position_embedding_type": "absolute",
-    "transformers_version": "4.6.0.dev0",
-    "type_vocab_size": 2,
-    "use_cache": true,
-    "vocab_size": 30522
-  },
-  "vision_config": {
-    "_name_or_path": "google/vit-base-patch16-224-in21k",
-    "architectures": [
-      "ViTModel"
-    ],
-    "attention_probs_dropout_prob": 0.0,
-    "hidden_act": "gelu",
-    "hidden_dropout_prob": 0.0,
-    "hidden_size": 768,
-    "image_size": 224,
-    "initializer_range": 0.02,
-    "intermediate_size": 3072,
-    "layer_norm_eps": 1e-12,
-    "model_type": "vit",
-    "num_attention_heads": 12,
-    "num_channels": 3,
-    "num_hidden_layers": 12,
-    "patch_size": 16,
-    "qkv_bias": true,
-    "transformers_version": "4.13.0.dev0"
-  }
 }

 {
+  "_name_or_path": "aurora_base",
   "architectures": [
     "AuroraForPrediction"
   ],
   "auto_map": {
     "AutoConfig": "configuration_aurora.AuroraConfig",
     "AutoModelForCausalLM": "modeling_aurora.AuroraForPrediction"
   },
   "dropout_rate": 0.2,
   "hidden_act": "silu",
+  "hidden_size": 256,
   "token_len": 48,
   "intermediate_size": 512,
   "max_position_embeddings": 10000,
+  "model_type": "aurora",
   "num_attention_heads": 8,
   "num_enc_layers": 1,
   "num_dec_layers": 9,
   "mask_ratio": 0.5,
   "norm_mode": "batch",
   "num_prototypes": 1000,
   "num_retriever_enc_layers": 1,
   "num_retriever_dec_layers": 1,
   "num_text_cross_layers": 1,
   "num_vision_cross_layers": 1,
   "num_text_connect_layers": 1,
   "num_vision_connect_layers": 1,
+  "num_distill": 10
 }

configuration_aurora.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from transformers import PretrainedConfig, ViTConfig, BertConfig
 class AuroraConfig(PretrainedConfig):
@@ -6,7 +6,6 @@ class AuroraConfig(PretrainedConfig):
     def __init__(
             self,
-            # --- Aurora Core Parameters ---
             token_len: int = 48,
             hidden_size: int = 512,
             intermediate_size: int = 1024,
@@ -17,8 +16,6 @@ class AuroraConfig(PretrainedConfig):
             rope_theta: int = 10000,
             dropout_rate: float = 0.2,
             max_position_embeddings: int = 10000,
-            # --- Diffusion / Flow Matching ---
             num_sampling_steps: int = 50,
             flow_loss_depth: int = 3,
             diffusion_batch_mul: int = 4,
@@ -26,8 +23,6 @@ class AuroraConfig(PretrainedConfig):
             mask_ratio: float = 0.5,
             norm_mode: str = 'batch',
             num_prototypes: int = 1024,
-            # --- Fusion Layers ---
             num_retriever_enc_layers: int = 1,
             num_retriever_dec_layers: int = 1,
             num_text_cross_layers: int = 1,
@@ -35,11 +30,6 @@ class AuroraConfig(PretrainedConfig):
             num_text_connect_layers: int = 1,
             num_vision_connect_layers: int = 1,
             num_distill: int = 10,
-            # --- Sub-Model Configurations (New) ---
-            vision_config=None,
-            text_config=None,
             **kwargs,
     ):
         self.token_len = token_len
@@ -67,41 +57,6 @@ class AuroraConfig(PretrainedConfig):
         self.num_vision_connect_layers = num_vision_connect_layers
         self.num_distill = num_distill
-        if vision_config is None:
-            self.vision_config = ViTConfig()
-        elif isinstance(vision_config, dict):
-            self.vision_config = ViTConfig(**vision_config)
-        else:
-            self.vision_config = vision_config
-        assert text_config is None
-        if text_config is None:
-            self.text_config = BertConfig()
-        elif isinstance(text_config, dict):
-            self.text_config = BertConfig(**text_config)
-        else:
-            self.text_config = text_config
         super().__init__(
             **kwargs,
         )
-    def to_dict(self):
-        """
-        保存配置时调用。必须把内部嵌套的 Config 对象转回字典。
-        """
-        output = super().to_dict()
-        # 将子 Config 对象递归转为字典
-        if isinstance(self.vision_config, PretrainedConfig):
-            output["vision_config"] = self.vision_config.to_dict()
-        else:
-            output["vision_config"] = self.vision_config
-        if isinstance(self.text_config, PretrainedConfig):
-            output["text_config"] = self.text_config.to_dict()
-        else:
-            output["text_config"] = self.text_config
-        return output

+from transformers import PretrainedConfig
 class AuroraConfig(PretrainedConfig):
     def __init__(
             self,
             token_len: int = 48,
             hidden_size: int = 512,
             intermediate_size: int = 1024,
             rope_theta: int = 10000,
             dropout_rate: float = 0.2,
             max_position_embeddings: int = 10000,
             num_sampling_steps: int = 50,
             flow_loss_depth: int = 3,
             diffusion_batch_mul: int = 4,
             mask_ratio: float = 0.5,
             norm_mode: str = 'batch',
             num_prototypes: int = 1024,
             num_retriever_enc_layers: int = 1,
             num_retriever_dec_layers: int = 1,
             num_text_cross_layers: int = 1,
             num_text_connect_layers: int = 1,
             num_vision_connect_layers: int = 1,
             num_distill: int = 10,
             **kwargs,
     ):
         self.token_len = token_len
         self.num_vision_connect_layers = num_vision_connect_layers
         self.num_distill = num_distill
         super().__init__(
             **kwargs,
         )

modeling_aurora.py CHANGED Viewed

@@ -500,7 +500,7 @@ class AuroraModel(nn.Module):
         )
-class AuroraForPrediction(TSGenerationMixin, AuroraPreTrainedModel):
     def __init__(self, config: AuroraConfig):
         super().__init__(config)
         self.config = config
@@ -537,7 +537,6 @@ class AuroraForPrediction(TSGenerationMixin, AuroraPreTrainedModel):
             revin: Optional[bool] = True,
             num_samples: Optional[int] = 1,
             inference_token_len: Optional[int] = 48,
-            **kwargs
     ):
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

         )
+class AuroraForPrediction(AuroraPreTrainedModel, TSGenerationMixin):
     def __init__(self, config: AuroraConfig):
         super().__init__(config)
         self.config = config
             revin: Optional[bool] = True,
             num_samples: Optional[int] = 1,
             inference_token_len: Optional[int] = 48,
     ):
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

vit_config/config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224-in21k",
+  "architectures": [
+    "ViTModel"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "qkv_bias": true,
+  "transformers_version": "4.13.0.dev0"
+}

preprocessor_config.json → vit_config/preprocessor_config.json RENAMED Viewed

@@ -1,5 +1,4 @@
 {
-  "image_processor_type": "ViTImageProcessor",
   "do_normalize": true,
   "do_resize": true,
   "image_mean": [

 {
   "do_normalize": true,
   "do_resize": true,
   "image_mean": [