Qwen3-Reranker-0.6B

@@ -39,20 +39,18 @@ class EndpointHandler:
             )
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
-        self.torch_dtype = torch.float16 if self.device == "cuda" else torch.float32
         self.tokenizer = AutoTokenizer.from_pretrained(
             str(model_dir),
             padding_side="left",
             trust_remote_code=True,
-            local_files_only=True,
         )
         self.model = AutoModelForCausalLM.from_pretrained(
             str(model_dir),
-            torch_dtype=self.torch_dtype,
             trust_remote_code=True,
-            local_files_only=True,
         ).to(self.device).eval()
         # Safer token lookup for decoder LMs: include leading space variants if needed

             )
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.dtype = torch.float16 if self.device == "cuda" else torch.float32
         self.tokenizer = AutoTokenizer.from_pretrained(
             str(model_dir),
             padding_side="left",
             trust_remote_code=True,
         )
         self.model = AutoModelForCausalLM.from_pretrained(
             str(model_dir),
+            dtype=self.dtype,
             trust_remote_code=True,
         ).to(self.device).eval()
         # Safer token lookup for decoder LMs: include leading space variants if needed