Qwen3-Reranker-0.6B

@@ -39,7 +39,7 @@ class EndpointHandler:
             )
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
-        self.dtype = torch.float16 if self.device == "cuda" else torch.float32
         self.tokenizer = AutoTokenizer.from_pretrained(
             str(model_dir),
@@ -49,7 +49,7 @@ class EndpointHandler:
         self.model = AutoModelForCausalLM.from_pretrained(
             str(model_dir),
-            dtype=self.dtype,
             trust_remote_code=True,
         ).to(self.device).eval()

             )
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.torch_dtype = torch.float16 if self.device == "cuda" else torch.float32
         self.tokenizer = AutoTokenizer.from_pretrained(
             str(model_dir),
         self.model = AutoModelForCausalLM.from_pretrained(
             str(model_dir),
+            torch_dtype=self.torch_dtype,
             trust_remote_code=True,
         ).to(self.device).eval()