Spaces:

vimalk78
/

abc123

Running

vimalk78 commited on Jan 16

Commit

2645131

1 Parent(s): 4a0fccf

fix: create embeddings on CPU to avoid Jetson CUDA allocator crash

Move model to CUDA only after embeddings are created, not before.
This avoids NVML assertion failures during batch encoding on Jetson's
unified memory architecture.

Files changed (1) hide show

crossword-app/backend-py/src/services/thematic_word_service.py +27 -22

crossword-app/backend-py/src/services/thematic_word_service.py CHANGED Viewed

@@ -478,19 +478,16 @@ class ThematicWordService:
                 torch.cuda.empty_cache()
                 logger.info(f"✅ CUDA warmup complete")
-            # Load model on CPU first, then move to target device
-            # This works around CUDA initialization issues on Jetson unified memory
-            logger.info(f"📥 Loading model on CPU first...")
             self.model = SentenceTransformer(
                 model_path,
                 cache_folder=str(self.cache_dir),
                 device='cpu'
             )
-            if device == 'cuda':
-                logger.info(f"🔄 Moving model to CUDA...")
-                self.model = self.model.to('cuda')
             model_time = time.time() - model_start
-            logger.info(f"✅ Model loaded successfully in {model_time:.2f}s on {device}")
         except Exception as e:
             logger.error(f"❌ Failed to load SentenceTransformer model: {e}")
@@ -532,16 +529,23 @@ class ThematicWordService:
             raise
-        # Load or create embeddings (returns PyTorch tensor)
         embeddings = self._load_or_create_embeddings()
-        # Place tensor on appropriate device
         self.vocab_embeddings = embeddings.float().to(self.device)
         logger.info(f"🚀 Loaded {self.vocab_embeddings.shape[0]} embeddings on {self.device}")
         if self.device == 'cuda':
             logger.info(f"💾 GPU memory allocated: {torch.cuda.memory_allocated()/1024**2:.1f}MB")
         # Verify embeddings device
         logger.info(f"✅ Embeddings device: {self.vocab_embeddings.device}")
@@ -591,22 +595,23 @@ class ThematicWordService:
             return self._create_embeddings_from_scratch()
     def _create_embeddings_from_scratch(self) -> torch.Tensor:
-        # Create embeddings
-        logger.info("🔄 Creating embeddings for vocabulary...")
         start_time = time.time()
-        # Create embeddings in batches for memory efficiency
-        batch_size = 512
         all_embeddings = []
         for i in range(0, len(self.vocabulary), batch_size):
             batch_words = self.vocabulary[i:i + batch_size]
             batch_embeddings = self.model.encode(
                 batch_words,
-                convert_to_tensor=True,  # Keep as PyTorch tensor
-                show_progress_bar=i == 0  # Only show progress for first batch
-            ).cpu()  # Move to CPU for concatenation
             all_embeddings.append(batch_embeddings)
             if i % (batch_size * 10) == 0:

                 torch.cuda.empty_cache()
                 logger.info(f"✅ CUDA warmup complete")
+            # Load model on CPU first - we'll move to CUDA after embeddings are created
+            # This avoids CUDA memory allocation issues during batch encoding on Jetson
+            logger.info(f"📥 Loading model on CPU...")
             self.model = SentenceTransformer(
                 model_path,
                 cache_folder=str(self.cache_dir),
                 device='cpu'
             )
             model_time = time.time() - model_start
+            logger.info(f"✅ Model loaded successfully in {model_time:.2f}s on cpu")
         except Exception as e:
             logger.error(f"❌ Failed to load SentenceTransformer model: {e}")
             raise
+        # Load or create embeddings on CPU (returns PyTorch tensor)
         embeddings = self._load_or_create_embeddings()
+        # Now move model and embeddings to target device (CUDA if available)
+        # This is done AFTER embedding creation to avoid CUDA allocator issues on Jetson
+        if self.device == 'cuda':
+            logger.info(f"🔄 Moving model to CUDA...")
+            self.model = self.model.to('cuda')
+            logger.info(f"✅ Model moved to CUDA")
+        # Place embeddings tensor on appropriate device
         self.vocab_embeddings = embeddings.float().to(self.device)
         logger.info(f"🚀 Loaded {self.vocab_embeddings.shape[0]} embeddings on {self.device}")
         if self.device == 'cuda':
             logger.info(f"💾 GPU memory allocated: {torch.cuda.memory_allocated()/1024**2:.1f}MB")
         # Verify embeddings device
         logger.info(f"✅ Embeddings device: {self.vocab_embeddings.device}")
             return self._create_embeddings_from_scratch()
     def _create_embeddings_from_scratch(self) -> torch.Tensor:
+        # Create embeddings on CPU to avoid CUDA allocator issues on Jetson
+        logger.info("🔄 Creating embeddings for vocabulary on CPU...")
         start_time = time.time()
+        # Smaller batch size for memory efficiency (especially on Jetson)
+        batch_size = 256
         all_embeddings = []
         for i in range(0, len(self.vocabulary), batch_size):
             batch_words = self.vocabulary[i:i + batch_size]
             batch_embeddings = self.model.encode(
                 batch_words,
+                convert_to_tensor=True,
+                show_progress_bar=i == 0,
+                device='cpu'  # Explicitly use CPU for encoding
+            )
             all_embeddings.append(batch_embeddings)
             if i % (batch_size * 10) == 0: