Spaces:

akhaliq
/

MiniCPM-V-4.6

Running on Zero

akhaliq HF Staff commited on 9 days ago

Commit

79f594a

1 Parent(s): 9db959b

refactor: optimize video frame extraction by implementing direct seek-based sampling with duration-based fallback

Files changed (1) hide show

app.py CHANGED Viewed

@@ -153,28 +153,26 @@ def log_raw_model_output(session_id: str, **record) -> None:
 def load_video(video_path, max_frames=64):
     try:
         container = av.open(video_path)
-        frames = []
         stream = container.streams.video[0]
-        total_frames = stream.frames
-        if total_frames <= 0:
-            temp_frames = []
             for frame in container.decode(video=0):
-                temp_frames.append(frame.to_image())
-            if len(temp_frames) > max_frames:
-                indices = [int(i * len(temp_frames) / max_frames) for i in range(max_frames)]
-                frames = [temp_frames[i] for i in indices]
-            else:
-                frames = temp_frames
-        else:
-            indices = [int(i * total_frames / max_frames) for i in range(max_frames)]
-            current_idx = 0
-            for i, frame in enumerate(container.decode(video=0)):
-                if current_idx < len(indices) and i == indices[current_idx]:
-                    frames.append(frame.to_image())
-                    current_idx += 1
-                if current_idx >= len(indices):
-                    break
         container.close()
         return frames
     except Exception as e:

 def load_video(video_path, max_frames=64):
     try:
         container = av.open(video_path)
         stream = container.streams.video[0]
+        duration = stream.duration
+        if duration is None or duration <= 0:
+            # Fallback to full decode for short/broken streams
+            frames = []
+            for frame in container.decode(video=0):
+                frames.append(frame.to_image())
+            if len(frames) > max_frames:
+                indices = [int(i * len(frames) / max_frames) for i in range(max_frames)]
+                return [frames[i] for i in indices]
+            return frames
+        # Smart sampling
+        indices = [int(i * duration / max_frames) for i in range(max_frames)]
+        frames = []
+        for ts in indices:
+            container.seek(ts, stream=stream)
             for frame in container.decode(video=0):
+                frames.append(frame.to_image())
+                break
         container.close()
         return frames
     except Exception as e: