calibration

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
.gitignore +3 -1
calibration.py +0 -41
export.py +45 -2
image_calibration.py +26 -0
images/000000001999.jpg +3 -0
images/000000003899.jpg +3 -0
images/000000006712.jpg +3 -0
images/000000009658.jpg +3 -0
images/000000012999.jpg +3 -0
images/000000013517.jpg +3 -0
images/000000017153.jpg +3 -0
images/000000020063.jpg +3 -0
images/000000024307.jpg +3 -0
images/000000024457.jpg +3 -0
images/000000028127.jpg +3 -0
images/000000029161.jpg +3 -0
images/000000029716.jpg +3 -0
images/000000030677.jpg +3 -0
images/000000033300.jpg +3 -0
images/000000033888.jpg +3 -0
images/000000034973.jpg +3 -0
images/000000036693.jpg +3 -0
images/000000038226.jpg +3 -0
images/000000038999.jpg +3 -0
images/000000039764.jpg +3 -0
images/000000040380.jpg +3 -0
images/000000040768.jpg +3 -0
images/000000040870.jpg +3 -0
images/000000042404.jpg +3 -0
images/000000044446.jpg +3 -0
images/000000047942.jpg +3 -0
images/000000048491.jpg +3 -0
images/000000048595.jpg +3 -0
images/000000053977.jpg +3 -0
images/000000061834.jpg +3 -0
images/000000061945.jpg +3 -0
images/000000063409.jpg +3 -0
images/000000063873.jpg +3 -0
images/000000063879.jpg +3 -0
images/000000065177.jpg +3 -0
images/000000066503.jpg +3 -0
images/000000069121.jpg +3 -0
images/000000072207.jpg +3 -0
images/000000075257.jpg +3 -0
images/000000076428.jpg +3 -0
images/000000077639.jpg +3 -0
images/000000077864.jpg +3 -0
images/000000081406.jpg +3 -0
images/000000083755.jpg +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.jpg filter=lfs diff=lfs merge=lfs -text

.gitignore CHANGED Viewed

@@ -2,4 +2,6 @@
 vision.pt
 text.pt
 *pnnx*
-*_ncnn.py

 vision.pt
 text.pt
 *pnnx*
+*_ncnn.py
+__pycache__

calibration.py DELETED Viewed

@@ -1,41 +0,0 @@
-text_input_calibration_samples = [
-    "man with backpack", "person walking dog", "car parked in driveway",
-    "delivery man", "UPS truck", "FedEx truck", "Amazon delivery",
-    "woman with groceries", "child playing", "dog near gate",
-    "unknown person approaching", "motion detected", "vehicle on driveway",
-    "suspicious activity", "someone at the door", "person in backyard",
-    "car driving away", "truck on street", "package delivered",
-    "stranger near front door", "man wearing a hat", "person in black jacket",
-    "person with red bag", "bicycle near fence", "dog in yard",
-    "person running", "car entering driveway", "person in garden",
-    "no one in view", "snowy scene", "night vision footage",
-    "package left at door", "person holding something", "person climbing fence",
-    "cat in yard", "truck backing up", "bike leaning on wall",
-    "person walking", "car parked outside", "motion detected at night",
-    "woman in red dress", "man in blue shirt", "person in hoodie",
-    "person in sunglasses", "dog running", "car with unknown license plate",
-    "person with umbrella", "package pickup", "snow falling",
-    "person approaching house", "truck on driveway", "delivery vehicle parked",
-    "child riding bike", "person in white shirt", "man on phone",
-    "suspicious vehicle", "package delivered", "motion near garage",
-    "person wearing mask", "dog on porch", "truck driving by",
-    "person walking past house", "car idling", "person leaving house",
-    "woman on porch", "man in gray jacket", "person with package",
-    "unknown person at gate", "package on doorstep", "person walking dog at night",
-    "vehicle at front door", "person wearing cap", "suspicious delivery person",
-    "dog chasing car", "truck parked in front", "child walking alone",
-    "person wearing backpack", "car pulling into driveway", "motion near window",
-    "delivery package dropped", "person with camera", "man in uniform",
-    "woman in yellow dress", "person wearing gloves", "car driving fast",
-    "person entering gate", "truck leaving area", "package picked up",
-    "motion near mailbox", "suspicious man", "suspicious woman",
-    "person with box", "person with shopping bag", "dog near garage",
-    "person wearing jacket", "truck with logo", "suspicious backpack",
-    "child playing near car", "person in front yard", "motion detected at gate",
-    "package delivery", "person walking fast", "truck making delivery",
-    "man with camera", "person near fence", "suspicious car parked",
-    "person wearing gloves", "vehicle in backyard", "motion near porch",
-    "person with package in hand", "truck with delivery sign", "child on bike",
-    "person standing still", "car with lights on", "suspicious vehicle in front",
-    "woman with shopping bags", "person wearing jeans", "suspicious dog",
-]

export.py CHANGED Viewed

@@ -3,7 +3,6 @@ from PIL import Image
 import requests
 from transformers import CLIPProcessor, CLIPModel
 from transformers.models.clip.modeling_clip import _get_vector_norm
-import coremltools as ct
 import torch
 import numpy as np
 import platform
@@ -69,6 +68,7 @@ with torch.no_grad():
     traced_text_model = torch.jit.trace(text, (inputs.data['input_ids'], inputs.data['attention_mask']))
 def convert_coreml():
     coreml_model = ct.convert(traced_vision_model, inputs=[ct.TensorType(shape=inputs.data['pixel_values'].shape)])
     coreml_model.save('vision.mlpackage')
@@ -78,6 +78,7 @@ def convert_coreml():
 # convert_coreml()
 def infer_coreml():
     coreml_vision_model = ct.models.MLModel('vision.mlpackage')
     coreml_text_model = ct.models.MLModel('text.mlpackage')
@@ -164,6 +165,48 @@ def infer_openvino():
 # infer_openvino()
 def export_ncnn():
     traced_vision_model.save(f"vision.pt")
@@ -175,7 +218,7 @@ def export_ncnn():
     input_shape2_str = json.dumps(list(inputs.data['attention_mask'].shape)).replace(" ", "")
     os.system(f"pnnx text.pt 'inputshape={input_shape_str}i64,{input_shape2_str}i64'")
-export_ncnn()
 def infer_ncnn():
     import ncnn

 import requests
 from transformers import CLIPProcessor, CLIPModel
 from transformers.models.clip.modeling_clip import _get_vector_norm
 import torch
 import numpy as np
 import platform
     traced_text_model = torch.jit.trace(text, (inputs.data['input_ids'], inputs.data['attention_mask']))
 def convert_coreml():
+    import coremltools as ct
     coreml_model = ct.convert(traced_vision_model, inputs=[ct.TensorType(shape=inputs.data['pixel_values'].shape)])
     coreml_model.save('vision.mlpackage')
 # convert_coreml()
 def infer_coreml():
+    import coremltools as ct
     coreml_vision_model = ct.models.MLModel('vision.mlpackage')
     coreml_text_model = ct.models.MLModel('text.mlpackage')
 # infer_openvino()
+def export_openvino_int8():
+    import openvino as ov
+    import text_calibration
+    import image_calibration
+    import nncf
+    ov_vision_model = ov.Core().read_model("openvino/vision.xml")
+    ov_text_model = ov.Core().read_model("openvino/text.xml")
+    vision_calibration_dataset = image_calibration.get_image_calibration_data()
+    text_calibration_dataset = text_calibration.get_text_calibration_data()
+    vision_dataset = nncf.Dataset(vision_calibration_dataset)
+    text_dataset = nncf.Dataset(text_calibration_dataset)
+    quantized_vision_model = nncf.quantize(ov_vision_model, vision_dataset, preset=nncf.QuantizationPreset.MIXED)
+    quantized_text_model = nncf.quantize(ov_text_model, text_dataset, preset=nncf.QuantizationPreset.MIXED)
+    ov.save_model(quantized_vision_model, "openvino/vision_int8.xml")
+    ov.save_model(quantized_text_model, "openvino/text_int8.xml")
+# export_openvino_int8()
+def infer_openvino_int8():
+    import openvino as ov
+    ov_vision_model = ov.Core().read_model("openvino/vision_int8.xml")
+    ov_text_model = ov.Core().read_model("openvino/text_int8.xml")
+    compiled_vision_model = ov.Core().compile_model(ov_vision_model, "CPU")
+    compiled_text_model = ov.Core().compile_model(ov_text_model, "CPU")
+    vision_predictions = compiled_vision_model(inputs.data['pixel_values'])
+    text_predictions = compiled_text_model((inputs.data['input_ids'], inputs.data['attention_mask']))
+    image_embeds = vision_predictions[0]
+    text_embeds = text_predictions[0]
+    logits_per_text = text_embeds @ image_embeds.T
+    print("similarity:", logits_per_text.item())
+infer_openvino_int8()
 def export_ncnn():
     traced_vision_model.save(f"vision.pt")
     input_shape2_str = json.dumps(list(inputs.data['attention_mask'].shape)).replace(" ", "")
     os.system(f"pnnx text.pt 'inputshape={input_shape_str}i64,{input_shape2_str}i64'")
+# export_ncnn()
 def infer_ncnn():
     import ncnn

image_calibration.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import os
+from PIL import Image
+from transformers import CLIPProcessor
+import os
+def get_image_list():
+    # Get list of all files in images directory
+    image_files = os.listdir('images/')
+    # Filter for .jpg files only
+    jpg_files = [f"images/{f}" for f in image_files if f.endswith('.jpg')]
+    return jpg_files
+def get_image_calibration_data():
+    processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+    calibration_data = []
+    for image_file in get_image_list():
+        image_path = os.path.join(image_file)
+        image = Image.open(image_path)
+        inputs = processor(images=image, return_tensors="pt", padding="max_length", truncation=True)
+        calibration_data.append(inputs.data["pixel_values"])
+    return calibration_data