HowieHwong
/

ppopt

@@ -55,7 +55,56 @@ model = AutoModelForCausalLM.from_pretrained(
 tokenizer = AutoTokenizer.from_pretrained(base_model_id)
 # Load LoRA adapter
-model = PeftModel.from_pretrained(model, "YOUR_USERNAME/ppopt-llama-3.1-8b-lora")
 ```
 ### Merge LoRA (Optional)

 tokenizer = AutoTokenizer.from_pretrained(base_model_id)
 # Load LoRA adapter
+model = PeftModel.from_pretrained(model, "HowieHwong/ppopt")
+```
+### Inference Example
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from peft import PeftModel
+# Load model
+base_model_id = "meta-llama/Llama-3.1-8B-Instruct"
+model = AutoModelForCausalLM.from_pretrained(
+    base_model_id,
+    torch_dtype="auto",
+    device_map="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained(base_model_id)
+model = PeftModel.from_pretrained(model, "HowieHwong/ppopt")
+# Prepare input
+conversation_history = """User: How do I center a div?
+Assistant: You can use flexbox: display: flex; justify-content: center; align-items: center;
+User: What about grid?
+Assistant: With grid: display: grid; place-items: center;"""
+current_query = "how to make it responsive"
+prompt = f"""Based on the conversation history and user preferences, optimize the following query into a clearer, more specific prompt.
+Conversation History:
+{conversation_history}
+Current Query: {current_query}
+Optimized Prompt:"""
+# Generate
+messages = [{"role": "user", "content": prompt}]
+input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
+outputs = model.generate(
+    input_ids,
+    max_new_tokens=256,
+    temperature=0.7,
+    do_sample=True,
+    pad_token_id=tokenizer.eos_token_id
+)
+response = tokenizer.decode(outputs[0][input_ids.shape[1]:], skip_special_tokens=True)
+print(response)
 ```
 ### Merge LoRA (Optional)