mlx2 / src /create_triple_embeddings.py

Upload src/create_triple_embeddings.py with huggingface_hub

3e28790 verified 10 months ago

5.31 kB

	import json
	import pickle
	import torch
	import torch.nn as nn
	from tqdm import tqdm
	import glob
	import os
	import redis
	import numpy as np

	# Redis Cloud connection (replace with your actual credentials or use environment variables)
	REDIS_HOST = 'your-redis-host'
	REDIS_PORT = 12345 # your-redis-port
	REDIS_PASSWORD = 'your-redis-password'
	INDEX_NAME = 'doc_index'
	VECTOR_DIM = 128 # Change if your embedding size is different

	r = redis.Redis(
	host=REDIS_HOST,
	port=REDIS_PORT,
	password=REDIS_PASSWORD,
	decode_responses=False # binary-safe
	)

	def load_latest_checkpoint():
	"""Load the latest CBOW model checkpoint."""
	print("Loading latest CBOW checkpoint...")
	checkpoint_files = glob.glob('cbow/checkpoints/*.pth')
	if not checkpoint_files:
	raise FileNotFoundError("No checkpoint files found in cbow/checkpoints/")

	# Get the latest checkpoint
	latest_checkpoint = max(checkpoint_files, key=os.path.getctime)
	print(f"Using checkpoint: {latest_checkpoint}")

	# Load the model state
	state_dict = torch.load(latest_checkpoint)
	return state_dict

	def load_tokenizer():
	"""Load the CBOW tokenizer mappings."""
	print("Loading tokenizer...")
	with open('cbow/tkn_words_to_ids.pkl', 'rb') as f:
	words_to_ids = pickle.load(f)
	with open('cbow/tkn_ids_to_words.pkl', 'rb') as f:
	ids_to_words = pickle.load(f)
	return words_to_ids, ids_to_words

	def load_tokenized_triples():
	"""Load the tokenized triples."""
	print("Loading tokenized triples...")
	with open('tokenized_triples.json', 'r') as f:
	data = json.load(f)
	return data

	def create_embedding_layer(state_dict, vocab_size, embedding_dim=128):
	"""Create embedding layer from CBOW weights."""
	embedding = nn.Embedding(vocab_size, embedding_dim)
	# Extract embedding weights from state dict
	embedding.weight.data.copy_(state_dict['emb.weight'])
	# Freeze the embeddings
	embedding.weight.requires_grad = False
	return embedding

	def average_pool(tokens, embedding_layer):
	"""Create average pooled vector for a list of tokens."""
	# Convert tokens to tensor
	tokens_tensor = torch.tensor(tokens, dtype=torch.long)
	# Get embeddings
	embeddings = embedding_layer(tokens_tensor)
	# Average the embeddings
	return torch.mean(embeddings, dim=0).detach().numpy()

	def save_doc_embedding_to_redis(doc_id, embedding, text):
	# Save as a Redis hash for vector search
	r.hset(doc_id, mapping={
	'embedding': embedding.astype(np.float32).tobytes(),
	'text': text,
	'doc_id': doc_id
	})

	# Optionally, you can print or log
	# print(f"Saved doc {doc_id} to Redis.")

	def process_triples(data, embedding_layer):
	"""Process triples and create average pooled vectors. Save positive doc embeddings to Redis."""
	processed_data = {
	'train': [],
	'validation': [],
	'test': []
	}
	doc_counter = 0
	for split in ['train', 'validation', 'test']:
	print(f"\nProcessing {split} split...")
	for triple in tqdm(data[split]):
	# Get average pooled vectors
	query_vector = average_pool(triple['query_tokens'], embedding_layer)
	pos_doc_vector = average_pool(triple['positive_document_tokens'], embedding_layer)
	neg_doc_vector = average_pool(triple['negative_document_tokens'], embedding_layer)

	# Save positive doc embedding to Redis
	doc_id = f"doc:{doc_counter}"
	save_doc_embedding_to_redis(doc_id, pos_doc_vector, triple['positive_document'])
	doc_counter += 1

	processed_data[split].append({
	'query_vector': query_vector.tolist(),
	'positive_document_vector': pos_doc_vector.tolist(),
	'negative_document_vector': neg_doc_vector.tolist(),
	'query': triple['query'], # Keep original text for reference
	'positive_document': triple['positive_document'],
	'negative_document': triple['negative_document']
	})
	return processed_data

	def main():
	# Load data and model
	state_dict = load_latest_checkpoint()
	words_to_ids, ids_to_words = load_tokenizer()
	data = load_tokenized_triples()

	# Create embedding layer from CBOW weights
	vocab_size = len(words_to_ids)
	embedding_layer = create_embedding_layer(state_dict, vocab_size)

	# Process triples
	processed_data = process_triples(data, embedding_layer)

	# Save processed data
	print("\nSaving processed data...")
	with open('triple_embeddings_cbow.json', 'w') as f:
	json.dump(processed_data, f)

	# Print statistics
	for split in ['train', 'validation', 'test']:
	print(f"\n{split.upper()} split:")
	print(f"Number of processed triples: {len(processed_data[split])}")
	if processed_data[split]:
	sample = processed_data[split][0]
	print("\nSample vector shapes:")
	print("Query vector shape:", len(sample['query_vector']))
	print("Positive doc vector shape:", len(sample['positive_document_vector']))
	print("Negative doc vector shape:", len(sample['negative_document_vector']))

	if __name__ == "__main__":
	main()