Spaces:

nonsodev
/

semantic-book-recommender

Sleeping

first commit

d38101e 11 months ago

1.46 kB



	import pandas as pd
	from googlesearch import search
	import time
	import random

	df = pd.read_csv("search_progress.csv")
	df1 = df.drop("query_index", axis=1)

	print("Initial DataFrame:")
	print(df1.head())

	df1.columns = ["title", "url"]

	unfinished = df1[(df1.isnull().any(axis=1)) \| ~((df1["url"].str.contains("amazon", na=False)) \| (df1["url"].str.contains("google", na=False)))]

	unfinished_list = unfinished["title"].tolist()
	unfinished_urls = [None] * len(unfinished_list)



	for idx,i in enumerate(unfinished_list):
	print()
	print(f"Processing title {idx + 1}/{len(unfinished_list)}: {i}")
	try:
	results1 = search(i, num_results=3, lang="en")
	results2 = search(i.replace("google", "amazon"), num_results=3, lang="en")
	url = list(results1) + list(results2)
	count = 0
	print("\n")
	print(f"Searching for: {i}")
	for j in url:
	count += 1
	print(count, j)
	index = int(input("Enter the index of the correct URL (1-3): ")) - 1
	unfinished_urls[idx] = url[index]
	except Exception as e:
	print(f"Error occurred while searching for {i}: {e}")
	unfinished_urls[idx] = None
	time.sleep(random.randint(1,5)) # Sleep to avoid hitting the search API too quickly

	unfinished["url"] = unfinished_urls
	print("Updated DataFrame with URLs:")
	print(unfinished.head())

	df1.update(unfinished)
	df1.to_csv("search_progress1.csv", index=False)