Spaces:

Pratap-K
/

meta-content-moderation-env

Sleeping

App Files Files Community

meta-content-moderation-env / server /env.py

Pratap-K

Fix state endpoint and score range clamping

e8dc38e 27 days ago

raw

history blame contribute delete

9.54 kB

	# server/env.py
	from __future__ import annotations
	import uuid
	from typing import Any

	from openenv.core.env_server.interfaces import Environment
	from openenv.core.env_server.types import State

	try:
	from ..models import (
	ModerationDecision, ModerationObservation, ModerationReward, ModerationState, ContentItem
	)
	except ImportError:
	from models import (
	ModerationDecision, ModerationObservation, ModerationReward, ModerationState, ContentItem
	)

	from server.dataset import (
	get_posts, get_image_descriptions, get_ad_copies, get_whatsapp_threads,
	get_community_standards, get_ad_policies,
	)
	from server.graders import (
	grade_single_label, grade_multi_label, grade_ad_policy, grade_thread_hard, get_ground_truth,
	)
	from server.tasks.task_single_label import build_episode as build_single_label_episode, build_observation as build_single_label_obs, MAX_STEPS as SINGLE_MAX, TASK_NAME as SINGLE_TASK
	from server.tasks.task_multi_label import build_episode as build_multi_label_episode, build_observation as build_multi_label_obs, MAX_STEPS as MULTI_MAX, TASK_NAME as MULTI_TASK
	from server.tasks.task_ad_policy import build_episode as build_ad_episode, build_observation as build_ad_obs, MAX_STEPS as AD_MAX, TASK_NAME as AD_TASK
	from server.tasks.task_thread_hard import build_episode as build_thread_episode, build_observation as build_thread_obs, MAX_STEPS as THREAD_MAX, TASK_NAME as THREAD_TASK

	VALID_TASKS = {SINGLE_TASK, MULTI_TASK, AD_TASK, THREAD_TASK}

	class MetaContentModerationEnv(Environment[ModerationDecision, ModerationObservation, ModerationState]):
	SUPPORTS_CONCURRENT_SESSIONS: bool = True
	_instance = None

	def __new__(cls, args, *kwargs):
	if cls._instance is None:
	cls._instance = super().__new__(cls)
	cls._instance._initialized = False
	return cls._instance

	def __init__(self, task: str = "single-label-classify", seed: int = 42) -> None:
	if getattr(self, "_initialized", False):
	return
	self._initialized = True
	if task not in VALID_TASKS:
	raise ValueError(f"Unknown task '{task}'. Valid: {VALID_TASKS}")
	self.task = task
	self.seed = seed

	self._episode_id: str = ""
	self._step: int = 0
	self._max_steps: int = 0
	self._done: bool = False
	self._cumulative_reward: float = 0.0
	self._decisions_log: list[dict[str, Any]] = []

	self._items: list[ContentItem] = []
	self._ground_truth_all: list[dict] = []
	self._thread_steps: list[Any] = []

	def reset(self, task: str = None, seed: int = None) -> ModerationObservation:
	if task is not None:
	if task not in VALID_TASKS:
	raise ValueError(f"Unknown task '{task}'. Valid: {VALID_TASKS}")
	self.task = task
	if seed is not None:
	self.seed = seed

	self._episode_id = str(uuid.uuid4())
	self._step = 0
	self._done = False
	self._cumulative_reward = 0.0
	self._decisions_log = []

	self._load_episode_data()

	obs = self._make_observation()
	obs.reward = 0.0
	obs.done = False
	obs.metadata = {
	"episode_id": self._episode_id,
	"step": self._step,
	"cumulative_reward": 0.0
	}
	return obs

	def step(self, action: ModerationDecision) -> ModerationObservation:
	if not self._episode_id:
	raise RuntimeError("Call reset() before step()")
	if self._done:
	raise RuntimeError("Episode is done. Call reset() to start a new episode.")

	reward_obj = self._grade(action)
	reward = reward_obj.total

	self._cumulative_reward += reward
	self._decisions_log.append({
	"step": self._step,
	"content_id": action.content_id,
	"labels": [l.value for l in action.labels],
	"action": action.action.value,
	"reward": reward,
	"breakdown": reward_obj.breakdown,
	})

	self._step += 1
	self._done = self._step >= self._max_steps

	if self._done:
	next_obs = self._make_terminal_observation()
	else:
	next_obs = self._make_observation()

	next_obs.reward = reward
	next_obs.done = self._done
	next_obs.metadata = {
	"episode_id": self._episode_id,
	"cumulative_reward": self._cumulative_reward,
	"step": self._step,
	"reward_breakdown": reward_obj.model_dump(),
	}
	return next_obs

	@property
	def state(self) -> ModerationState:
	score = self._compute_score()
	return ModerationState(
	task_name=self.task,
	episode_id=self._episode_id,
	current_step=self._step,
	max_steps=self._max_steps,
	done=self._done,
	cumulative_reward=self._cumulative_reward,
	items_seen=self._step,
	items_remaining=max(0, self._max_steps - self._step),
	decisions_log=self._decisions_log,
	score=score,
	ground_truth_data=self._ground_truth_all,
	has_policy_conflict=bool(self._thread_steps[self._step][2]) if self.task == THREAD_TASK and self._step < len(self._thread_steps) else False,
	is_final_message=(self._step == self._max_steps - 1) if self.task == THREAD_TASK else False,
	)

	# ─── Private Helpers ──────────────────────────────────────────────────────

	def _load_episode_data(self) -> None:
	if self.task == SINGLE_TASK:
	self._items = build_single_label_episode(self.seed)
	self._max_steps = min(SINGLE_MAX, len(self._items))
	raw_all = get_posts(self.seed) + get_image_descriptions(self.seed)
	self._ground_truth_all = raw_all

	elif self.task == MULTI_TASK:
	self._items = build_multi_label_episode(self.seed)
	self._max_steps = min(MULTI_MAX, len(self._items))
	self._ground_truth_all = get_posts(self.seed) + get_ad_copies(self.seed)

	elif self.task == AD_TASK:
	self._items = build_ad_episode(self.seed)
	self._max_steps = min(AD_MAX, len(self._items))
	self._ground_truth_all = get_ad_copies(self.seed)

	elif self.task == THREAD_TASK:
	self._thread_steps = build_thread_episode(self.seed)
	self._max_steps = min(THREAD_MAX, len(self._thread_steps))
	threads = get_whatsapp_threads(self.seed)
	self._ground_truth_all = [
	msg for t in threads for msg in t["messages"]
	]
	self._items = [step[0] for step in self._thread_steps]

	def _make_observation(self) -> ModerationObservation:
	if self.task == THREAD_TASK:
	item, history, conflicts = self._thread_steps[self._step]
	return build_thread_obs(self._step, item, history, conflicts)

	item = self._items[self._step]

	if self.task == SINGLE_TASK:
	return build_single_label_obs(self._step, item)
	elif self.task == MULTI_TASK:
	return build_multi_label_obs(self._step, item)
	elif self.task == AD_TASK:
	return build_ad_obs(self._step, item)

	raise ValueError(f"Unknown task: {self.task}")

	def _make_terminal_observation(self) -> ModerationObservation:
	try:
	from ..models import ContentItem, ContentType
	except ImportError:
	from models import ContentItem, ContentType

	dummy = ContentItem(
	content_id="__terminal__",
	content_type=ContentType.TEXT_POST,
	text="Episode complete.",
	)
	return ModerationObservation(
	step=self._step,
	content_item=dummy,
	task_name=self.task,
	instructions="Episode complete. No more items.",
	)

	def _grade(self, action: ModerationDecision) -> ModerationReward:
	gt = get_ground_truth(action.content_id, self._ground_truth_all)

	if self.task == SINGLE_TASK:
	return grade_single_label(action, gt["labels"], gt["action"])

	elif self.task == MULTI_TASK:
	return grade_multi_label(action, gt["labels"], gt["action"])

	elif self.task == AD_TASK:
	return grade_ad_policy(action, gt["labels"], gt["action"], gt["policy_ids"])

	elif self.task == THREAD_TASK:
	_, _, conflicts = self._thread_steps[self._step]
	is_final = (self._step == self._max_steps - 1)
	return grade_thread_hard(
	action, gt["labels"], gt["action"],
	has_policy_conflict=bool(conflicts),
	is_final_message=is_final,
	)

	raise ValueError(f"Unknown task: {self.task}")

	def _compute_score(self) -> float:
	if not self._decisions_log:
	return 0.01
	max_possible = self._max_steps * 1.0
	if max_possible <= 0:
	return 0.01

	avg_reward = self._cumulative_reward / max_possible
	# Map avg_reward from [-1.0, 1.0] to [0.0, 1.0]
	normalized = (avg_reward + 1.0) / 2.0

	# Clamp strictly between 0.01 and 0.99 for OpenEnv
	score = min(max(normalized, 0.01), 0.99)
	return round(score, 4)