Spaces:

Pratap-K
/

meta-content-moderation-env

Sleeping

App Files Files Community

meta-content-moderation-env / openenv.yaml

Pratap-K

minor fix

610fff2 about 2 months ago

raw

history blame contribute delete

3.31 kB

	# openenv.yaml
	name: meta-content-moderation-env
	version: "0.1.0"
	description: >
	OpenEnv environment simulating real-world AI content moderation at Meta scale.
	Agents must classify, label, and take enforcement actions on text posts,
	image descriptions, ad copy, and WhatsApp-style messages across 4 tasks
	ranging from easy single-label classification to hard multi-policy thread moderation.

	tags:
	- openenv
	- content-moderation
	- nlp
	- meta
	- social-media
	- safety

	author: "Team Neuron"
	license: MIT

	environment:
	class: MetaContentModerationEnv
	module: server.env
	entry_point: server.app:app

	graders:
	single-label-classify: "server.graders:single_label_entry"
	multi-label-classify: "server.graders:multi_label_entry"
	ad-policy-compliance: "server.graders:ad_policy_entry"
	thread-moderation-hard: "server.graders:thread_hard_entry"

	tasks:
	- id: single-label-classify
	name: single-label-classify
	difficulty: easy
	description: Classify a single content item into one violation category or CLEAN
	grader: "server.graders:single_label_entry"
	grader_import: "server.graders.single_label_entry"

	- id: multi-label-classify
	name: multi-label-classify
	difficulty: medium
	description: Assign all applicable violation labels to content that may violate multiple policies
	grader: "server.graders:multi_label_entry"
	grader_import: "server.graders.multi_label_entry"

	- id: ad-policy-compliance
	name: ad-policy-compliance
	difficulty: medium_hard
	description: Review ad copy against ad policies, identify violations, and cite specific rule IDs
	grader: "server.graders:ad_policy_entry"
	grader_import: "server.graders.ad_policy_entry"

	- id: thread-moderation-hard
	name: thread-moderation-hard
	difficulty: hard
	description: >
	Moderate a full WhatsApp conversation thread with growing context window.
	Handles cultural nuance, multi-label violations, and conflicting policy resolution.
	grader: "server.graders:thread_hard_entry"
	grader_import: "server.graders.thread_hard_entry"

	observation_space:
	type: object
	fields:
	step: integer
	content_item:
	content_id: string
	content_type: enum [text_post, image_description, ad_copy, whatsapp_message]
	text: string
	author_region: string
	language: string
	author_history: list[string]
	media_urls: list[string]
	media_types: list[string]
	policy_excerpt: string
	thread_history: list[ContentItem]
	conflicting_policies: list[string]
	task_name: string
	instructions: string

	action_space:
	type: object
	fields:
	content_id: string
	labels: list[enum[hate_speech, violence, nudity, spam, misinformation, harassment, self_harm, terrorism, scam, clean]]
	action: enum [approve, remove, escalate, restrict, request_review]
	confidence: float [0.0, 1.0]
	reasoning: string
	policy_citations: list[string]

	reward:
	range: [-1.0, 1.0]
	shape: partial_credit
	components:
	- label_precision
	- label_recall
	- action_correct
	- policy_citation_score
	- false_positive_penalty
	- reasoning_quality

	api:
	reset: POST /reset
	step: POST /step
	state: GET /state
	health: GET /health

	server:
	host: "0.0.0.0"
	port: 7860
	framework: fastapi