Spaces:

lablab-ai-amd-developer-hackathon
/

paperhawk

Running

paperhawk / tests /e2e_screenshot /test_e2e_full_flow.py

Nándorfi Vince

Initial paperhawk push to HF Space (LFS for binaries)

7ff7119 4 days ago

23.3 kB

	"""E2E teljes flow Playwright + AI-validáció.

	A `prototype-agentic/docs/prototype-agentic-tesztek/` 72 manuális screenshot-os
	tesztet automatizáljuk. 4 demo-eset (audit_demo, dd_demo, compliance_demo,
	multi_doc) + minden tab full-page screenshot + chat-szekvencia + AI-validáció.

	Futtatás:
	pytest tests/e2e_screenshot/ -v -s

	A `streamlit_server` session-fixture indítja a portot a 8520-on. A
	`ai_validator.py` Claude vision-API-val validál a screenshotok alapján.
	"""

	from __future__ import annotations

	import json
	import time
	from pathlib import Path

	import pytest

	from tests.e2e_screenshot.ai_validator import (
	ValidationResult,
	validate_screenshot,
	write_validation_report,
	)
	from tests.e2e_screenshot.conftest import SNAPSHOTS_DIR


	# ---------------------------------------------------------------------------
	# Várt findingek a `prototype-agentic/test_data/EXPECTED_FINDINGS.md`-ből
	# ---------------------------------------------------------------------------

	EXPECTED_AUDIT_DEMO = [
	"Magas kerekített összeg arány",
	"50% árnövekedés a márciusi számlán",
	"Hiányzó kötelező számlaelem (cím vagy fizetési mód)",
	"Csomag-szintű cross-doc anomália",
	]

	EXPECTED_DD_DEMO = [
	"Change-of-control klauzula",
	"Non-compete (versenytilalom) klauzula",
	"Automatikus megújulás",
	"Top red flags lista (3+)",
	"Per-szerződés kockázati szint",
	"Havi kötelezettségek aggregálva",
	]

	EXPECTED_COMPLIANCE_DEMO = [
	"GDPR 28. cikk hiányzó elemek (kritikus)",
	"Kontraszt: a-szerz teljes vs b-szerz hiányos",
	"Csomag-szintű compliance aszimmetria",
	"Személyes adatok feldolgozása PII-indikátor",
	]

	EXPECTED_MULTI_DOC = [
	"Three-way matching mennyiségi eltérés",
	"Critical/warning a keresztellenőrzésben",
	"HI-100 cikkszám említése",
	]


	# ---------------------------------------------------------------------------
	# Helper-ek
	# ---------------------------------------------------------------------------


	def _click_tab(page, tab_name: str) -> None:
	"""Streamlit tab-kattintás (a tab-szöveg alapján).

	A Streamlit tab-jai `role="tab"` szerepben vannak — pontos szelektor,
	hogy a sidebar gombokat (pl. "Chat előzmények törlése") NE találja el.
	"""
	# Elsődleges: pontos role+név egyezés a tablist-en belül
	tab = page.get_by_role("tab", name=tab_name, exact=True).first
	if tab.count() > 0:
	tab.scroll_into_view_if_needed()
	tab.click()
	else:
	# Fallback: explicit data-testid alapú szelektor (Streamlit st.tabs)
	candidates = page.locator(f"[data-baseweb='tab']:has-text('{tab_name}')").all()
	if candidates:
	candidates[0].click()
	else:
	# Régi fallback (kockázatos, de jobb mint semmi)
	page.locator(f"button:has-text('{tab_name}')").first.click()
	page.wait_for_load_state("networkidle", timeout=10000)
	time.sleep(1.5) # Streamlit re-render


	def _full_page_screenshot(page, path: Path) -> None:
	"""Teljes oldal screenshot (görgetett tartalom is).

	A Streamlit shadow DOM-ja miatt a Playwright `full_page=True` csak a
	viewport-ot rögzíti. Trükk: dinamikusan a tartalom magasságához állítjuk
	a viewport-ot, scrollozunk az aljáig és vissza (lazy render trigger),
	majd kérünk full_page screenshot-ot.
	"""
	path.parent.mkdir(parents=True, exist_ok=True)
	try:
	# 1. Görgetés aljáig hogy a virtual scroll alatt is mountolódjon
	page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
	time.sleep(0.6)
	page.evaluate("window.scrollTo(0, 0)")
	time.sleep(0.4)
	# 2. Tartalom magasság detektálás (a max-ot vesszük a body és main között)
	height = page.evaluate(
	"""() => Math.max(
	document.body.scrollHeight,
	document.documentElement.scrollHeight,
	document.body.offsetHeight,
	document.documentElement.offsetHeight,
	document.querySelector('main')?.scrollHeight \|\| 0,
	document.querySelector('section[data-testid=\\"stMain\\"]')?.scrollHeight \|\| 0
	)"""
	)
	height = max(int(height or 0), 1000)
	# Maximalizáljuk: ne legyen hatalmas ha a content kicsi, de fedjen le mindent
	target = min(height + 200, 12000)
	page.set_viewport_size({"width": 1600, "height": target})
	time.sleep(0.6)
	except Exception:
	pass
	page.screenshot(path=str(path), full_page=True)
	# Visszaállítás az alapviewport-ra (a következő művelet kompatibilitásához)
	try:
	page.set_viewport_size({"width": 1600, "height": 1000})
	time.sleep(0.3)
	except Exception:
	pass


	def _wait_for_demo_complete(page, timeout: float = 600.0) -> None:
	"""Megvárja amíg a demo-pipeline befejeződik.

	A `st.success("...betöltve...")` üzenet a `st.rerun()` után eltűnik —
	helyette a sidebar "Feldolgozott dokumentumok: N" zöld dobozra várunk,
	mert ez a `st.session_state.pipeline_state` jelenlétét tükrözi.

	A Claude API hívásokra elég idő: 3 doksi × ~6 LLM hívás + package_insights
	+ DD synthesizer = 25-30 LLM hívás Haiku-val ≈ 4-7 perc.
	"""
	deadline = time.time() + timeout
	while time.time() < deadline:
	# A sidebar success-doboz "Feldolgozott dokumentumok: N" → pipeline_state kész
	if page.locator("text=Feldolgozott dokumentumok").count() > 0:
	time.sleep(3.0)
	return
	# Backup: ha a Feltöltés tabon megjelenik a "Jelenleg N feldolgozott" üzenet
	if page.locator("text=feldolgozott dokumentum van").count() > 0:
	time.sleep(3.0)
	return
	# Az Alkalmazott szabványok footer is csak a pipeline-state után renderelődik
	if page.locator("text=Alkalmazott szabványok").count() > 0:
	time.sleep(3.0)
	return
	time.sleep(1.5)
	raise TimeoutError(f"Demo nem fejeződött be {timeout}s alatt")


	def _click_demo_button(page, label: str) -> None:
	"""Demo gomb kattintás. A `Indítás` gomb a `label` alatti card-ban van.

	A 3 demo card mindegyikében pontosan egyetlen "Indítás" feliratú gomb van —
	a `Feldolgozás indítása` upload-gomb tág match miatt nem rontja el a
	sorrendet, mert exact-name szelektort használunk.
	"""
	label_to_idx = {
	"Audit Demo": 0,
	"Due Diligence Demo": 1,
	"Compliance Demo": 2,
	}
	idx = label_to_idx[label]
	# Pontos szöveg-egyezés: csak az "Indítás" gomb (NEM "Feldolgozás indítása")
	buttons = page.get_by_role("button", name="Indítás", exact=True).all()
	if not buttons:
	# Fallback: regex-pattern-rel pontosan az "Indítás" szöveggel
	import re as _re
	buttons = page.get_by_role("button", name=_re.compile(r"^Indítás$")).all()
	if len(buttons) <= idx:
	raise RuntimeError(
	f"Csak {len(buttons)} db 'Indítás' gomb van, de a {idx}. (label={label}) kéne"
	)
	buttons[idx].scroll_into_view_if_needed()
	buttons[idx].click()


	def _manual_upload_files(page, file_paths: list[Path]) -> None:
	"""Streamlit `st.file_uploader` programmatikus fájl-feltöltés.

	A `app/main.py:feltoltes_tab`-ban `accept_multiple_files=True` van — egyszerre
	többfájlos átadás OK. A feltöltés UTÁN megjelenik a "Feldolgozás indítása"
	gomb (csak ha van fájl), arra kattintunk.

	Args:
	page: Playwright page objektum
	file_paths: lista a feltöltendő fájlok abszolút útvonalairól
	"""
	# `st.file_uploader` egy hidden `<input type='file'>` egy stXxxx wrapper-ben
	file_input = page.locator("input[type='file']").first
	file_input.set_input_files([str(p) for p in file_paths])
	time.sleep(2.0) # Streamlit re-render hogy a "Feldolgozás indítása" megjelenjen
	upload_btn = page.get_by_role("button", name="Feldolgozás indítása", exact=True).first
	upload_btn.scroll_into_view_if_needed()
	upload_btn.click()


	def _open_all_expanders(page, max_count: int = 20) -> None:
	"""Minden Streamlit expander-t kinyit (DD/Riport tabokon hasznos)."""
	expanders = page.locator("button[aria-expanded='false']").all()
	for exp in expanders[:max_count]:
	try:
	exp.click(timeout=2000)
	time.sleep(0.3)
	except Exception:
	pass
	time.sleep(0.5)


	def _capture_5_tabs_and_chat(
	page,
	case_dir: Path,
	questions: list[str],
	) -> list[dict]:
	"""A pipeline befejezése UTÁN: 5 tab full-page screenshot + chat-szekvencia.

	Returns:
	chat_responses lista a JSON mentéshez (és AI-validáció kontextushoz).
	"""
	# 03. Eredmények tab
	_click_tab(page, "Eredmények")
	time.sleep(2.0)
	_full_page_screenshot(page, case_dir / "03_eredmenyek_full.png")

	# 04. Chat tab — szekvencia kérdésekkel (kérdésenként külön screenshot)
	_click_tab(page, "Chat")
	time.sleep(2.0)
	chat_responses: list[dict] = []
	for i, q in enumerate(questions, start=1):
	try:
	answer = _ask_chat_question(page, q)
	except Exception as exc:
	answer = f"[HIBA: {type(exc).__name__}: {exc}]"
	chat_responses.append({"question": q, "answer": answer})
	_full_page_screenshot(page, case_dir / f"04_chat_q{i:02d}.png")

	(case_dir / "chat_responses.json").write_text(
	json.dumps(chat_responses, ensure_ascii=False, indent=2),
	encoding="utf-8",
	)

	# 05. DD Asszisztens tab
	_click_tab(page, "DD Asszisztens")
	time.sleep(2.0)
	_open_all_expanders(page)
	_full_page_screenshot(page, case_dir / "05_dd_full.png")

	# 06. Riport tab
	_click_tab(page, "Riport")
	time.sleep(2.0)
	json_exp = page.locator("button:has-text('JSON nézet')").first
	if json_exp.count() > 0:
	try:
	json_exp.click(timeout=2000)
	time.sleep(1.0)
	except Exception:
	pass
	_full_page_screenshot(page, case_dir / "06_riport_full.png")

	return chat_responses


	def _run_ai_validation(
	case_dir: Path,
	label: str,
	expected: list[str],
	chat_responses: list[dict],
	) -> list[ValidationResult]:
	"""AI-validáció a 3 fő screenshot-on (Eredmények + Chat 1. válasz + Riport)."""
	chat_text = "\n\n".join(
	f"Q: {r['question']}\nA: {r['answer']}" for r in chat_responses
	)
	results: list[ValidationResult] = []

	results.append(validate_screenshot(
	case_dir / "03_eredmenyek_full.png",
	f"{label} / Eredmények tab",
	expected,
	))
	if (case_dir / "04_chat_q01.png").exists():
	results.append(validate_screenshot(
	case_dir / "04_chat_q01.png",
	f"{label} / Chat (1. válasz)",
	expected,
	raw_text_context=chat_text,
	))
	results.append(validate_screenshot(
	case_dir / "06_riport_full.png",
	f"{label} / Riport tab",
	expected,
	))
	write_validation_report(case_dir, results)
	return results


	def _ask_chat_question(page, question: str) -> str:
	"""Chat-input kitöltés + várás a válaszra. Visszaadja a válasz nyers szövegét."""
	# Görgessünk az oldal aljáig hogy a chat_input mountolódjon (Streamlit lazy)
	try:
	page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
	time.sleep(0.7)
	except Exception:
	pass
	chat_input = page.locator("textarea[data-testid='stChatInputTextArea'], textarea[placeholder*='Kérdezz']").first
	# Várjuk meg hogy láthatóvá váljon — Streamlit chat_input fixed pozícióban van
	try:
	chat_input.wait_for(state="visible", timeout=15000)
	except Exception:
	# Második próba: scroll_into_view_if_needed + várás
	try:
	chat_input.scroll_into_view_if_needed(timeout=5000)
	except Exception:
	pass
	chat_input.fill(question)
	chat_input.press("Enter")
	# 15 másodperces fix várás. A Claude rövid válaszai 3-5s alatt kész, a hosszabb
	# multi-doc/multi-szerződés kérdések 10-15s. A 15s középút: minden gyakori chat
	# válasz kész, és csak +3 perc plusz idő a 4-scenario futáshoz.
	time.sleep(15.0)

	# Az utolsó assistant üzenet szövege
	msgs = page.locator("[data-testid='stChatMessage']").all()
	if not msgs:
	return ""
	return msgs[-1].inner_text()


	# ---------------------------------------------------------------------------
	# Tesztek
	# ---------------------------------------------------------------------------


	@pytest.mark.e2e
	@pytest.mark.parametrize("demo,expected,questions", [
	(
	"audit_demo",
	EXPECTED_AUDIT_DEMO,
	[
	"Mit lehet tudni ezekről a számlákról és mi az összefüggés köztük?",
	"Hány százalékkal drágább a legutolsó számla a legelsőhöz képest?",
	"Van matematikai hiba vagy hiányzó kötelező mező a számlákon?",
	],
	),
	(
	"dd_demo",
	EXPECTED_DD_DEMO,
	[
	"Milyen DD-szempontból kritikus klauzulák szerepelnek a szerződésekben?",
	"Mekkora az aggregált havi kötelezettség?",
	"Van change-of-control vagy non-compete klauzula bárhol?",
	],
	),
	(
	"compliance_demo",
	EXPECTED_COMPLIANCE_DEMO,
	[
	"Megfelel-e a két szerződés a GDPR 28. cikknek?",
	"Hasonlítsd össze a két szerződést compliance szempontból.",
	"Van olyan szerződés, ami személyes adatot dolgoz fel adatvédelmi záradék nélkül?",
	],
	),
	])
	def test_demo_full_flow(streamlit_server, browser, demo, expected, questions):
	"""Demo gomb kattintás → 5 tab végig + chat-szekvencia + AI-validáció."""
	case_dir = SNAPSHOTS_DIR / demo
	case_dir.mkdir(parents=True, exist_ok=True)

	page = browser.new_page()
	page.goto(streamlit_server)
	page.wait_for_load_state("networkidle", timeout=30000)
	# Streamlit komplet renderelést várjuk: a "Gyors demo" h2 megjelenik
	page.wait_for_selector("text=Gyors demo", timeout=30000)
	time.sleep(2)

	# 01. Feltöltés tab — alap állapot (teljes UI render után)
	_full_page_screenshot(page, case_dir / "01_feltoltes_alap.png")

	# 02. Demo gomb kattintás
	label_map = {
	"audit_demo": "Audit Demo",
	"dd_demo": "Due Diligence Demo",
	"compliance_demo": "Compliance Demo",
	}
	_click_demo_button(page, label_map[demo])
	time.sleep(3.0)
	_full_page_screenshot(page, case_dir / "02_demo_gomb_kattintva.png")

	# Várás a feldolgozás befejeződésére (3 doksi × ~6 LLM hívás + package + DD ≈ 5-7 perc)
	try:
	_wait_for_demo_complete(page, timeout=600.0)
	except TimeoutError:
	_full_page_screenshot(page, case_dir / "ERROR_timeout.png")
	raise

	# 03. Eredmények tab full-page
	_click_tab(page, "Eredmények")
	time.sleep(2.0)
	_full_page_screenshot(page, case_dir / "03_eredmenyek_full.png")

	# 04. Chat tab — szekvencia kérdésekkel
	_click_tab(page, "Chat")
	time.sleep(2.0)
	chat_responses: list[dict] = []
	for i, q in enumerate(questions, start=1):
	try:
	answer = _ask_chat_question(page, q)
	except Exception as exc:
	answer = f"[HIBA: {type(exc).__name__}: {exc}]"
	chat_responses.append({"question": q, "answer": answer})
	_full_page_screenshot(page, case_dir / f"04_chat_q{i:02d}.png")

	# Mentsük el a chat válaszokat JSON-be
	(case_dir / "chat_responses.json").write_text(
	json.dumps(chat_responses, ensure_ascii=False, indent=2),
	encoding="utf-8",
	)

	# 05. DD Asszisztens tab full-page
	_click_tab(page, "DD Asszisztens")
	time.sleep(2.0)
	# Minden expander nyitva legyen — minden expander gombra kattintunk
	expanders = page.locator("button[aria-expanded='false']").all()
	for exp in expanders[:20]: # max 20 a végtelen ciklus elkerüléséhez
	try:
	exp.click(timeout=2000)
	time.sleep(0.3)
	except Exception:
	pass
	time.sleep(1.0)
	_full_page_screenshot(page, case_dir / "05_dd_full.png")

	# 06. Riport tab full-page
	_click_tab(page, "Riport")
	time.sleep(2.0)
	# JSON-expander nyitva
	json_exp = page.locator("button:has-text('JSON nézet')").first
	if json_exp.count() > 0:
	try:
	json_exp.click(timeout=2000)
	time.sleep(1.0)
	except Exception:
	pass
	_full_page_screenshot(page, case_dir / "06_riport_full.png")

	# 07. AI-validáció — minden screenshot + chat-válasz alapján
	chat_text = "\n\n".join(f"Q: {r['question']}\nA: {r['answer']}" for r in chat_responses)
	results: list[ValidationResult] = []

	eredmenyek_validation = validate_screenshot(
	case_dir / "03_eredmenyek_full.png",
	f"{demo} / Eredmények tab",
	expected,
	)
	results.append(eredmenyek_validation)

	chat_validation = validate_screenshot(
	case_dir / "04_chat_q01.png",
	f"{demo} / Chat (1. válasz)",
	expected,
	raw_text_context=chat_text,
	)
	results.append(chat_validation)

	riport_validation = validate_screenshot(
	case_dir / "06_riport_full.png",
	f"{demo} / Riport tab",
	expected,
	)
	results.append(riport_validation)

	write_validation_report(case_dir, results)
	page.close()

	# Asszertálás — a végén legalább 1 "pass" vagy "partial" legyen
	overall_states = {r.overall for r in results}
	assert "pass" in overall_states or "partial" in overall_states, (
	f"AI-validáció FAIL minden szekcióra: {[r.summary for r in results]}"
	)


	# ---------------------------------------------------------------------------
	# (b) — Manuális upload szimuláció (4 forgatókönyv) ALAP TESZTI ARZENÁLLAL
	# ---------------------------------------------------------------------------


	# Várt findingek a manuális forgatókönyvekhez (paritás a tests/e2e_api/expected_findings.py-pel)

	EXPECTED_MANUAL_SZAMLAK = [
	"5 számla feldolgozva (HU + EN + DE)",
	"Helyes nyelv-detekció (magyar/english/deutsch)",
	"Classify confidence ≥ 90% mind",
	"0 hamis-pozitív (NEM flag-eli a 0% VAT-ot, 27% ÁFA-t, 19% MwSt-et)",
	"Max KOZEPES finding (Hiányzó Fizetési mód a HU számlákon)",
	]

	EXPECTED_MANUAL_SZERZODESEK = [
	"4 szerződés feldolgozva (NDA + MSSA + IT support + leasing)",
	"Felmondási feltételek mező kitöltve (legalább 2 szerz)",
	"Irányadó jog mező kitöltve (legalább 2 szerz)",
	"Change-of-control klauzula MSSA-ban detektálva",
	"GDPR 28. cikk finding az IT-supporton vagy lízingen",
	]

	EXPECTED_MANUAL_MULTI_DOC = [
	"3-utas keresztellenőrzés (megrendelés + szállítólevél + számla)",
	"KRITIKUS HI-100 mennyiségi eltérés (40 vs 38)",
	"I-gerenda 6m cikkszám említése",
	"Comparison overall_status: critical",
	]

	EXPECTED_MANUAL_ADVERSARIAL = [
	"Math-error detektálva: nettó+ÁFA != bruttó (50 000 Ft eltérés)",
	"Hiányos szerződés finding: Felmondási feltételek hiánya MAGAS",
	"Bilingual HU/EN szerződés Incoterms CIP detektálva",
	"Dátum-logikai ellentmondás finding",
	"3+ MAGAS severity összesen a 4 doksin",
	]


	@pytest.mark.e2e
	@pytest.mark.parametrize("scenario,subdir,glob_pattern,expected,questions", [
	(
	"manual_szamlak",
	"szamlak",
	"*.pdf",
	EXPECTED_MANUAL_SZAMLAK,
	[
	"Hány számla van feltöltve és milyen nyelvűek?",
	"Van matematikai hiba vagy hiányzó kötelező mező a számlákon?",
	"Hasonlítsd össze az ÁFA-kulcsokat a számlákon. Van valami szokatlan?",
	],
	),
	(
	"manual_szerzodesek",
	"szerzodesek",
	"*.pdf",
	EXPECTED_MANUAL_SZERZODESEK,
	[
	"Mely szerződésekben van change-of-control vagy non-compete klauzula?",
	"Mi az irányadó jog a szerződésekben?",
	"Van automatikus megújulási klauzula bárhol?",
	],
	),
	(
	"manual_multi_doc",
	"multi_doc",
	"*.pdf",
	EXPECTED_MANUAL_MULTI_DOC,
	[
	"Mekkora a HI-100 I-gerenda mennyisége a megrendelésen vs szállítólevélen vs számlán?",
	"Mennyi a HI-100 hiány nettó értéke?",
	"És bruttóban mennyibe kerül az előző hiány?",
	],
	),
	(
	"manual_adversarial",
	"adversarial",
	"*.pdf",
	EXPECTED_MANUAL_ADVERSARIAL,
	[
	"Van matematikai hiba valamelyik dokumentumban?",
	"Van olyan szerződés, amiben hiányoznak kötelező elemek?",
	"Van olyan dokumentum, amiben dátum-logikai ellentmondás van?",
	],
	),
	])
	def test_manual_upload_full_flow(
	streamlit_server, browser,
	scenario, subdir, glob_pattern, expected, questions,
	):
	"""Manuális fájl-feltöltés az `st.file_uploader`-be → 5 tab + chat-szekvencia + AI-validáció.

	Eltérés a `test_demo_full_flow`-hoz képest:
	* A 3 demo-gomb HELYETT a Feltöltés tab `st.file_uploader`-ébe töltjük a fájlokat
	* A teljes test_data/<subdir>/*.pdf készletet egyszerre adjuk át (5/4/3/4 fájl)
	* A "Feldolgozás indítása" gomb futtatja a pipeline-t (UI-szintű, NEM demo-flow)
	* Per-scenario teljes 5 tab + 3 chat kérdés
	"""
	from tests.e2e_screenshot.conftest import PROJECT_ROOT
	case_dir = SNAPSHOTS_DIR / scenario
	case_dir.mkdir(parents=True, exist_ok=True)

	# Fájlok betöltése a test_data-ból
	file_paths = sorted((PROJECT_ROOT / "test_data" / subdir).glob(glob_pattern))
	assert file_paths, f"Nincs fájl: test_data/{subdir}/{glob_pattern}"

	page = browser.new_page()
	page.goto(streamlit_server)
	page.wait_for_load_state("networkidle", timeout=30000)
	page.wait_for_selector("text=Gyors demo", timeout=30000)
	time.sleep(2)

	# 01. Feltöltés tab — alapállapot
	_full_page_screenshot(page, case_dir / "01_feltoltes_alap.png")

	# 02. Manuális upload + Feldolgozás indítása
	_manual_upload_files(page, file_paths)
	time.sleep(3.0)
	_full_page_screenshot(page, case_dir / "02_upload_indul.png")

	# Várás: Claude pipeline + esetleg DD report (csak szerződésnél). Idő: 3-7 perc
	try:
	_wait_for_demo_complete(page, timeout=600.0)
	except TimeoutError:
	_full_page_screenshot(page, case_dir / "ERROR_timeout.png")
	page.close()
	raise

	# 03-06. Tabok + chat
	chat_responses = _capture_5_tabs_and_chat(page, case_dir, questions)

	# 07. AI-validáció
	results = _run_ai_validation(case_dir, scenario, expected, chat_responses)

	page.close()

	overall_states = {r.overall for r in results}
	assert "pass" in overall_states or "partial" in overall_states, (
	f"AI-validáció FAIL minden szekcióra: {[r.summary for r in results]}"
	)