gemma4-e2b-mud / gemma-mud-colab-starter /run_instructions.md
sangwon1472's picture
Add gemma-mud-colab-starter package
d9fceea

μ‹€ν–‰ μˆœμ„œ

1. μ½”λž© μ—΄κΈ°

  • notebooks/Gemma4_MUD_QLoRA_Colab_Notebook.ipynb νŒŒμΌμ„ Google Colabμ—μ„œ μ—°λ‹€.

2. GPU 켜기

  • 상단 λ©”λ‰΄μ—μ„œ λŸ°νƒ€μž„ β†’ λŸ°νƒ€μž„ μœ ν˜• λ³€κ²½
  • ν•˜λ“œμ›¨μ–΄ 가속기λ₯Ό GPU둜 λ°”κΎΌλ‹€.

3. dataset 파일 μ—…λ‘œλ“œ

  • μ™Όμͺ½ 파일 νŒ¨λ„μ„ μ—°λ‹€.
  • dataset/gemma4_mud_alpaca_100.jsonl νŒŒμΌμ„ μ—…λ‘œλ“œν•œλ‹€.
  • κ°€μž₯ μ‰¬μš΄ μ—…λ‘œλ“œ μœ„μΉ˜λŠ” /content/ 이닀.

4. λ…ΈνŠΈλΆ μ„€μ • μ…€ 확인

  • κΈ°λ³Έ λͺ¨λΈ 이름 (unsloth/gemma-4-E2B-it)
  • 데이터 파일 경둜
  • 좜λ ₯ 폴더
  • μ‹œν€€μŠ€ 길이
  • LOAD_IN_4BIT μ—¬λΆ€

μ²˜μŒμ—λŠ” κΈ°λ³Έκ°’ κ·ΈλŒ€λ‘œ λ‘λŠ” 편이 μ•ˆμ „ν•˜λ‹€.

5. 셀을 μœ„μ—μ„œλΆ€ν„° μ‹€ν–‰

  • μ„€μΉ˜ μ…€
  • 버전 확인 μ…€ 좜λ ₯ 확인
  • 선택 둜그인 μ…€
  • ν™˜κ²½ 확인 μ…€
  • μ„€μ • μ…€
  • dataset 경둜 확인 μ…€
  • λͺ¨λΈ λ‘œλ“œ μ…€
  • LoRA μ„€μ • μ…€
  • 데이터셋 λ‘œλ“œ/μ±„νŒ… 포맷 λ³€ν™˜ μ…€
  • ν•™μŠ΅ μ…€
  • μ €μž₯ μ…€
  • μΆ”λ‘  ν…ŒμŠ€νŠΈ μ…€

쀑간 셀을 κ±΄λ„ˆλ›°μ§€ μ•ŠλŠ”λ‹€. μ„€μΉ˜ μ…€ 뒀에 import 였λ₯˜κ°€ 이미 났닀면 λŸ°νƒ€μž„ μž¬μ‹œμž‘ ν›„ 2번 선택 둜그인 μ…€λΆ€ν„° λ‹€μ‹œ 이어간닀.

6. Hugging Face 토큰 μž…λ ₯

  • Hub μ—…λ‘œλ“œκ°€ ν•„μš”ν•  λ•Œλ§Œ 둜그인 μ…€ 주석을 ν’€μ–΄ μ‹€ν–‰ν•œλ‹€.
  • 토큰은 λ¬Έμ„œλ‚˜ μ½”λ“œμ— μ €μž₯ν•˜μ§€ μ•ŠλŠ”λ‹€.

7. ν•™μŠ΅ μ‹œμž‘

  • trainer.train() 셀을 μ‹€ν–‰ν•œλ‹€.
  • λ‘œκ·Έκ°€ λ‚˜μ˜€λ©΄ 정상이닀.

8. μ €μž₯ 폴더 확인

  • ν•™μŠ΅μ΄ λλ‚˜λ©΄ /content/output/gemma_mud_lora_out 폴더λ₯Ό ν™•μΈν•œλ‹€.

9. Drive λ°±μ—… λ˜λŠ” λ‹€μš΄λ‘œλ“œ

  • λ…ΈνŠΈλΆ λ§ˆμ§€λ§‰ 근처의 Drive μ˜ˆμ‹œ 셀을 μ‚¬μš©ν•˜κ±°λ‚˜
  • Colab 파일 νŒ¨λ„μ—μ„œ κ²°κ³Όλ₯Ό 직접 λ‚΄λ €λ°›λŠ”λ‹€.

10. 첫 ν…ŒμŠ€νŠΈ

  • κΈ°λ³Έ ν…ŒμŠ€νŠΈ ν”„λ‘¬ν”„νŠΈλŠ” talk oracle
  • 좜λ ₯이 μ§§κ³  λΆ„μœ„κΈ° 있고 세계관 μ•ˆμ— 머무λ₯΄λ©΄ μš°μ„  합격이닀.