biopaws / readme_cn.md
marisming's picture
Upload folder using huggingface_hub
34a6d4f verified

论文对应代码

1 基础数据: 1-data

  • 1-get_sample_uniprot_sprot.ipynb:获得10000条采样蛋白质数据
  • 2-get_non_homologous_pairs.ipynb:获得非同源蛋白质序列
  • 3-get_homology_pairs.ipynb:获得同源蛋白质序列
  • 4-get_distant homology_pairs.ipynb:获得远程同源序列
  • mysql_part:基于 MySQL 表的工程化实现,主要解决速度问题,可直接导入 MySQL 数据文件

2 GPT2 相关的微调和可解释实验: 2-gpt_ft_test_explain

  • 1-gpt2_ft_en_test_protein_confusion.ipynb:GPT2 基于英文 PAWS-X 微调,测试蛋白质序列,提供混淆矩阵
  • 2-gpt2_test_protein.ipynb:GPT2 直接测试蛋白质序列,提供混淆矩阵
  • 3-acc distribution.ipynb:准确率(acc)的分布统计,包括微调和未微调模型
  • 4-explain_***:语言能力迁移的可解释性分析
  • batch_run:批量运行代码

3 LLaMA3 微调测试:3-llama_sft_test

  • 1-llama_sft_**:LLaMA 3.1 微调代码,使用不同的量化策略
  • 2-llama_sft_test.py:微调模型,测试蛋白质同源性
  • 3-llama**:官方预训练模型和微调模型的测试结果
  • 4-*_standard_protein:SOTA 大模型在常见同源蛋白质判定任务上的表现
  • 5-*_remote_protein:SOTA 大模型在远程同源蛋白质判定任务上的表现
  • 6-qwen3_explain-:基于思维链(Chain-of-Thought)的可解释性分析

4 BioPAWS 数据集测试:4-biopaws

  • 1-qwen3_dna:DNA 同源判定
  • 2-qwen3_dna_protein:DNA-蛋白质编码关系判定
  • 3-qwen3_dna_single:DNA 单序列分类问题
  • 4-qwen3_protein_single:蛋白质单序列分类问题

注:原始 notebook 中的星号(*)和下划线命名已按语义还原为通配符或描述性文字,便于阅读。

如需生成完整的 .md 文件或添加 GitHub 风格链接/图标,也可告知!