Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for
Sparse Architectural Large Language Models
https://arxiv.org/pdf/2407.01906
- 分析了不同任务 fine-grained MoE route 的表现,发现不同任务用到的 expert 是不同的


- 自然提出 ESFT 框架,只训练特定任务对应的 expert 就行(先用32个任务的测例来判断哪些需要训练)

