Huatuo-Llama-Med-Chinese
本草(原名华驼)是一款专注于中文医疗领域的开源大语言模型项目。它通过对 LLaMA、Bloom、Alpaca 及活字等主流基座模型进行指令微调,赋予了它们专业的医学问答能力,旨在解决通用大模型在医疗场景下知识匮乏、回答不准确或缺乏可靠依据的痛点。
该项目核心构建了一套高质量的中文医学指令微调数据集,巧妙融合了结构化医学知识图谱与非结构化医学文献,并结合大模型技术生成训练数据。其独特的技术亮点在于采用 LoRA(低秩适应)高效微调策略,在显著降低计算资源需求的同时,大幅提升了模型在疾病诊断、用药建议及健康咨询等方面的专业度与可靠性。部分研究成果已获 ACM TKDD 等国际学术会议录用,证明了其技术先进性。
本草非常适合人工智能研究人员、医疗科技开发者以及高校师生使用。研究人员可基于其开源的数据构建方法与模型权重,探索垂直领域大模型的微调技术;开发者则能轻松将其集成到智慧医疗系统、在线问诊平台或健康管理应用中,快速构建专业的医疗 AI 助手。对于希望深入了解中文医疗大模型技术实现的普通技术爱好者,本项目也提供了详尽的代码示例与测试用例,便于上手实践与研究。
使用场景
某三甲医院信息科正在开发一款面向患者的智能预问诊系统,旨在让患者在挂号前能准确描述症状,从而辅助医生快速判断病情。
没有 Huatuo-Llama-Med-Chinese 时
- 通用模型幻觉严重:使用普通大模型回答医疗问题时,常编造不存在的药物剂量或治疗方案,存在极大安全隐患。
- 中文医学术语理解偏差:模型无法准确识别“心绞痛”与“胃痛”在中文语境下的细微差别,导致分诊建议错误。
- 缺乏循证依据:回答内容多基于互联网泛化数据,无法结合权威医学文献或知识图谱,难以获得医生信任。
- 多轮对话逻辑断裂:患者描述病情变化时,模型无法记住上下文关键信息(如过敏史),导致追问逻辑混乱。
使用 Huatuo-Llama-Med-Chinese 后
- 回复专业且安全:基于中文医学知识图谱和文献微调,模型生成的建议严格遵循临床指南,显著降低幻觉风险。
- 术语解析精准:能准确理解并区分中文特有的疾病描述和俗语,将患者口语转化为标准医学表述,提升分诊准确率。
- 答案可追溯可信:回答融合了权威医学文献知识,逻辑严密且符合诊疗规范,可作为医生有效的参考辅助。
- 上下文记忆连贯:在多轮问诊中能精准锁定患者既往史和当前症状变化,模拟真实医生的追问逻辑,引导患者完整陈述病情。
Huatuo-Llama-Med-Chinese 通过将通用语言能力与专业中文医学知识深度融合,成功解决了医疗垂直领域大模型“不敢用、不准用”的核心难题。
运行环境要求
- Linux
- 必需
- 训练需 NVIDIA A100 (80GB) 或 RTX 3090/4090 (24GB+)
- 推理显存需求视基模型大小而定(基模型为 7B 参数),建议使用半精度 (FP16) 运行
- CUDA 版本未明确说明,但需支持 PyTorch GPU 加速
未说明(建议系统内存大于模型显存占用,通常 32GB+)

快速开始
本草[原名:华驼(HuaTuo)]: 基于中文医学知识的大语言模型指令微调
BenTsao (original name: HuaTuo): Instruction-tuning Large Language Models With Chinese Medical Knowledge
本项目开源了经过中文医学指令精调/指令微调(Instruction-tuning) 的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。
我们基于医学知识图谱以及医学文献,结合ChatGPT API构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。
News
[2024/07/25]《基于知识微调的大语言模型可靠中文医学回复生成方法》被ACM TKDD录用
[2023/09/24]发布《面向智慧医疗的大语言模型微调技术》
历史新闻
[2023/09/12]在arxiv发布《探索大模型从医学文献中交互式知识的获取》
[2023/09/08]在arxiv发布《基于知识微调的大语言模型可靠中文医学回复生成方法》
[2023/08/07] 🔥🔥增加了基于活字进行指令微调的模型发布,模型效果显著提升。🔥🔥
[2023/08/05] 本草模型在CCL 2023 Demo Track进行Poster展示。
[2023/08/03] SCIR实验室开源活字通用问答模型,欢迎大家关注🎉🎉
[2023/07/19] 增加了基于Bloom进行指令微调的模型发布。
[2023/05/12] 模型由"华驼"更名为"本草"。
[2023/04/28] 增加了基于中文Alpaca大模型进行指令微调的模型发布。
[2023/04/24] 增加了基于LLaMA和医学文献进行指令微调的模型发布。
[2023/03/31] 增加了基于LLaMA和医学知识库进行指令微调的模型发布。
A Quick Start
首先安装依赖包,python环境建议3.9+
pip install -r requirements.txt
针对所有基模型,我们采用了半精度基模型LoRA微调的方式进行指令微调训练,以在计算资源与模型性能之间进行权衡。
基模型
- 活字1.0,哈尔滨工业大学基于Bloom-7B二次开发的中文通用问答模型
- Bloom-7B
- Alpaca-Chinese-7B,基于LLaMA二次开发的中文问答模型
- LLaMA-7B
LoRA模型权重下载
LoRA权重可以通过百度网盘或Hugging Face下载:
- 🔥对活字进行指令微调的LoRA权重文件
- 基于医学知识库以及医学问答数据集 百度网盘
- 对Bloom进行指令微调的LoRA权重文件
- 基于医学知识库以及医学问答数据集 百度网盘和Hugging Face
- 对Alpaca进行指令微调的LoRA权重文件
- 基于医学知识库 百度网盘和Hugging Face
- 基于医学知识库和医学文献 百度网盘和Hugging Face
- 对LLaMA进行指令微调的LoRA权重文件
- 基于医学知识库 百度网盘和Hugging Face
- 基于医学文献 百度网盘和Hugging Face
下载LoRA权重并解压,解压后的格式如下:
**lora-folder-name**/
- adapter_config.json # LoRA权重配置文件
- adapter_model.bin # LoRA权重文件
基于相同的数据,我们还训练了医疗版本的ChatGLM模型: ChatGLM-6B-Med
Infer
我们在./data/infer.json中提供了一些测试用例,可以替换成其它的数据集,请注意保持格式一致
运行infer脚本
#基于医学知识库
bash ./scripts/infer.sh
#基于医学文献
#单轮
bash ./scripts/infer-literature-single.sh
#多轮
bash ./scripts/infer-literature-multi.sh
infer.sh脚本代码如下,请将下列代码中基模型base_model、lora权重lora_weights以及测试数据集路径instruct_dir进行替换后运行
python infer.py \
--base_model 'BASE_MODEL_PATH' \
--lora_weights 'LORA_WEIGHTS_PATH' \
--use_lora True \
--instruct_dir 'INFER_DATA_PATH' \
--prompt_template 'TEMPLATE_PATH'
提示模板的选择与模型相关,详情如下:
| 活字&Bloom | LLaMA&Alpaca |
|---|---|
templates/bloom_deploy.json |
基于医学知识库templates/med_template.json 基于医学文献 templates/literature_template.json |
也可参考./scripts/test.sh
方法
基模型在医学问答场景下效果有限,指令微调是一种高效的使基模型拥有回答人类问题能力的方法。
数据集构建
医学知识库
我们采用了公开和自建的中文医学知识库,主要参考了cMeKG。
医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。知识库示例如下:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
我们利用GPT3.5接口围绕医学知识库构建问答数据,设置了多种Prompt形式来充分利用知识。
指令微调的训练集数据示例如下:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
我们提供了模型的训练数据集,共计八千余条,需要注意的是,虽然训练集的构建融入了知识,但是仍存在错误和不完善的地方,后续我们会利用更好的策略迭代更新数据集。
指令微调数据集质量仍有限,后续将进行不断迭代,同时医学知识库和数据集构建代码还在整理中,整理完成将会发布。
医学文献
此外,我们收集了2023年关于肝癌疾病的中文医学文献,利用GPT3.5接口围绕医学文献的【结论】构建多轮问答数据。在·./data_literature/liver_cancer.json中我们提供了其中的1k条训练样例。目前,训练样本的质量仍然有限,在后续我们会进一步迭代数据,会以公开数据集的形式对外进行发布。训练样本的示例如下:
目前,我们只开放针对"肝癌"单个疾病训练的模型参数。在未来,我们计划发布融入文献结论的医学对话数据集,并且会针对“肝胆胰”相关16种疾病训练模型。
相关细节可参考我们的文章:《探索大模型从医学文献中交互式知识的获取》
Finetune
如果想用自己的数据集微调大语言模型,请按照./data/llama_data.json中的格式构建自己的数据集
运行finetune脚本
bash ./scripts/finetune.sh
知识微调
上述介绍了我们如何利用医学知识构造高质量问答对的过程,即从“knowledge”到“(question, answer)”,在此基础上,我们提出了知识微调,旨在让大语言模型在推理时显式利用知识库中的知识,使大模型学会从“question”到“knowledge”,过程可分为以下三阶段,其过程如下图所示。第一阶段:根据问题填充知识检索的参数,包括中心词和属性。第二阶段:查询获取带有填充参数所对应的知识。第三阶段:使用获得的知识来生成回答。样例数据链接
相关细节可参考我们的文章:《基于知识微调的大语言模型可靠中文医学回复生成方法》
训练细节
计算资源需求参考
基于LLaMA模型的指令微调过程中,我们在一张A100-SXM-80GB显卡上进行了训练,训练总轮次10轮,耗时约2h17m。batch_size=128的情况下显存占用在40G左右。预计3090/4090显卡(24GB显存)以上显卡可以较好支持,根据显存大小来调整batch_size。
实验过程
超参设置和实验过程可以参考wandb的链接:
https://wandb.ai/thinksoso/llama_med/runs/a5wgcnzt/overview?workspace=user-thinksoso
模型效果对比
注:测试于2023年3月
| 测试输入 | Llama输出 | Alpaca输出 | BenTsao本草输出 |
|---|---|---|---|
| 小张最近感觉身体不适,出现心悸、气促等症状。体检发现心脏扩大、搏动减弱。 | 问题:小张最近感觉身体不适,出现心悸、气促等症状。体检发现心脏扩大、搏动减弱。 | 最近,小张一直感觉身体不舒服,有心烦意乱、呼吸急促等症状。体格检查显示心脏增大,肌肉无力。 | 小张可能患有心肌炎,建议尽快到医院进行检查和治疗。治疗方案包括药物治疗和手术治疗。 |
| 麻风病和儿童哮喘的病因是否一致? | 儿童哮喘和麻风病的病因是一致,但是儿童哮喘和麻风病的病因不一致 | 是的,哮喘和儿童喘息有相似的原因。 | 不一致,麻风病的病因是麻风杆菌感染,而儿童哮喘的病因是喂养不良、吸烟等因素。 |
| 一位患者出现了持续性的胀痛和黄疸,经影像学检查后确诊为肝胆管结石病,应该采取哪些治疗方案? | 肝胆管结石病患者应该采取哪些治疗方案? | 患者应接受手术和化疗相结合的治疗。 | 针对肝胆管结石病,治疗方案包括手术治疗、药物治疗和辅助治疗等。具体治疗方案需要根据患者的具体情况而定。 |
常见问题
Q: 为什么更名为"本草"?
A: 为SCIR实验室大语言模型命名一致性,中文医学大模型名称调整为"本草"。
Q: 为什么是"华驼"而不是"华佗"?
A: 叫”驼“是因为我们的基模型LLaMA是美洲驼,Alpaca是羊驼,受他们名字的启发以及华佗的谐音梗,我们将我们的模型起名为华驼。
Q: 有使用中医理论或者中医数据吗?
A: 目前还没有
Q: 模型运行的结果不同、效果有限
A: 由于生成模型生成多样性的考量,多次运行的结果可能会有差异。当前开源的模型由于LLaMA及Alpaca中文语料有限,且知识结合的方式较为粗糙,请大家尝试bloom-based和活字-based的模型。
Q: 模型无法运行/推理内容完全无法接受
A: 请确定已安装requirements中的依赖、配置好cuda环境并添加环境变量、正确输入下载好的模型以及lora的存储位置;推理内容如存在重复生成或部分错误内容属于llama-based模型的偶发现象,与llama模型的中文能力、训练数据规模以及超参设置均有一定的关系,请尝试基于活字的新模型。如存在严重问题,请将运行的文件名、模型名、lora等配置信息详细描述在issue中,谢谢大家。
Q: 发布的若干模型哪个最好?
A: 根据我们的经验,基于活字模型的效果相对更好一些。
项目参与者
本项目由哈尔滨工业大学社会计算与信息检索研究中心健康智能组王昊淳 、杜晏睿、刘驰、白睿、席奴瓦、陈雨晗、强泽文、陈健宇、李子健、范宇政、刘佳彤完成,指导教师为赵森栋副教授,秦兵教授以及刘挺教授。
致谢
本项目参考了以下开源项目,在此对相关项目和研究开发人员表示感谢。
- 活字: https://github.com/HIT-SCIR/huozi
- Facebook LLaMA: https://github.com/facebookresearch/llama
- Stanford Alpaca: https://github.com/tatsu-lab/stanford_alpaca
- alpaca-lora by @tloen: https://github.com/tloen/alpaca-lora
- CMeKG https://github.com/king-yyf/CMeKG_tools
- 文心一言 https://yiyan.baidu.com/welcome 本项目的logo由文心一言自动生成
免责声明
本项目相关资源仅供学术研究之用,严禁用于商业用途。使用涉及第三方代码的部分时,请严格遵循相应的开源协议。模型生成的内容受模型计算、随机性和量化精度损失等因素影响,本项目无法对其准确性作出保证。本项目数据集绝大部分由模型生成,即使符合某些医学事实,也不能被用作实际医学诊断的依据。对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。
Citation
如果您使用了本项目的数据或者代码,或是我们的工作对您有所帮助,请声明引用
@article{10.1145/3686807,
author = {Wang, Haochun and Zhao, Sendong and Qiang, Zewen and Li, Zijian and Liu, Chi and Xi, Nuwa and Du, Yanrui and Qin, Bing and Liu, Ting},
title = {Knowledge-tuning Large Language Models with Structured Medical Knowledge Bases for Trustworthy Response Generation in Chinese},
year = {2024},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
issn = {1556-4681},
url = {https://doi.org/10.1145/3686807},
doi = {10.1145/3686807},
abstract = {Large Language Models (LLMs) have demonstrated remarkable success in diverse natural language processing (NLP) tasks in general domains。然而,LLMs有时会因为领域知识有限而产生关于医学事实的幻觉式回答。这种不足在医疗领域的应用中可能带来潜在风险。为应对这一挑战,我们提出了知识微调方法,利用结构化的医学知识库帮助LLM高效掌握领域知识,从而实现更可信的回答生成。同时,我们还发布了cMedKnowQA——一个基于医学知识库构建的中文医学问答数据集,用于评估LLM的医学知识水平。实验结果表明,经过cMedKnowQA知识微调的LLM,在回答准确性方面显著优于传统的指令微调,并为LLM的领域适应提供了一种新的可信途径。我们在此公开我们的代码和数据。},
note = {Just Accepted},
journal = {ACM Trans. Knowl. Discov. Data},
month = aug,
keywords = {大型语言模型, 医学问答, 可信回答生成, 医学知识库}
}
首版技术报告: Huatuo: Tuning llama model with chinese medical knowledge
@misc{wang2023huatuo,
title={HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge},
author={Haochun Wang and Chi Liu and Nuwa Xi and Zewen Qiang and Sendong Zhao and Bing Qin and Ting Liu},
year={2023},
eprint={2304.06975},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
医学文献知识获取:The CALLA Dataset: Probing LLMs’ Interactive Knowledge Acquisition from Chinese Medical Literature
@misc{du2023calla,
title={The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from Chinese Medical Literature},
author={Yanrui Du and Sendong Zhao and Muzhen Cai and Jianyu Chen and Haochun Wang and Yuhan Chen and Haoqiang Guo and Bing Qin},
year={2023},
eprint={2309.04198},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器


