[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-chenking2020--FindTheChatGPTer":3,"tool-chenking2020--FindTheChatGPTer":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":76,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":78,"languages":76,"stars":79,"forks":80,"last_commit_at":81,"license":76,"difficulty_score":82,"env_os":83,"env_gpu":84,"env_ram":85,"env_deps":86,"category_tags":89,"github_topics":90,"view_count":23,"oss_zip_url":76,"oss_zip_packed_at":76,"status":16,"created_at":111,"updated_at":112,"faqs":113,"releases":114},3368,"chenking2020\u002FFindTheChatGPTer","FindTheChatGPTer","ChatGPT爆火，开启了通往AGI的关键一步，本项目旨在汇总那些ChatGPT的开源平替们，包括文本大模型、多模态大模型等，为大家提供一些便利","FindTheChatGPTer 是一个专注于汇总 ChatGPT 及 GPT-4 开源替代方案的资源项目。面对闭源大模型复现难、技术细节不透明的现状，它解决了开发者和研究人员难以获取可落地、全周期大模型实现方案的问题。\n\n该项目不仅罗列了各类文本与多模态大模型，还深入解析了其技术路线。收录的模型涵盖从自主设计的 ChatYuan，到完整实现监督微调、奖励模型训练及强化学习（RLHF）三步策略的 ColossalAI；既有能在消费级显卡运行的 ChatGLM 系列及其多模态版本 VisualGLM，也包含支持插件化的 MOSS 和具备强大视觉指令理解能力的 mPLUG-Owl。此外，项目还关注如 PandaLM 这样的自动化评估工具，帮助降低模型评测成本。\n\nFindTheChatGPTer 特别适合 AI 开发者、算法研究人员以及对大模型技术感兴趣的高校师生使用。通过持续跟踪并整理这些开源进展，它为社区提供了一条清晰的技术追赶路径，让大家在通用人工智能的浪潮中，能够更便捷地探索、复现并优化属于自己的大模型应用。","# 寻找那些ChatGPT\u002FGPT4开源“平替”们\nChatGPT\u002FGPT4开源“平替”汇总，持续更新\n\nChatGPT爆火出圈，国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源，复现难度极大，即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚，OpenAI又官宣发布了图文多模态的GPT4模型，能力相对ChatGPT又是大幅提升，似乎闻到了以通用人工智能主导的第四次工业革命的味道。\n\n无论是国外还是国内，目前距离OpenAI的差距越来越大，大家都在紧锣密鼓的追赶，以致于在这场技术革新中处于一定的优势地位，目前很多大型企业的研发基本上都是走闭源路线，ChatGPT和GPT4官方公布的细节很少，也不像之前发个几十页的论文介绍，OpenAI的商业化时代已经到来。当然，也有一些组织或者个人在开源平替上进行了探索，本文章汇总如下，本人也会持续跟踪，有更新的开源平替及时更新此处\n\n## 一、自主模型篇\n        该类方法主要采用非LLAMA等微调方式，自主设计或者优化GPT、T5模型，并实现从预训练、监督微调、强化学习等全周期过程。\n### ChatYuan\n\n        ChatYuan（元语AI）是由元语智能开发团队开发和发布的，自称第一个国内最早的一个功能型对话大模型，可以写文章、写作业、写诗歌、做中英文间的翻译；一些法律等特定领域问题也可以提供相关信息。该模型目前只支持中文，github链接是：\n\n        https:\u002F\u002Fgithub.com\u002Fclue-ai\u002FChatYuan\n\n        从披露的技术细节看，底层采用7亿参数规模的T5模型，并基于PromptClue进行了监督微调形成了ChatYuan。该模型基本上是ChatGPT技术路线的三步的第一步，没有实现奖励模型训练和PPO强化学习训练。\n\n### Colossal AI\n\n        最近，ColossalAI开源了他们的ChatGPT实现。分享了他们的三步策略，完整实现了ChatGPT核心的技术路线：其Github如下：\n\n        https:\u002F\u002Fgithub.com\u002Fhpcaitech\u002FColossalAI\n\n        本人基于该项目，更加明确了三步策略，并进行了分享：\n\n        第一阶段（stage1_sft.py）：SFT监督微调阶段，该开源项目没有实现，这个比较简单，因为ColossalAI无缝支持Huggingface，本人直接用Huggingface的Trainer函数几行代码轻松实现，在这里我用了一个gpt2模型，从其实现上看，其支持GPT2、OPT和BLOOM模型；\n\n        第二阶段（stage2_rm.py）：奖励模型（RM）训练阶段，即项目Examples里train_reward_model.py部分；\n\n        第三阶段（stage3_ppo.py）：强化学习（RLHF）阶段，即项目train_prompts.py\n\n        三个文件的执行需要放在ColossalAI项目中，其中代码中的cores即原始工程中的chatgpt，cores.nn在原始工程中变成了chatgpt.models\n\n### ChatGLM\n\n        ChatGLM是清华技术成果转化的公司智谱AI开源的GLM系列的对话模型，支持中英两个语种，目前开源了其62亿参数量的模型。其继承了GLM之前的优势，在模型架构上进行了优化，从而使得部署和应用门槛变低，实现大模型在消费级显卡上的推理应用。详细技术可以参考其github：\n\n        ChatGLM-6B开源地址为：https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B\n\n        从技术路线上看，其实现了ChatGPT强化学习人类对齐策略，使得生成效果更佳贴近人类价值，其目前能力域主要包括自我认知、提纲写作、文案写作、邮件写作助手、信息抽取、角色扮演、评论比较、旅游建议等，目前其已经开发了正在内测的1300亿的超大模型，算是目前开源平替里面参数规模较大的对话大模型。\n\n        VisualGLM-6B（更新于2023年5月19日）\n\n        该团队近期开源了ChatGLM-6B的多模态版，支持图像、中文和英文的多模态对话。语言模型部分采用ChatGLM-6B，图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。VisualGLM-6B依靠来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。\n\n        VisualGLM-6B开源地址为：https:\u002F\u002Fgithub.com\u002FTHUDM\u002FVisualGLM-6B\n\n        ChatGLM2-6B（更新于2023年6月27日）\n\n        该团队近期开源了ChatGLM的二代版本ChatGLM2-6B，相对第一代版本，其主要特性包括采用了更大的数据规模，从1T提升到1.4T；最突出的莫过于其更长的上下文支持，从2K扩展到了32K，允许更长和更高轮次的输入；另外起大幅优化了推理速度，提升了42%，占用的显存资源也大幅降低。\n\n        ChatGLM2-6B开源地址为：https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM2-6B\n\n### PaLM-rlhf-pytorch\n\n        其号称首个开源ChatGPT平替项目，其基本思路是基于谷歌语言大模型PaLM架构，以及使用从人类反馈中强化学习的方法（RLHF）。PaLM是谷歌在今年4月发布的5400亿参数全能大模型，基于Pathways系统训练。其可以完成写代码、聊天、语言理解等任务，并且在大多数任务上具有强大的少样本学习性能。同时采用了ChatGPT一样的强化学习机制，能让AI的回答更加符合情景要求，降低模型毒性。\n       \n        Github地址为：https:\u002F\u002Fgithub.com\u002Flucidrains\u002FPaLM-rlhf-pytorch\n\n### GPTrillion \n\n        该项目号称开源的最大规模模型，高达1.5万亿，且是多模态的模型。其能力域包括自然语言理解、机器翻译、智能问答、情感分析和图文匹配等。其开源地址为：\n        \n        https:\u002F\u002Fhuggingface.co\u002Fbanana-dev\u002FGPTrillion\n\n        （2023年5月24日，该项目是愚人节玩笑节目，项目已删除，特此说明）\n\n        \n### OpenFlamingo\n\n        OpenFlamingo是一个对标GPT-4、支持大型多模态模型训练和评估的框架，由非盈利机构LAION重磅开源发布，其是对DeepMind的Flamingo模型的复现。目前开源的是其基于LLaMA的 OpenFlamingo-9B模型。Flamingo模型在包含交错文本和图像的大规模网络语料库上进行训练，具备上下文少样本学习能力。OpenFlamingo实现了原始Flamingo中提出的相同架构，在一个新的多模态C4数据集的5M样本和LAION-2B的10M样本上训练而来。该项目的开源地址是：\n \n        https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fopen_flamingo\n\n### MOSS （更新于2023年4月21日）\n\n        今年2月21日，复旦大学发布了MOSS，并开放公测，在公测崩溃后引起一些争议。现在该项目迎来重要更新和开源。开源的MOSS支持中英两个语种，且支持插件化，如解方程、搜索等。参数量大16B，在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。该项目的开源地址是：\n\n        https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FMOSS\n\n### mPLUG-Owl （更新于2023年5月7日）\n \n        与miniGPT-4、LLaVA类似，其是一个对标GPT-4的开源多模态大模型，其延续了mPLUG系列的模块化训练思想。其目前开源了7B参数量的模型，同时第一次针对视觉相关的指令理解提出一个全⾯的测试集 OwlEval，通过人工评测对比了已有模型，包括LLaVA、MiniGPT-4等工作，其展示出更优的多模态能力，尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方⾯表现突出。目前遗憾的是跟其他图文大模型一样，仍然只支持英文，但中文版已在其待开源List中。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl\n\n### PandaLM （更新于2023年5月9日）\n \n        PandaLM是一个模型评估大模型，旨在对其他大模型生成内容的偏好进行自动评价，节省人工评估成本。PandaLM自带有Web界面进行分析，同时还支持Python代码调用，仅用三行代码即可对任意模型和数据生成的文本评估，使用很方便。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FWeOpenML\u002FPandaLM\n\n### 悟道·天鹰 （更新于2023年6月12日）\n \n        在近期召开的智源大会上，智源研究院开源了其悟道·天鹰大模型，具备中英双语知识。开源版本的基础模型参数量包括70亿和330亿，同时其开源了AquilaChat对话模型和quilaCode文本-代码生成模型，且都已经开放了商业许可。Aquila采用GPT-3、LLaMA等Decoder-only架构，同时针对中英双语更新了词表，并采用其加速训练方法。其性能上的保障不仅依赖于模型的优化改进，还得益于智源这几年在大模型高质量数据上的积累。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FFlagAI-Open\u002FFlagAI\u002Ftree\u002Fmaster\u002Fexamples\u002FAquila\n\n### CoDi（更新于2023年6月12日）\n \n        近期，微软重磅发表多模态大模型论文和开源代码-CoDi，彻底打通文本-语音-图像-视频，支持任意输入，任意模态输出。为了达到任意模态的生成，研究者将训练分为两个阶段，第一个阶段作者利用桥接对齐策略，组合条件进行训练，给每个模态都打造一个潜在扩散模型；第二个阶段给每个潜在扩散模型和环境编码器上增加一个交叉注意力模块，就能将潜在扩散模型的潜变量投射到共享空间中，使得生成的模态也进一步多样化。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V3\n\n### ImageBind（更新于2023年6月12日）\n \n        Meta重磅推出和开源其多模态大模型ImageBind，可以实现跨6种模态，包括图像、视频、音频、深度、热量和空间运动，ImageBind通过使用图像的绑定特性，利用大型视觉语言模型和零样本能力扩展到新的模态来解决对齐问题。图像配对数据足以将这六种模态绑定在一起，允许不同的模式彼此打通模态割裂。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind\n\n### baichuan-7B（更新于2023年6月15日）\n \n        2023年4月10日，王小川官宣创办AI大模型公司“百川智能”，旨在打造中国版的OpenAI。在成立了两个月后，百川智能重磅开源其自主研发的baichuan-7B模型，支持中英文。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上，以显著优势全面超过了ChatGLM-6B等其他大模型，并且在MMLU英文权威评测榜单上，大幅领先LLaMA-7B。该模型在高质量数据上达到万亿token规模，并基于高效的attention算子优化支持上万超长动态窗口的扩张能力，目前开源支持4K上下文能力。该开源模型可以商用，比LLaMA更加友好。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002Fbaichuan-7B\n\n### XVERSE-13B（更新于2023年8月8日）\n \n        2023年8月6日，元象XVERSE团队开源XVERSE-13B模型，该模型是一个多语言大模型，支持语种多达40+，支持上下文语境长度达8192，根据团队介绍，该模型特点有：模型结构：XVERSE-13B使用主流Decoder-only的标准Transformer结构，支持8K的上下文长度，为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求；训练数据：构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果；分词：基于BPE算法，使用上百GB语料训练了一个词表大小为100,278的分词器，能够同时支持多语言，而无需额外扩展词表；训练框架：自主研发多项关键技术，包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等，让训练效率更高，模型稳定性强，在千卡集群上的峰值算力利用率可达到58.5%，位居业界前列。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fxverse-ai\u002FXVERSE-13B\n\n### 通义千问Qwen-7B（更新于2023年8月8日）\n \n        2023年8月3日，阿里通义千问70亿模型开源，包括通用模型和对话模型，并且开源、免费、可商用。据介绍，Qwen-7B是基于Transformer的大语言模型，在超大规模预训练数据上训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。它是支持中、英等多种语言的基座模型，在超过2万亿token数据集上训练，上下文窗口长度达到8k。Qwen-7B-Chat是基于Qwen-7B基座模型的中英文对话模型。通义千问7B预训练模型在多个权威基准测评中表现出色，中英文能力远超国内外同等规模开源模型，部分能力甚至超过了12B、13B大小的开源模型。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-7B\n\n## 二、Alpaca模式篇\n\n        LLaMA是由Meta发布的全新人工智能大型语言模型，在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等任务上方面表现良好。LLaMA模型支持20种语言，包括拉丁语和西里尔字母语言，目前看原始模型并不支持中文。可以说LLaMA的史诗级泄露大力推进了类ChatGPT的开源发展。\n\n        （更新于2023年4月22日）但遗憾的是目前LLama的授权比较有限，只能用作科研，不允许做商用。为了解决商用完全开源问题，RedPajama项目应运而生，其旨在创建一个完全开源的LLaMA复制品，可用于商业应用，并为研究提供更透明的流程。完整的RedPajama包括了1.2万亿token的数据集，其下一步将着手开始进行大规模训练。这项工作还是非常值得期待，其开源地址是：\n\n        https:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FRedPajama-Data\n\n        （更新于2023年5月7日）\n\n        RedPajama更新了其训练模型文件，包括3B和7B两个参数量，其中3B可以在5年前发售的RTX2070游戏显卡上运行，弥补了LLaMa在3B上的空白。其模型地址为：\n\n        https:\u002F\u002Fhuggingface.co\u002Ftogethercomputer\n\n        除了RedPajama，MosaicML推出MPT系列模型，其训练数据采用了RedPajama的数据，在各类性能评估中，7B模型与原版LLaMA旗鼓相当。其模型开源地址为：\n\n        https:\u002F\u002Fhuggingface.co\u002Fmosaicml\n\n        无论是RedPajama还是MPT，其同时也开源了对应的Chat版模型，这两个模型的开源为类ChatGPT商业化带来了巨大的推动。\n\n        （更新于2023年6月1日）\n\n        Falcon是对标LLaMA的有一个开放大模型底座，其拥有7B和40B两个参数量尺度，40B的性能号称超高65B的LLaMA。据了解，Falcon仍然采用GPT式的自回归解码器模型，但其在数据上下了大功夫，从公网上抓取内容构建好初始预训练数据集后，再使用CommonCrawl转储，进行大量过滤并进行大规模去重，最终得到一个由近5万亿个token组成的庞大预训练数据集。同时又加进了很多精选语料，包括研究论文和社交媒体对话等内容。但该项目的授权饱受争议，采用\"半商业化\"授权方式，在收益达到100万后开始有10%的商业费用。\n\n        该项目开源地址是：https:\u002F\u002Fhuggingface.co\u002Ftiiuae\n\n        （更新于2023年7月3日）\n\n        原始的Falcon跟LLaMA一样对中文支持能力欠缺，“伶荔（Linly）”项目团队以Falcon模型为底，打造并开源了中文版Chinese-Falcon。该模型首先扩充大幅扩充了词表，包括了8701个常用汉字、jieba词表中前20000个中文高频词以及60个中文标点符号，去重后词表大小扩充为90046。在训练阶段分别采用50G语料和2T大规模数据进行训练。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FCVI-SZU\u002FLinly\n\n        （更新于2023年7月24日）\n\n        原始的Falcon跟LLaMA一样对中文支持能力欠缺，“伶荔（Linly）”项目团队以Falcon模型为底，打造并开源了中文版Chinese-Falcon。该模型首先扩充大幅扩充了词表，包括了8701个常用汉字、jieba词表中前20000个中文高频词以及60个中文标点符号，去重后词表大小扩充为90046。在训练阶段分别采用50G语料和2T大规模数据进行训练。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FCVI-SZU\u002FLinly\n\n### stanford-alpaca\n\n       斯坦福发布的alpaca（羊驼模型），是一个基于LLaMA-7B模型微调出一个新模型，其基本原理是让OpenAI的text-davinci-003模型以self-instruct方式生成52K指令样本，以此来微调LLaMA。该项目已将训练数据、生成训练数据的代码和超参数开源，模型文件尚未开源，以一天多达到5.6K星的关注度。该项工作由于成本低廉、数据易得，大受欢迎，也开启了低成本ChatGPT的效仿之路。其github地址为：\n\n        https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\n\n### ChatLLaMA\n\n       是由Nebuly+AI推出的基于人类反馈强化学习的LLaMA+AI聊天机器人的开源实现，它的技术路线类似 ChatGPT，该项目上线刚刚 2 天，狂揽 5.2K 星。其github地址是：\n\n        https:\u002F\u002Fgithub.com\u002Fnebuly-ai\u002Fnebullvm\u002Ftree\u002Fmain\u002Fapps\u002Faccelerate\u002Fchatllama\n\n       ChatLLaMA 训练过程算法实现主打比 ChatGPT 训练更快、更便宜，据说能快近15倍，主要特色有：\n\n        完整的开源实现，允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务；\n\n        LLaMA 架构更小，使得训练过程和推理速度更快，成本更低；\n\n        内置了对 DeepSpeed ZERO 的支持，以加速微调过程；\n\n        支持各种尺寸的 LLaMA 模型架构，用户可以根据自身偏好对模型进行微调。\n\n\n### OpenChatKit\n\n        OpenChatKit由前OpenAI研究员所在的Together团队，以及LAION、Ontocord.ai团队共同打造。OpenChatKit包含200亿个参数，用GPT-3的开源版本GPT-NoX-20B进行微调。同时，不同ChatGPT的强化学习，OpenChatKit采用一个60亿参数的审核模型，对不合适或者是有害的信息进行过滤，确保生成内容的安全和质量。其github地址为：\n\n        https:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FOpenChatKit\n\n### BELLE\n\n        基于 Stanford Alpaca ，实现基于Bloom、LLama的监督微调。Stanford Alpaca 的种子任务都是英语，收集的数据也都是英文，该开源项目是促进中文对话大模型开源社区的发展，针对中文做了优化，模型调优仅使用由ChatGPT生产的数据（不包含任何其他数据）。项目包含以下内容:\n\n        175个中文种子任务\n        \n        生成数据的代码\n        \n       10M生成的数据，目前开源了1.5M、0.25M数学指令数据集和0.8M多轮任务对话数据集\n        \n        基于BLOOMZ-7B1-mt、LLama-7B优化后的模型\n        \n        github地址为：https:\u002F\u002Fgithub.com\u002FLianjiaTech\u002FBELLE\n\n### alpaca-lora\n\n        alpaca-lora是斯坦福大学的另一个巨作，其使用LoRA（low-rank adaptation）技术复现了Alpaca的结果，用了一个更加低成本的方法，只在一块RTX 4090显卡上训练5个小时得到了一个Alpaca水平相当的模型。而且，该模型可以在树莓派上运行。在该项目中，其使用了Hugging Face的PEFT来实现廉价高效的微调。PEFT 是一个库（LoRA 是其支持的技术之一），可以让你使用各种基于 Transformer的语言模型并使用LoRA对其进行微调，从而使得在一般的硬件上廉价而有效地微调模型。该项目github地址是：\n        \n        https:\u002F\u002Fgithub.com\u002Ftloen\u002Falpaca-lora\n        \n        尽管 Alpaca和alpaca-lora取得了较大的提升，但其种子任务都是英语，缺乏对中文的支持。一方面除了以上提到Belle收集到了大量的中文语料，另一方面基于alpaca-lora等前人工作，来自华中师范大学等机构的三位个人开发者开源的中文语言模型骆驼 (Luotuo)，单卡就能完成训练部署。目前该项目释放了两个模型 luotuo-lora-7b-0.1、luotuo-lora-7b-0.3，还有一个模型在计划中。其github地址是：\n        \n        https:\u002F\u002Fgithub.com\u002FLC1332\u002FChinese-alpaca-lora\n        \n### Dolly\n\n        Dolly在Alpaca的启发下，用Alpaca数据集，在GPT-J-6B上实现微调，由于Dolly本身是一个模型的“克隆”，所以团队最终决定将其命名为“多莉”。这种克隆式在Alpaca启发下越来越多，总结起来大致采用Alpaca开源的数据获取方式，在6B或者7B规模大小的旧模型上进行指令微调，获得类似ChatGPT的的效果。这种思想很经济，也能迅速模仿出ChatGPT的韵味来，广受欢迎，一经推出star爆棚。该项目github地址是：\n        \n        https:\u002F\u002Fgithub.com\u002Fdatabrickslabs\u002Fdolly\n       \n### Vicuna和Chinese-Vicuna\n\n        斯坦福学者继推出alpaca后，联手CMU、UC伯克利等，推出一个全新模型——130亿参数的Vicuna（俗称小羊驼、骆马）。仅需300美元就能实现ChatGPT 90%的性能。Vicuna是通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来，测试过程使用GPT-4作为评判标准，结果显示Vicuna-13B在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。\n\n        UC伯克利LMSys org近期又发布了70亿参数的Vicuna，不仅体积小、效率高、能力强，而且只需两行命令就能在M1\u002FM2芯片的Mac上运行，还能开启GPU加速！\n        \n        github开源地址为：https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat\u002F\n\n        另一个中文版的进行了开源Chinese-Vicuna ，github地址为：        \n\n        https:\u002F\u002Fgithub.com\u002FFacico\u002FChinese-Vicuna \n        \n### LMFLOW\n\n        ChatGPT爆火后，都在寻找通往圣殿的快捷之路，一些类ChatGPT开始出现，尤其是低成本效仿ChatGPT成为一个热门途径。LMFlow就是在这种需求场景下诞生的产物，他使得在3090这样的普通显卡上也能炼大模型。该项目由香港科技大学统计和机器学习实验室团队发起，致力于建立一个全开放的大模型研究平台，支持有限机器资源下的各类实验，并且在平台上提升现有的数据利用方式和优化算法效率，让平台发展成一个比之前方法更高效的大模型训练系统。\n        \n        利用该项目，即便是有限的计算资源，也能让使用者针对专有领域支持个性化训练。例如LLaMA-7B，一张3090耗时 5 个小时即可完成训练，成本大幅降低。该项目还开放了网页端即刻体验问答服务 (lmflow.com)。LMFlow的出现和开源使得普通资源可以训练问答、陪伴、写作、翻译、专家领域咨询等各种任务。目前很多研究者们正在尝试用该项目训练650亿甚至更高参数量的大模型。 \n        \n        该项目github地址为：\n        \n        https:\u002F\u002Fgithub.com\u002FOptimalScale\u002FLMFlow\n        \n### Baize白泽\n\n        该项目提出了一个自动收集 ChatGPT 对话的方法，让 ChatGPT 自我对话，批量生成高质量多轮对话数据集，分别收集了5万条左右Quora、StackOverflow和MedQA的高质量问答语料，并已经全部开源。同时其改进了LLama模型，效果还不错。白泽同样采用目前低成本的LoRA微调方案，获得白泽-7B、13B 和30B三种不同尺度，以及一个医疗垂直领域的模型。遗憾的是中文名字起的不错，但目前仍然不支持中文，中文的白泽模型据悉在计划中，未来发布。其开源github地址是：\n        \n        https:\u002F\u002Fgithub.com\u002Fproject-baize\u002Fbaize\n        \n### Koala考拉\n\n        基于LLama的ChatGPT平替继续发酵，UC伯克利的伯克利发布了一个可以在消费级GPU上运行的对话模型Koala，参数达到13B。Koala 的训练数据集包括如下几个部分：ChatGPT数据和开源数据（Open Instruction Generalist (OIG)、斯坦福 Alpaca 模型使用的数据集、Anthropic HH、OpenAI WebGPT、OpenAI Summarization）。Koala模型在EasyLM中使用JAX\u002FFlax实现，用了8 个A100 GPU，完成2轮迭代需要6个小时。评测效果优于Alpaca，达到ChatGPT 50%的性能。\n        \n       开源地址：https:\u002F\u002Fgithub.com\u002Fyoung-geng\u002FEasyLM\n\n### StackLLaMA\n\n        随着斯坦福Alpaca的出现，一大堆基于LLama的羊驼家族和扩展动物家族开始出现，终于Hugging Face研究人员近期发布了一篇博客StackLLaMA：用RLHF训练LLaMA的实践指南。同时也发布了一个70亿参数的模型——StackLLaMA。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的模型。详细见其博客地址：\n\n        https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fstackllama\n\n### Chinese-LLaMA-Alpaca\n\n        该项目针对中文对LLaMA进行了优化，并开源了其精调对话系统。该项目具体步骤包括：1. 词表扩充，采用sentencepiece在中文数据上进行了训练构建，并与LLaMA词表进行了合并；2. 预训练，在新词表上，约20G左右的通用中文语料进行了训练，训练中运用了LoRA技术；3. 利用Stanford Alpaca，在51k数据上进行了精调训练获得对话能力。\n\n        开源地址为：https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca\n\n### Dolly2.0   （更新于2023年4月13日）\n\n        4月12日，Databricks发布了Dolly2.0，号称业内第一个开源、遵循指令的LLM，数据集由Databricks员工生成，并进行了开源且可用于商业目的。新提出的Dolly2.0是一个120亿参数的语言模型，基于开源EleutherAI pythia模型系列，针对小型开源指令记录语料库进行了微调。\n\n        开源地址为：https:\u002F\u002Fhuggingface.co\u002Fdatabricks\u002Fdolly-v2-12b\n\n            https:\u002F\u002Fgithub.com\u002Fdatabrickslabs\u002Fdolly\n\n### Deep Speed Chat  （更新于2023年4月13日）\n\n        该项目带来了全民ChatGPT的时代，训练成本再次大幅降低。项目是微软基于其Deep Speed优化库开发而成，具备强化推理、RLHF模块、RLHF系统三大核心功能，可将训练速度提升15倍以上，成本却大幅度降低。例如，一个130亿参数的类ChatGPT模型，只需1.25小时就能完成训练。 \n\n        开源地址为：https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed\n        \n### Wombat （更新于2023年4月16日）\n\n        该项目采取了不同于RLHF的方式RRHF进行人类偏好对齐，RRHF相对于RLHF训练的模型量和超参数量远远降低。RRHF训练得到的Wombat-7B在性能上相比于Alpaca有显著的增加，和人类偏好对齐的更好。\n        \n        开源地址为：https:\u002F\u002Fgithub.com\u002FGanjinZero\u002FRRHF\n\n### Guanaco （更新于2023年4月16日）\n\n        Guanaco是一个基于目前主流的LLaMA-7B模型训练的指令对齐语言模型，原始52K数据的基础上，额外添加了534K+条数据，涵盖英语、日语、德语、简体中文、繁体中文（台湾）、繁体中文（香港）以及各种语言和语法任务。丰富的数据助力模型的提升和优化，其在多语言环境中展示了出色的性能和潜力。\n        \n        开源地址为：https:\u002F\u002Fgithub.com\u002FGuanaco-Model\u002FGuanaco-Model.github.io\n\n        （更新于2023年5月27日，Guanaco-65B）\n\n        最近华盛顿大学提出QLoRA，使用4 bit量化来压缩预训练的语言模型，然后冻结大模型参数，并将相对少量的可训练参数以Low-Rank Adapters的形式添加到模型中，模型体量在大幅压缩的同时，几乎不影响其推理效果。该技术应用在微调LLaMA 65B中，通常需要780GB的GPU显存，该技术只需要48GB，训练成本大幅缩减。\n\n        开源地址为：https:\u002F\u002Fgithub.com\u002Fartidoro\u002Fqlora\n\n### LLMZoo（凤凰Phoenix和Chimera） （更新于2023年4月16日）\n\n        LLMZoo，即LLM动物园开源项目维护了一系列开源大模型，其中包括了近期备受关注的来自香港中文大学（深圳）和深圳市大数据研究院的王本友教授团队开发的Phoenix（凤凰）和Chimera等开源大语言模型，其中文本效果号称接近百度文心一言，GPT-4评测号称达到了97%文心一言的水平，在人工评测中五成不输文心一言。\n\n        Phoenix 模型有两点不同之处：在微调方面，指令式微调与对话式微调的进行了优化结合；支持四十余种全球化语言。\n\n        开源地址为：https:\u002F\u002Fgithub.com\u002FFreedomIntelligence\u002FLLMZoo\n\n### OpenAssistant （更新于2023年4月16日）\n\n        OpenAssistant是一个开源聊天助手，其可以理解任务、与第三方系统交互、动态检索信息。据其说，其是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。该模型主要创新在于一个较大的人类反馈数据集（详细说明见数据篇），公开测试显示效果在人类对齐和毒性方面做的不错，但是中文效果尚有不足。\n\n        开源地址为：https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FOpen-Assistant\n\n        HuggingChat （更新于2023年4月26日）\n \n        HuggingChat是Huggingface继OpenAssistant推出的对标ChatGPT的开源平替。其能力域基本与ChatGPT一致，在英文等语系上效果惊艳，被成为ChatGPT目前最强开源平替。但笔者尝试了中文，可谓一塌糊涂，中文能力还需要有较大的提升。HuggingChat的底座是oasst-sft-6-llama-30b，也是基于Meta的LLaMA-30B微调的语言模型。\n\n        该项目的开源地址是：https:\u002F\u002Fhuggingface.co\u002FOpenAssistant\u002Foasst-sft-6-llama-30b-xor\n\n        在线体验地址是：https:\u002F\u002Fhuggingface.co\u002Fchat\n\n### StableLM （更新于2023年4月30日）\n\n        StableVicuna是一个Vicuna-13B v0（LLaMA-13B上的微调）的RLHF的微调模型。\n\n        StableLM-Alpha是以开源数据集the Pile（含有维基百科、Stack Exchange和PubMed等多个数据源）基础上训练所得，训练token量达1.5万亿。\n \n        为了适应对话，其在Stanford Alpaca模式基础上，结合了Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH.等数据集，微调获得模型StableLM-Tuned-Alpha\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableLM\n\n### 华驼(HuaTuo) （更新于2023年4月30日）\n\n        该模型垂直医学领域，经过中文医学指令精调\u002F指令集对原始LLaMA-7B模型进行了微调，增强了医学领域上的对话能力。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FSCIR-HI\u002FHuatuo-Llama-Med-Chinese\n\n### ChatRWKV(Raven) （更新于2023年5月7日）\n\n        该模型的底座采用了自主研发的RWKV语言模型，100% RNN，微调部分仍然是经典的Alpaca、CodeAlpaca、Guanaco、GPT4All、 ShareGPT等。其开源了1B5、3B、7B和14B的模型，目前支持中英两个语种，提供不同语种比例的模型文件。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FChatRWKV 或 https:\u002F\u002Fhuggingface.co\u002FBlinkDL\u002Frwkv-4-raven\n\n\n### SELF-ALIGN和Dromedary （更新于2023年5月9日）\n\n        目前大部分类ChatGPT基本都是采用人工对齐方式，如RLHF，Alpaca模式只是实现了ChatGPT的效仿式对齐，对齐能力受限于原始ChatGPT对齐能力。卡内基梅隆大学语言技术研究所、IBM 研究院MIT-IBM Watson AI Lab和马萨诸塞大学阿默斯特分校的研究者提出了一种全新的自对齐方法。其结合了原则驱动式推理和生成式大模型的生成能力，用极少的监督数据就能达到很好的效果。该项目工作成功应用在LLaMA-65b模型上，研发出了Dromedary（单峰骆驼）。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FIBM\u002FDromedary\n\n### LLaVA （更新于2023年4月19日）\n\n        LLaVA是一个多模态的语言和视觉对话模型，类似GPT-4，其主要还是在多模态数据指令工程上做了大量工作，目前开源了其13B的模型文件。从性能上，据了解视觉聊天相对得分达到了GPT-4的85%；多模态推理任务的科学问答达到了SoTA的92.53%。该项目的开源地址是：\n\n        https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA\n\n### miniGPT-4 （更新于2023年4月21日）\n \n        从名字上看，该项目对标GPT-4的能力域，实现了一个缩略版。该项目来自来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队。该模型利用两阶段的训练方法，先在大量对齐的图像-文本对上训练以获得视觉语言知识，然后用一个较小但高质量的图像-文本数据集和一个设计好的对话模板对预训练的模型进行微调，以提高模型生成的可靠性和可用性。该模型语言解码器使用Vicuna，视觉感知部分使用与BLIP-2相同的视觉编码器。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4\n\n### InstructBLIP （更新于2023年5月16日）\n \n        该项目与上述MiniGPT-4底层具有很大相通的地方，文本部分都使用了Vicuna，视觉部分则是BLIP-2微调而来。在论文和评测中，该模型在看图理解、逻辑推理和对话描述方面具有强大的优势，甚至号称超过GPT-4。InstructBLIP强大性能主要体现在视觉-语言指令数据集构建和训练上，使得模型对未知的数据和任务具有零样本能力。在指令微调数据上为了保持多样性和可及性，研究人员一共收集了涵盖了11个任务类别和28个数据集，并将它们转化为指令微调格式。同时其提出了一种指令感知的视觉特征提取方法，充分利用了BLIP-2模型中的Q-Former架构，指令文本不仅作为输入给到LLM，同时也给到了QFormer。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Finstructblip\n\n### BiLLa （更新于2023年5月19日）\n \n        BiLLa是开源的推理能力增强的中英双语LLaMA模型，该模型训练过程和Chinese-LLaMA-Alpaca有点类似，都是三阶段：词表扩充、预训练和指令精调。不同的是在增强预训练阶段，BiLLa加入了任务数据，且没有采用Lora技术，精调阶段用到的指令数据也丰富的多。该模型在逻辑推理方面进行了特别增强，主要体现在加入了更多的逻辑推理任务指令。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FNeutralzz\u002FBiLLa\n\n### Ziya-LLaMA-13B-v1 （更新于2023年5月19日）\n \n        该项目是由IDEA开源，被成为\"姜子牙\"，是在LLaMA-13B基础上训练而得。该模型也采用了三阶段策略，一是重新构建中文词表；二是在千亿token量级数据规模基础上继续预训练，使模型具备原生中文能力；最后经过500万条多任务样本的有监督微调（SFT）和综合人类反馈训练（RM+PPO+HFFT+COHFT+RBRS)，增强各种AI能力。其同时开源了一个评估集，包括常识类问答、推理、自然语言理解任务、数学、写作、代码、翻译、角色扮演、翻译9大类任务，32个子类，共计185个问题。\n\n        该项目的开源地址是：https:\u002F\u002Fhuggingface.co\u002FIDEA-CCNL\u002FZiya-LLaMA-13B-v1\n\n        评估集开源地址是：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FIDEA-CCNL\u002FZiya-Eval-Chinese\n\n### LaVIN （更新于2023年5月30日）\n \n        该项目的研究者提出了一种新的视觉-语言指令微调对齐的端到端的经济方案，其称之为多模态适配器（MMA）。其巨大优势是只需要轻量化的适配器训练即可打通视觉和语言之间的桥梁，无需像LLaVa那样需要全量微调，因此成本大大降低。项目研究者还通过52k纯文本指令和152k文本-图像对，微调训练成一个多模态聊天机器人，具有较好的的视觉-语言理解能力。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fluogen1996\u002FLaVIN\n\n### Lion （更新于2023年5月30日）\n \n        该模型由港科大发布，主要是针对闭源大语言模型的对抗蒸馏思想，将ChatGPT的知识转移到了参数量LLaMA-7B模型上，训练数据只有70K，实现了近95%的ChatGPT能力，效果相当显著。该工作主要针对传统Alpaca等只有从闭源大模型单项输入的缺点出发，创新性提出正反馈循环机制，通过对抗式学习，使得闭源大模型能够指导学生模型应对难的指令，大幅提升学生模型的能力。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FYJiangcm\u002FLion\n\n### VPGTrans （更新于2023年6月12日）\n \n        最近多模态大模型成为开源主力，VPGTrans是其中一个，其动机是利用低成本训练一个多模态大模型。其一方面在视觉部分基于BLIP-2，可以直接将已有的多模态对话模型的视觉模块迁移到新的语言模型；另一方面利用VL-LLaMA和VL-Vicuna为各种新的大语言模型灵活添加视觉模块。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FVPGTrans\u002FVPGTrans\n\n### TigerBot（更新于2023年6月15日）\n \n        TigerBot是一个基于BLOOM框架的大模型，在监督指令微调、可控的事实性和创造性、并行训练机制和算法层面上都做了相应改进。本次开源项目共开源7B和180B，是目前开源参数规模最大的。除了开源模型外，其还开源了其用的指令数据集。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FTigerResearch\u002FTigerBot\n\n### WizadLM（更新于2023年6月20日）\n \n        该模型是微软提出的在LLaMa基础上的微调模型，其核心采用了一种Evol-Instruct（进化指令）的思想。Evol-Instruct使用LLM生成大量不同复杂度级别的指令数据，其基本思想是从一个简单的初始指令开始，然后随机选择深度进化（将简单指令升级为更复杂的指令）或广度进化（在相关话题下创建多样性的新指令）。同时，其还提出淘汰进化的概念，即采用指令过滤器来淘汰出失败的指令。该模型以其独到的指令加工方法，一举夺得AlpacaEval的开源模型第一名。同时该团队又发布了WizardCoder-15B大模型，该模型专注代码生成，在HumanEval、HumanEval+、MBPP以及DS1000四个代码生成基准测试中，都取得了较好的成绩。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fnlpxucan\u002FWizardLM\n\n### OpenChat（更新于2023年7月3日）\n \n        OpenChat一经开源和榜单评测公布，引发热潮评论，其在Vicuna GPT-4评测中，性能超过了ChatGPT，在AlpacaEval上也以80.9%的胜率夺得开源榜首。从模型细节上看也是基于LLaMA-13B进行了微调，只用到了6K GPT-4对话微调语料，能达到这个程度确实有点出乎意外。目前开源版本有OpenChat-2048和OpenChat-8192。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fimoneoi\u002Fopenchat\n\n### BayLing 百聆（更新于2023年7月3日）\n \n        百聆（BayLing）是一个具有增强的跨语言对齐的通用大模型，由中国科学院计算技术研究所自然语言处理团队开发。BayLing以LLaMA为基座模型，探索了以交互式翻译任务为核心进行指令微调的方法，旨在同时完成语言间对齐以及与人类意图对齐，将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言（中文）。在多语言翻译、交互翻译、通用任务、标准化考试的测评中，百聆在中文\u002F英语中均展现出更好的表现，取得众多开源大模型中最佳的翻译能力，取得ChatGPT 90%的通用任务能力。BayLing开源了7B和13B的模型参数，以供后续翻译、大模型等相关研究使用。\n\n        该项目开源地址是：[https:\u002F\u002Fgithub.com\u002Fimoneoi\u002Fopenchat](https:\u002F\u002Fgithub.com\u002Fictnlp\u002FBayLing)\n\n        在线体验地址是：[http:\u002F\u002Fnlp.ict.ac.cn\u002Fbayling\u002Fdemo](http:\u002F\u002Fnlp.ict.ac.cn\u002Fbayling\u002Fdemo)\n\n### ChatLaw（更新于2023年7月6日）\n \n        ChatLaw是由北大团队发布的面向法律领域的垂直大模型，其一共开源了三个模型：ChatLaw-13B，基于姜子牙Ziya-LLaMA-13B-v1训练而来，但是逻辑复杂的法律问答效果不佳；ChatLaw-33B，基于Anima-33B训练而来，逻辑推理能力大幅提升，但是因为Anima的中文语料过少，导致问答时常会出现英文数据；ChatLaw-Text2Vec，使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型，可将用户提问信息和对应的法条相匹配，\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FChatLaw\n\n### 飞天羊驼AlpaGasus（更新于2023年8月8日）\n \n        该项目是马里兰、三星和南加大的研究人员提出的，其针对Alpaca等方法构架的数据中包括很多质量低下的数据问题，提出了一种利用LLM自动识别和删除低质量数据的数据选择策略，不仅在测试中优于原始的Alpaca，而且训练速度更快。其基本思路是利用强大的外部大模型能力（如ChatGPT）自动评估每个（指令，输入，回应）元组的质量，对输入的各个维度如Accurac、Helpfulness进行打分，并过滤掉分数低于阈值的数据。\n\n        该项目开源地址是：https:\u002F\u002Flichang-chen.github.io\u002FAlpaGasus\n\n## 三、LLaMa-2篇\n\n        2023年7月18日，Meta正式发布最新一代开源大模型，不但性能大幅提升，更是带来了商业化的免费授权，这无疑为万模大战更添一新动力，并推进大模型的产业化和应用。此次LLaMA2共发布了从70亿、130亿、340亿以及700亿参数的预训练和微调模型，其中预训练过程相比1代数据增长40%（1.4T到2T），上下文长度也增加了一倍（2K到4K），并采用分组查询注意力机制（GQA）来提升性能；微调阶段，带来了对话版Llama 2-Chat，共收集了超100万条人工标注用于SFT和RLHF。但遗憾的是原生模型对中文支持仍然较弱，采用的中文数据集并不多，只占0.13%。\n\n        随着LLaMa 2的开源开放，一些优秀的LLaMa 2微调版开始涌现：\n\n### Baby LLaMA 2 （更新于2023年8月8日）\n\n        该项工作是OpenAI创始成员Andrej Karpathy的一个比较有意思的项目，中文俗称羊驼宝宝2代，该模型灵感来自llama.cpp，只有1500万参数，但是效果不错，能说会道。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fkarpathy\u002Fllama2.c\n\n### FreeWilly2 （更新于2023年8月8日）\n\n        该项目是由Stability AI和CarperAI实验室联合发布的基于LLaMA-2-70B模型的微调模型，模型采用了Alpaca范式，并经过SFT的全新合成数据集来进行训练，是LLaMA-2微调较早的成果之一。该模型在很多方面都表现出色，包括复杂的推理、理解语言的微妙之处，以及回答与专业领域相关的复杂问题。\n\n        该项目开源地址是：https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002FFreeWilly2\n\n### Chinese-Llama-2-7b （更新于2023年8月8日）\n\n        该项目是由国内AI初创公司LinkSoul.Al推出，其在Llama-2-7b的基础上使用了1000万的中英文SFT数据进行微调训练，大幅增强了中文能力，弥补了原生模型在中文上的缺陷。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FLinkSoul-AI\u002FChinese-Llama-2-7b\n\n### OpenBuddy-LLaMA2-13B （更新于2023年8月8日）\n\n        该项目是由OpenBuddy团队发布的，是基于Llama-2微调后的另一个中文增强模型。\n\n        该项目开源地址是：https:\u002F\u002Fhuggingface.co\u002FOpenBuddy\u002Fopenbuddy-llama2-13b-v8.1-fp16\n\n### Linly-Chinese-LLaMA-2 （更新于2023年8月14日）\n\n        该项目简化了主流的预训练+精调两阶段训练流程，训练使用包含不同数据源的混合数据，其中无监督语料包括中文百科、科学文献、社区问答、新闻等通用语料，提供中文世界知识；英文语料包含 SlimPajama、RefinedWeb 等数据集，用于平衡训练数据分布，避免模型遗忘已有的知识；以及中英文平行语料，用于对齐中英文模型的表示，将英文模型学到的知识快速迁移到中文上。有监督数据包括基于self-instruction构建的指令数据集，例如 BELLE、Alpaca、Baize、InstructionWild等；使用人工prompt构建的数据例如FLAN、COIG、Firefly、pCLUE等。在词典扩充方面，该项目扩充了8076个常用汉字和标点符号。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FCVI-SZU\u002FLinly\n\n## 四、通向AGI的开源之路\n\n        ChatGPT的出现使大家振臂欢呼AGI时代的到来，是打开通用人工智能的一把关键钥匙。但ChatGPT仍然是一种人机交互对话形式，针对你唤醒的指令问题进行作答，还没有产生通用的自主的能力。但随着AutoGPT的出现，人们已经开始向这个方向大跨步的迈进。\n\n### AutoGPT （更新于2023年4月26日）\n \n        AutoGPT已经大火了一段时间，也被称为ChatGPT通往AGI的开山之作，截止4.26日已达114K星。AutoGPT虽然是用了GPT-4等的底座，但是这个底座可以进行迁移适配到开源版。其最大的特点就在于能全自动地根据任务指令进行分析和执行，自己给自己提问并进行回答，中间环节不需要用户参与，将“行动→观察结果→思考→决定下一步行动”这条路子给打通并循环了起来，使得工作更加的高效，更低成本。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT\n\n### OpenAGI （更新于2023年4月26日）\n \n        OpenAGI将复杂的多任务、多模态进行语言模型上的统一，重点解决可扩展性、非线性任务规划和定量评估等AGI问题。OpenAGI的大致原理是将任务描述作为输入大模型以生成解决方案，选择和合成模型，并执行以处理数据样本，最后评估语言模型的任务解决能力可以通过比较输出和真实标签的一致性。OpenAGI内的专家模型主要来自于Hugging Face的transformers、diffusers以及Github库。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fagiresearch\u002FOpenAGI\n\n### BabyAGI （更新于2023年5月12日）\n \n        BabyAGI是仅次于AutoGPT火爆的AGI，运行方式类似AutoGPT，但具有不同的任务导向喜好。BabyAGI除了理解用户输入任务指令，他还可以自主探索，完成创建任务、确定任务优先级以及执行任务等操作。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fyoheinakajima\u002Fbabyagi\n\n### Transformers Agent （更新于2023年5月12日）\n \n        提起Agent，不免想起langchain agent，langchain的思想影响较大，其中AutoGPT就是借鉴了其思路。langchain agent可以支持用户根据自己的需求自定义插件，描述插件的具体功能，通过统一输入决定采用不同的插件进行任务处理，其后端统一接入LLM进行具体执行。\n\n        最近Huggingface开源了自己的Transformers Agent，其可以控制10万多个Hugging Face模型完成各种任务，通用智能也许不只是一个大脑，而是一个群体智慧结晶。其基本思路是agent充分理解你输入的意图，然后将其转化为Prompt，并挑选合适的模型去完成任务。\n\n        该项目的开源地址是：https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Ftransformers_agents\n\n### GirlfriendGPT （更新于2023年6月1日）\n \n        GPT-4的诞生，AI生成能力的大幅度跃迁，使人们开始更加关注数字人问题。通用人工智能的形态可能是更加智能、自主的人形智能体，他可以参与到我们真实生活中，给人类带来不一样的交流体验。近期，GitHub上开源了一个有意思的项目GirlfriendGPT，可以将现实中的女友克隆成虚拟女友，进行文字、图像、语音等不通模态的自主交流。\n\n        GirlfriendGPT现在可能只是一个toy级项目，但是随着AIGC的阶梯性跃迁变革，这样的陪伴机器人、数字永生机器人、冻龄机器人会逐渐进入人类的视野，并参与到人的社会活动中。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FEniasCailliau\u002FGirlfriendGPT\n\n### Camel AGI （更新于2023年7月6日）\n \n        Camel AGI早在3月份就被发布了出来，比AutoGPT等都要早，其提出了提出了一个角色扮演智能体框架，可以实现两个人工智能智能体的交流。Camel的核心本质是提示工程， 这些提示被精心定义，用于分配角色，防止角色反转，禁止生成有害和虚假的信息，并鼓励连贯的对话。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel\n\n### 西部世界小镇 （更新于2023年8月14日）\n \n        《西部世界小镇》是由斯坦福基于chatgpt打造的多智能体社区，论文一经发布爆火，英伟达高级科学家Jim Fan甚至认为\"斯坦福智能体小镇是2023年最激动人心的AI Agent实验之一\"，当前该项目迎来了重磅开源，很多人相信，这标志着AGI的开始。该项目中采用了一种全新的多智能体架构，在小镇中打造了25个智能体，他们能够使用自然语言存储各自的经历，并随着时间发展存储记忆，智能体在工作时会动态检索记忆从而规划自己的行为。\n\n        智能体和传统的语言模型能力最大的区别是自主意识，西部世界小镇中的智能体可以做到相互之间的社会行为，他们通过不断地\"相处\"，形成新的关系，并且会记住自己与其他智能体的互动。智能体本身也具有自我规划能力，在执行规划的过程中，生成智能体会持续感知周围环境，并将感知到的观察结果存储到记忆流中，通过利用观察结果作为提示，让语言模型决定智能体下一步行动：继续执行当前规划，还是做出其他反应。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fjoonspk-research\u002Fgenerative_agents\n\n## 五、榜单篇\n\n        ChatGPT引爆了大模型的火山式喷发，琳琅满目的大模型出现在我们目前，本项目也汇聚了特别多的开源模型。但这些模型到底水平如何，还需要标准的测试。截止目前，大模型的评测逐渐得到重视，一些评测榜单也相继发布，因此，也汇聚在此处，供大家参考，以辅助判断模型的优劣。\n\n### Huggingface的Open LLM Leaderboard \n\n        该榜单评测4个大的任务：AI2 Reasoning Challenge (25-shot)，小学科学问题评测集；HellaSwag (10-shot)，尝试推理评测集；MMLU (5-shot)，包含57个任务的多任务评测集；TruthfulQA (0-shot)，问答的是\u002F否测试集。\n\n        榜单部分如下，详见：https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard\n\n        更新于2023年8月8日\n\n![Open LLM Leaderboard 更新于2023年6月13日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_f24aadd6405d.png)\n\n### C-Eval \n\n        该榜单旨在构造中文大模型的知识评估基准，其构造了一个覆盖人文，社科，理工，其他专业四个大方向，52个学科的13948道题目，范围遍布从中学到大学研究生以及职业考试。其数据集包括三类，一种是标注的问题、答案和判断依据，一种是问题和答案，一种是完全测试集。\n\n        榜单部分如下，详见：https:\u002F\u002Fcevalbenchmark.com\u002Fstatic\u002Fleaderboard.html\n\n        更新于2023年8月8日\n\n![C-Eval  更新于2023年6月13日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_06164cfc7808.png)\n\n### SuperCLUE琅琊榜\n\n        该榜单来自中文语言理解测评基准开源社区CLUE，其旨在构造一个中文大模型匿名对战平台，利用Elo评分系统进行评分。\n\n        榜单部分如下，详见：https:\u002F\u002Fwww.superclueai.com\u002F\n\n        更新于2023年8月8日\n\n![SuperCLUE 更新于2023年6月13日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_e59270f74a63.png)\n\n### AlpacaEval\n\n        该榜单由Alpaca的提出者斯坦福发布，是一个以指令微调模式语言模型的自动评测榜，该排名采用GPT-4\u002FClaude作为标准。\n\n        榜单部分如下，详见：https:\u002F\u002Ftatsu-lab.github.io\u002Falpaca_eval\u002F\n\n                更新于2023年8月8日\n\n![AlpacaEval 更新于2023年6月15日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_3301f132f918.png)\n\n## 六、语料篇\n\n### 开源传统对话语料\n\n1. LCCC，数据集有base与large两个版本，各包含6.8M和12M对话。这些数据是从79M原始对话数据中经过严格清洗得到的，包括微博、贴吧、小黄鸡等。\n\n   https:\u002F\u002Fgithub.com\u002Fthu-coai\u002FCDial-GPT#Dataset-zh\n\n### 指令集+答案\n\n1. Stanford-Alpaca数据集，52K的英文，采用Self-Instruct技术获取，数据已开源：\n   \n   https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\u002Fblob\u002Fmain\u002Falpaca_data.json\n2. 中文Stanford-Alpaca数据集，52K的中文数据，通过机器翻译翻译将Stanford-Alpaca翻译筛选成中文获得：\n\n   https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca\u002Fblob\u002Fmain\u002Fdata\u002Falpaca_data_zh_51k.json\n3. pCLUE数据，基于提示的大规模预训练数据集，根据CLUE评测标准转化而来，数据量较大，有300K之多\n\n   https:\u002F\u002Fgithub.com\u002FCLUEbenchmark\u002FpCLUE\u002Ftree\u002Fmain\u002Fdatasets\n4. Belle数据集，主要是中文，目前有2M和1.5M两个版本，都已经开源，数据获取方法同Stanford-Alpaca\n\n    3.5M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_3.5M_CN\n\n    2M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_2M_CN\n   \n   1M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_1M_CN\n\n   0.5M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_0.5M_CN\n\n    0.8M多轮对话：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Fmultiturn_chat_0.8M\n5. 微软GPT-4数据集，包括中文和英文数据，采用Stanford-Alpaca方式，但是数据获取用的是GPT-4\n   \n   中文：https:\u002F\u002Fgithub.com\u002FInstruction-Tuning-with-GPT-4\u002FGPT-4-LLM\u002Fblob\u002Fmain\u002Fdata\u002Falpaca_gpt4_data_zh.json\n   \n   英文：https:\u002F\u002Fgithub.com\u002FInstruction-Tuning-with-GPT-4\u002FGPT-4-LLM\u002Fblob\u002Fmain\u002Fdata\u002Falpaca_gpt4_data.json\n\n6. ShareChat数据集，其将ChatGPT上获取的数据清洗\u002F翻译成高质量的中文语料，从而推进国内AI的发展，让中国人人可炼优质中文Chat模型，约约九万个对话数据，英文68000，中文11000条。\n\n   https:\u002F\u002Fparatranz.cn\u002Fprojects\u002F6725\u002Ffiles\n7. OpenAssistant Conversations， 该数据集是由LAION AI等机构的研究者收集的大量基于文本的输入和反馈的多样化和独特数据集。该数据集有161443条消息，涵盖35种不同的语言。该数据集的诞生主要是众包的形式，参与者超过了13500名志愿者，数据集目前面向所有人开源开放。\n\n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenAssistant\u002Foasst1\n8. firefly-train-1.1M数据集，该数据集是一份高质量的包含1.1M中文多任务指令微调数据集，包含23种常见的中文NLP任务的指令数据。对于每个任务，由人工书写若干指令模板，保证数据的高质量与丰富度。利用该数据集，研究者微调训练了一个中文对话式大语言模型（Firefly(流萤)）。\n   \n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FYeungNLP\u002Ffirefly-train-1.1M\n9. LLaVA-Instruct-150K，该数据集是一份高质量多模态指令数据，综合考虑了图像的符号化表示、GPT-4、提示工程等。\n\n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliuhaotian\u002FLLaVA-Instruct-150K\n10. UltraChat，该项目采用了两个独立的ChatGPT Turbo API来确保数据质量，其中一个模型扮演用户角色来生成问题或指令，另一个模型生成反馈。该项目的另一个质量保障措施是不会直接使用互联网上的数据作为提示。UltraChat对对话数据覆盖的主题和任务类型进行了系统的分类和设计，还对用户模型和回复模型进行了细致的提示工程，它包含三个部分：关于世界的问题、写作与创作和对于现有资料的辅助改写。该数据集目前只放出了英文版，期待中文版的开源。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstingning\u002Fultrachat\n11. MOSS数据集，MOSS在开源其模型的同时，开源了部分数据集，其中包括moss-002-sft-data、moss-003-sft-data、moss-003-sft-plugin-data和moss-003-pm-data，其中只有moss-002-sft-data完全开源，其由text-davinci-003生成，包括中、英各约59万条、57万条。 \n\n    moss-002-sft-data：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ffnlp\u002Fmoss-002-sft-data\n12. Alpaca-CoT，该项目旨在构建一个多接口统一的轻量级指令微调（IFT）平台，该平台具有广泛的指令集合，尤其是CoT数据集。该项目已经汇集了不少规模的数据，项目地址是：\n\n    https:\u002F\u002Fgithub.com\u002FPhoebusSi\u002FAlpaca-CoT\u002Fblob\u002Fmain\u002FCN_README.md\n13. zhihu_26k，知乎26k的指令数据，中文，项目地址是：\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliyucheng\u002Fzhihu_26k\n14. Gorilla APIBench指令数据集，该数据集从公开模型Hub（TorchHub、TensorHub和HuggingFace。）中抓取的机器学习模型API，使用自指示为每个API生成了10个合成的prompt。根据这个数据集基于LLaMA-7B微调得到了Gorilla，但遗憾的是微调后的模型没有开源：\n\n    https:\u002F\u002Fgithub.com\u002FShishirPatil\u002Fgorilla\u002Ftree\u002Fmain\u002Fdata\n15. GuanacoDataset 在52K Alpaca数据的基础上，额外添加了534K+条数据，涵盖英语、日语、德语、简体中文、繁体中文（台湾）、繁体中文（香港）等。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJosephusCheung\u002FGuanacoDataset\n16. ShareGPT，ShareGPT是一个由用户主动贡献和分享的对话数据集，它包含了来自不同领域、主题、风格和情感的对话样本，覆盖了闲聊、问答、故事、诗歌、歌词等多种类型。这种数据集具有很高的质量、多样性、个性化和情感化，目前数据量已达160K对话。\n\n    https:\u002F\u002Fsharegpt.com\u002F\n17. HC3，其是由人类-ChatGPT 问答对比组成的数据集，总共大约87k\n\n    中文：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHello-SimpleAI\u002FHC3-Chinese\n    英文：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHello-SimpleAI\u002FHC3\n18. OIG，该数据集涵盖43M高质量指令，如多轮对话、问答、分类、提取和总结等。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flaion\u002FOIG\n19. COIG，由BAAI发布中文通用开源指令数据集，相比之前的中文指令数据集，COIG数据集在领域适应性、多样性、数据质量等方面具有一定的优势。目前COIG数据集主要包括：通用翻译指令数据集、考试指令数据集、价值对其数据集、反事实校正数据集、代码指令数据集。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FCOIG\n20. gpt4all-clean，该数据集由原始的GPT4All清洗而来，共374K左右大小。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcrumb\u002Fgpt4all-clean\n21. baize数据集，100k的ChatGPT跟自己聊天数据集\n\n    https:\u002F\u002Fgithub.com\u002Fproject-baize\u002Fbaize-chatbot\u002Ftree\u002Fmain\u002Fdata\n22. databricks-dolly-15k，由Databricks员工在2023年3月-4月期间人工标注生成的自然语言指令。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdatabricks\u002Fdatabricks-dolly-15k\n23. chinese_chatgpt_corpus，该数据集收集了5M+ChatGPT样式的对话语料，源数据涵盖百科、知道问答、对联、古文、古诗词和微博新闻评论等。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fsunzeyeah\u002Fchinese_chatgpt_corpus\n24. kd_conv，多轮对话数据，总共4.5K条，每条都是多轮对话，涉及旅游、电影和音乐三个领域。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkd_conv\n25. Dureader，该数据集是由百度发布的中文阅读理解和问答数据集，在2017年就发布了，这里考虑将其列入在内，也是基于其本质也是对话形式，并且通过合理的指令设计，可以讲问题、证据、答案进行巧妙组合，甚至做出一些CoT形式，该数据集超过30万个问题，140万个证据文档，66万的人工生成答案，应用价值较大。\n\n    https:\u002F\u002Faistudio.baidu.com\u002Faistudio\u002Fdatasetdetail\u002F177185\n26. logiqa-zh，逻辑理解问题数据集，根据中国国家公务员考试公开试题中的逻辑理解问题构建的，旨在测试公务员考生的批判性思维和问题解决能力\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fjiacheng-ye\u002Flogiqa-zh\n\n### 仅指令集\n\n1. awesome-chatgpt-prompts，该项目基本通过众筹的方式，大家一起设计Prompts，可以用来调教ChatGPT，也可以拿来用Stanford-alpaca形式自行获取语料，有中英两个版本：\n\n   英文：https:\u002F\u002Fgithub.com\u002Ff\u002Fawesome-chatgpt-prompts\u002Fblob\u002Fmain\u002Fprompts.csv\n   \n   简体中文：https:\u002F\u002Fgithub.com\u002FPlexPt\u002Fawesome-chatgpt-prompts-zh\u002Fblob\u002Fmain\u002Fprompts-zh.json\n\n   中国台湾繁体：https:\u002F\u002Fgithub.com\u002FPlexPt\u002Fawesome-chatgpt-prompts-zh\u002Fblob\u002Fmain\u002Fprompts-zh-TW.json\n   \n### RLHF\n\n1. PKU-Beaver，该项目首次公开了RLHF所需的数据集、训练和验证代码，是目前首个开源的可复现的RLHF基准。其首次提出了带有约束的价值对齐技术CVA，旨在解决人类标注产生的偏见和歧视等不安全因素。但目前该数据集只有英文。\n\n   英文：https:\u002F\u002Fgithub.com\u002FPKU-Alignment\u002Fsafe-rlhf\n\n2. zhihu_rlhf_3k，基于知乎的强化学习反馈数据集，使用知乎的点赞数来作为评判标准，将同一问题下的回答构成正负样本对（chosen or reject）。\n\n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliyucheng\u002Fzhihu_rlhf_3k\n","# 寻找那些ChatGPT\u002FGPT4开源“平替”们\nChatGPT\u002FGPT4开源“平替”汇总，持续更新\n\nChatGPT爆火出圈，国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源，复现难度极大，即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚，OpenAI又官宣发布了图文多模态的GPT4模型，能力相对ChatGPT又是大幅提升，似乎闻到了以通用人工智能主导的第四次工业革命的味道。\n\n无论是国外还是国内，目前距离OpenAI的差距越来越大，大家都在紧锣密鼓的追赶，以致于在这场技术革新中处于一定的优势地位，目前很多大型企业的研发基本上都是走闭源路线，ChatGPT和GPT4官方公布的细节很少，也不像之前发个几十页的论文介绍，OpenAI的商业化时代已经到来。当然，也有一些组织或者个人在开源平替上进行了探索，本文章汇总如下，本人也会持续跟踪，有更新的开源平替及时更新此处\n\n## 一、自主模型篇\n        该类方法主要采用非LLAMA等微调方式，自主设计或者优化GPT、T5模型，并实现从预训练、监督微调、强化学习等全周期过程。\n### ChatYuan\n\n        ChatYuan（元语AI）是由元语智能开发团队开发和发布的，自称第一个国内最早的一个功能型对话大模型，可以写文章、写作业、写诗歌、做中英文间的翻译；一些法律等特定领域问题也可以提供相关信息。该模型目前只支持中文，github链接是：\n\n        https:\u002F\u002Fgithub.com\u002Fclue-ai\u002FChatYuan\n\n        从披露的技术细节看，底层采用7亿参数规模的T5模型，并基于PromptClue进行了监督微调形成了ChatYuan。该模型基本上是ChatGPT技术路线的三步的第一步，没有实现奖励模型训练和PPO强化学习训练。\n\n### Colossal AI\n\n        最近，ColossalAI开源了他们的ChatGPT实现。分享了他们的三步策略，完整实现了ChatGPT核心的技术路线：其Github如下：\n\n        https:\u002F\u002Fgithub.com\u002Fhpcaitech\u002FColossalAI\n\n        本人基于该项目，更加明确了三步策略，并进行了分享：\n\n        第一阶段（stage1_sft.py）：SFT监督微调阶段，该开源项目没有实现，这个比较简单，因为ColossalAI无缝支持Huggingface，本人直接用Huggingface的Trainer函数几行代码轻松实现，在这里我用了一个gpt2模型，从其实现上看，其支持GPT2、OPT和BLOOM模型；\n\n        第二阶段（stage2_rm.py）：奖励模型（RM）训练阶段，即项目Examples里train_reward_model.py部分；\n\n        第三阶段（stage3_ppo.py）：强化学习（RLHF）阶段，即项目train_prompts.py\n\n        三个文件的执行需要放在ColossalAI项目中，其中代码中的cores即原始工程中的chatgpt，cores.nn在原始工程中变成了chatgpt.models\n\n### ChatGLM\n\n        ChatGLM是清华技术成果转化的公司智谱AI开源的GLM系列的对话模型，支持中英两个语种，目前开源了其62亿参数量的模型。其继承了GLM之前的优势，在模型架构上进行了优化，从而使得部署和应用门槛变低，实现大模型在消费级显卡上的推理应用。详细技术可以参考其github：\n\n        ChatGLM-6B开源地址为：https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B\n\n        从技术路线上看，其实现了ChatGPT强化学习人类对齐策略，使得生成效果更佳贴近人类价值，其目前能力域主要包括自我认知、提纲写作、文案写作、邮件写作助手、信息抽取、角色扮演、评论比较、旅游建议等，目前其已经开发了正在内测的1300亿的超大模型，算是目前开源平替里面参数规模较大的对话大模型。\n\n        VisualGLM-6B（更新于2023年5月19日）\n\n        该团队近期开源了ChatGLM-6B的多模态版，支持图像、中文和英文的多模态对话。语言模型部分采用ChatGLM-6B，图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。VisualGLM-6B依靠来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。\n\n        VisualGLM-6B开源地址为：https:\u002F\u002Fgithub.com\u002FTHUDM\u002FVisualGLM-6B\n\n        ChatGLM2-6B（更新于2023年6月27日）\n\n        该团队近期开源了ChatGLM的二代版本ChatGLM2-6B，相对第一代版本，其主要特性包括采用了更大的数据规模，从1T提升到1.4T；最突出的莫过于其更长的上下文支持，从2K扩展到了32K，允许更长和更高轮次的输入；另外起大幅优化了推理速度，提升了42%，占用的显存资源也大幅降低。\n\n        ChatGLM2-6B开源地址为：https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM2-6B\n\n### PaLM-rlhf-pytorch\n\n        其号称首个开源ChatGPT平替项目，其基本思路是基于谷歌语言大模型PaLM架构，以及使用从人类反馈中强化学习的方法（RLHF）。PaLM是谷歌在今年4月发布的5400亿参数全能大模型，基于Pathways系统训练。其可以完成写代码、聊天、语言理解等任务，并且在大多数任务上具有强大的少样本学习性能。同时采用了ChatGPT一样的强化学习机制，能让AI的回答更加符合情景要求，降低模型毒性。\n       \n        Github地址为：https:\u002F\u002Fgithub.com\u002Flucidrains\u002FPaLM-rlhf-pytorch\n\n### GPTrillion \n\n        该项目号称开源的最大规模模型，高达1.5万亿，且是多模态的模型。其能力域包括自然语言理解、机器翻译、智能问答、情感分析和图文匹配等。其开源地址为：\n        \n        https:\u002F\u002Fhuggingface.co\u002Fbanana-dev\u002FGPTrillion\n\n        （2023年5月24日，该项目是愚人节玩笑节目，项目已删除，特此说明）\n\n        \n### OpenFlamingo\n\n        OpenFlamingo是一个对标GPT-4、支持大型多模态模型训练和评估的框架，由非盈利机构LAION重磅开源发布，其是对DeepMind的Flamingo模型的复现。目前开源的是其基于LLaMA的 OpenFlamingo-9B模型。Flamingo模型在包含交错文本和图像的大规模网络语料库上进行训练，具备上下文少样本学习能力。OpenFlamingo实现了原始Flamingo中提出的相同架构，在一个新的多模态C4数据集的5M样本和LAION-2B的10M样本上训练而来。该项目的开源地址是：\n \n        https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fopen_flamingo\n\n### MOSS （更新于2023年4月21日）\n\n        今年2月21日，复旦大学发布了MOSS，并开放公测，在公测崩溃后引起一些争议。现在该项目迎来重要更新和开源。开源的MOSS支持中英两个语种，且支持插件化，如解方程、搜索等。参数量大16B，在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。该项目的开源地址是：\n\n        https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FMOSS\n\n### mPLUG-Owl （更新于2023年5月7日）\n \n        与miniGPT-4、LLaVA类似，其是一个对标GPT-4的开源多模态大模型，其延续了mPLUG系列的模块化训练思想。其目前开源了7B参数量的模型，同时第一次针对视觉相关的指令理解提出一个全⾯的测试集 OwlEval，通过人工评测对比了已有模型，包括LLaVA、MiniGPT-4等工作，其展示出更优的多模态能力，尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方⾯表现突出。目前遗憾的是跟其他图文大模型一样，仍然只支持英文，但中文版已在其待开源List中。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl\n\n### PandaLM （更新于2023年5月9日）\n \n        PandaLM是一个模型评估大模型，旨在对其他大模型生成内容的偏好进行自动评价，节省人工评估成本。PandaLM自带有Web界面进行分析，同时还支持Python代码调用，仅用三行代码即可对任意模型和数据生成的文本评估，使用很方便。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FWeOpenML\u002FPandaLM\n\n### 悟道·天鹰 （更新于2023年6月12日）\n \n        在近期召开的智源大会上，智源研究院开源了其悟道·天鹰大模型，具备中英双语知识。开源版本的基础模型参数量包括70亿和330亿，同时其开源了AquilaChat对话模型和quilaCode文本-代码生成模型，且都已经开放了商业许可。Aquila采用GPT-3、LLaMA等Decoder-only架构，同时针对中英双语更新了词表，并采用其加速训练方法。其性能上的保障不仅依赖于模型的优化改进，还得益于智源这几年在大模型高质量数据上的积累。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FFlagAI-Open\u002FFlagAI\u002Ftree\u002Fmaster\u002Fexamples\u002FAquila\n\n### CoDi（更新于2023年6月12日）\n \n        近期，微软重磅发表多模态大模型论文和开源代码-CoDi，彻底打通文本-语音-图像-视频，支持任意输入，任意模态输出。为了达到任意模态的生成，研究者将训练分为两个阶段，第一个阶段作者利用桥接对齐策略，组合条件进行训练，给每个模态都打造一个潜在扩散模型；第二个阶段给每个潜在扩散模型和环境编码器上增加一个交叉注意力模块，就能将潜在扩散模型的潜变量投射到共享空间中，使得生成的模态也进一步多样化。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fi-Code\u002Ftree\u002Fmain\u002Fi-Code-V3\n\n### ImageBind（更新于2023年6月12日）\n \n        Meta重磅推出和开源其多模态大模型ImageBind，可以实现跨6种模态，包括图像、视频、音频、深度、热量和空间运动，ImageBind通过使用图像的绑定特性，利用大型视觉语言模型和零样本能力扩展到新的模态来解决对齐问题。图像配对数据足以将这六种模态绑定在一起，允许不同的模式彼此打通模态割裂。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind\n\n### baichuan-7B（更新于2023年6月15日）\n \n        2023年4月10日，王小川官宣创办AI大模型公司“百川智能”，旨在打造中国版的OpenAI。在成立了两个月后，百川智能重磅开源其自主研发的baichuan-7B模型，支持中英文。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上，以显著优势全面超过了ChatGLM-6B等其他大模型，并且在MMLU英文权威评测榜单上，大幅领先LLaMA-7B。该模型在高质量数据上达到万亿token规模，并基于高效的attention算子优化支持上万超长动态窗口的扩张能力，目前开源支持4K上下文能力。该开源模型可以商用，比LLaMA更加友好。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002Fbaichuan-7B\n\n### XVERSE-13B（更新于2023年8月8日）\n \n        2023年8月6日，元象XVERSE团队开源XVERSE-13B模型，该模型是一个多语言大模型，支持语种多达40+，支持上下文语境长度达8192，根据团队介绍，该模型特点有：模型结构：XVERSE-13B使用主流Decoder-only的标准Transformer结构，支持8K的上下文长度，为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求；训练数据：构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果；分词：基于BPE算法，使用上百GB语料训练了一个词表大小为100,278的分词器，能够同时支持多语言，而无需额外扩展词表；训练框架：自主研发多项关键技术，包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等，让训练效率更高，模型稳定性强，在千卡集群上的峰值算力利用率可达到58.5%，位居业界前列。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fxverse-ai\u002FXVERSE-13B\n\n### 通义千问Qwen-7B（更新于2023年8月8日）\n \n        2023年8月3日，阿里通义千问70亿模型开源，包括通用模型和对话模型，并且开源、免费、可商用。据介绍，Qwen-7B是基于Transformer的大语言模型，在超大规模预训练数据上训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。它是支持中、英等多种语言的基座模型，在超过2万亿token数据集上训练，上下文窗口长度达到8k。Qwen-7B-Chat是基于Qwen-7B基座模型的中英文对话模型。通义千问7B预训练模型在多个权威基准测评中表现出色，中英文能力远超国内外同等规模开源模型，部分能力甚至超过了12B、13B大小的开源模型。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-7B\n\n## 二、Alpaca模型篇\n\nLLaMA是由Meta发布的全新人工智能大型语言模型，在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等任务上表现良好。LLaMA模型支持20种语言，包括拉丁语和西里尔字母语言，目前看原始模型并不支持中文。可以说LLaMA的史诗级泄露大力推进了类ChatGPT的开源发展。\n\n（更新于2023年4月22日）但遗憾的是目前LLama的授权比较有限，只能用作科研，不允许做商用。为了解决商用完全开源问题，RedPajama项目应运而生，其旨在创建一个完全开源的LLaMA复制品，可用于商业应用，并为研究提供更透明的流程。完整的RedPajama包括了1.2万亿token的数据集，其下一步将着手开始进行大规模训练。这项工作还是非常值得期待，其开源地址是：\n\nhttps:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FRedPajama-Data\n\n（更新于2023年5月7日）\n\nRedPajama更新了其训练模型文件，包括3B和7B两个参数量，其中3B可以在5年前发售的RTX2070游戏显卡上运行，弥补了LLaMa在3B上的空白。其模型地址为：\n\nhttps:\u002F\u002Fhuggingface.co\u002Ftogethercomputer\n\n除了RedPajama，MosaicML推出MPT系列模型，其训练数据采用了RedPajama的数据，在各类性能评估中，7B模型与原版LLaMA旗鼓相当。其模型开源地址为：\n\nhttps:\u002F\u002Fhuggingface.co\u002Fmosaicml\n\n无论是RedPajama还是MPT，其同时也开源了对应的Chat版模型，这两个模型的开源为类ChatGPT商业化带来了巨大的推动。\n\n（更新于2023年6月1日）\n\nFalcon是对标LLaMA的有一个开放大模型底座，其拥有7B和40B两个参数量尺度，40B的性能号称超高65B的LLaMA。据了解，Falcon仍然采用GPT式的自回归解码器模型，但其在数据上下了大功夫，从公网上抓取内容构建好初始预训练数据集后，再使用CommonCrawl转储，进行大量过滤并进行大规模去重，最终得到一个由近5万亿个token组成的庞大预训练数据集。同时又加进了很多精选语料，包括研究论文和社交媒体对话等内容。但该项目的授权饱受争议，采用\"半商业化\"授权方式，在收益达到100万后开始有10%的商业费用。\n\n该项目开源地址是：https:\u002F\u002Fhuggingface.co\u002Ftiiuae\n\n（更新于2023年7月3日）\n\n原始的Falcon跟LLaMA一样对中文支持能力欠缺，“伶荔（Linly）”项目团队以Falcon模型为底，打造并开源了中文版Chinese-Falcon。该模型首先扩充大幅扩充了词表，包括了8701个常用汉字、jieba词表中前20000个中文高频词以及60个中文标点符号，去重后词表大小扩充为90046。在训练阶段分别采用50G语料和2T大规模数据进行训练。\n\n该项目开源地址是：https:\u002F\u002Fgithub.com\u002FCVI-SZU\u002FLinly\n\n（更新于2023年7月24日）\n\n原始的Falcon跟LLaMA一样对中文支持能力欠缺，“伶荔（Linly）”项目团队以Falcon模型为底，打造并开源了中文版Chinese-Falcon。该模型首先扩充大幅扩充了词表，包括了8701个常用汉字、jieba词表中前20000个中文高频词以及60个中文标点符号，去重后词表大小扩充为90046。在训练阶段分别采用50G语料和2T大规模数据进行训练。\n\n该项目开源地址是：https:\u002F\u002Fgithub.com\u002FCVI-SZU\u002FLinly\n\n### stanford-alpaca\n\n斯坦福发布的alpaca（羊驼模型），是一个基于LLaMA-7B模型微调出一个新模型，其基本原理是让OpenAI的text-davinci-003模型以self-instruct方式生成52K指令样本，以此来微调LLaMA。该项目已将训练数据、生成训练数据的代码和超参数开源，模型文件尚未开源，以一天多达到5.6K星的关注度。该项工作由于成本低廉、数据易得，大受欢迎，也开启了低成本ChatGPT的效仿之路。其github地址为：\n\nhttps:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\n\n### ChatLLaMA\n\n是由Nebuly+AI推出的基于人类反馈强化学习的LLaMA+AI聊天机器人的开源实现，它的技术路线类似 ChatGPT，该项目上线刚刚 2 天，狂揽 5.2K 星。其github地址是：\n\nhttps:\u002F\u002Fgithub.com\u002Fnebuly-ai\u002Fnebullvm\u002Ftree\u002Fmain\u002Fapps\u002Faccelerate\u002Fchatllama\n\nChatLLaMA 训练过程算法实现主打比 ChatGPT 训练更快、更便宜，据说能快近15倍，主要特色有：\n\n完整的开源实现，允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务；\n\nLLaMA 架构更小，使得训练过程和推理速度更快，成本更低；\n\n内置了对 DeepSpeed ZERO 的支持，以加速微调过程；\n\n支持各种尺寸的 LLaMA 模型架构，用户可以根据自身偏好对模型进行微调。\n\n\n### OpenChatKit\n\nOpenChatKit由前OpenAI研究员所在的Together团队，以及LAION、Ontocord.ai团队共同打造。OpenChatKit包含200亿个参数，用GPT-3的开源版本GPT-NoX-20B进行微调。同时，不同ChatGPT的强化学习，OpenChatKit采用一个60亿参数的审核模型，对不合适或者是有害的信息进行过滤，确保生成内容的安全和质量。其github地址为：\n\nhttps:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FOpenChatKit\n\n### BELLE\n\n基于 Stanford Alpaca ，实现基于Bloom、LLama的监督微调。Stanford Alpaca 的种子任务都是英语，收集的数据也都是英文，该开源项目是促进中文对话大模型开源社区的发展，针对中文做了优化，模型调优仅使用由ChatGPT生产的数据（不包含任何其他数据）。项目包含以下内容:\n\n175个中文种子任务\n        \n生成数据的代码\n        \n10M生成的数据，目前开源了1.5M、0.25M数学指令数据集和0.8M多轮任务对话数据集\n        \n基于BLOOMZ-7B1-mt、LLama-7B优化后的模型\n        \ngithub地址为：https:\u002F\u002Fgithub.com\u002FLianjiaTech\u002FBELLE\n\n### alpaca-lora\n\nalpaca-lora是斯坦福大学的另一个巨作，其使用LoRA（low-rank adaptation）技术复现了Alpaca的结果，用了一个更加低成本的方法，只在一块RTX 4090显卡上训练5个小时得到了一个Alpaca水平相当的模型。而且，该模型可以在树莓派上运行。在该项目中，其使用了Hugging Face的PEFT来实现廉价高效的微调。PEFT 是一个库（LoRA 是其支持的技术之一），可以让你使用各种基于 Transformer的语言模型并使用LoRA对其进行微调，从而使得在一般的硬件上廉价而有效地微调模型。该项目github地址是：\n        \nhttps:\u002F\u002Fgithub.com\u002Ftloen\u002Falpaca-lora\n        \n尽管 Alpaca和alpaca-lora取得了较大的提升，但其种子任务都是英语，缺乏对中文的支持。一方面除了以上提到Belle收集到了大量的中文语料，另一方面基于alpaca-lora等前人工作，来自华中师范大学等机构的三位个人开发者开源的中文语言模型骆驼 (Luotuo)，单卡就能完成训练部署。目前该项目释放了两个模型 luotuo-lora-7b-0.1、luotuo-lora-7b-0.3，还有一个模型在计划中。其github地址是：\n        \nhttps:\u002F\u002Fgithub.com\u002FLC1332\u002FChinese-alpaca-lora\n\n### Dolly\n\nDolly在Alpaca的启发下，用Alpaca数据集，在GPT-J-6B上实现微调，由于Dolly本身是一个模型的“克隆”，所以团队最终决定将其命名为“多莉”。这种克隆式在Alpaca启发下越来越多，总结起来大致采用Alpaca开源的数据获取方式，在6B或者7B规模大小的旧模型上进行指令微调，获得类似ChatGPT的的效果。这种思想很经济，也能迅速模仿出ChatGPT的韵味来，广受欢迎，一经推出star爆棚。该项目github地址是：\n        \nhttps:\u002F\u002Fgithub.com\u002Fdatabrickslabs\u002Fdolly\n       \n### Vicuna和Chinese-Vicuna\n\n斯坦福学者继推出alpaca后，联手CMU、UC伯克利等，推出一个全新模型——130亿参数的Vicuna（俗称小羊驼、骆马）。仅需300美元就能实现ChatGPT 90%的性能。Vicuna是通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来，测试过程使用GPT-4作为评判标准，结果显示Vicuna-13B在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。\n\nUC伯克利LMSys org近期又发布了70亿参数的Vicuna，不仅体积小、效率高、能力强，而且只需两行命令就能在M1\u002FM2芯片的Mac上运行，还能开启GPU加速！\n        \ngithub开源地址为：https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat\u002F\n\n另一个中文版的进行了开源Chinese-Vicuna ，github地址为：        \n\nhttps:\u002F\u002Fgithub.com\u002FFacico\u002FChinese-Vicuna \n\n### LMFLOW\n\nChatGPT爆火后，都在寻找通往圣殿的快捷之路，一些类ChatGPT开始出现，尤其是低成本效仿ChatGPT成为一个热门途径。LMFlow就是在这种需求场景下诞生的产物，他使得在3090这样的普通显卡上也能炼大模型。该项目由香港科技大学统计和机器学习实验室团队发起，致力于建立一个全开放的大模型研究平台，支持有限机器资源下的各类实验，并且在平台上提升现有的数据利用方式和优化算法效率，让平台发展成一个比之前方法更高效的大模型训练系统。\n        \n利用该项目，即便是有限的计算资源，也能让使用者针对专有领域支持个性化训练。例如LLaMA-7B，一张3090耗时 5 个小时即可完成训练，成本大幅降低。该项目还开放了网页端即刻体验问答服务 (lmflow.com)。LMFlow的出现和开源使得普通资源可以训练问答、陪伴、写作、翻译、专家领域咨询等各种任务。目前很多研究者们正在尝试用该项目训练650亿甚至更高参数量的大模型。 \n        \n该项目github地址为：\n        \nhttps:\u002F\u002Fgithub.com\u002FOptimalScale\u002FLMFlow\n\n### Baize白泽\n\n该项目提出了一个自动收集 ChatGPT 对话的方法，让 ChatGPT 自我对话，批量生成高质量多轮对话数据集，分别收集了5万条左右Quora、StackOverflow和MedQA的高质量问答语料，并已经全部开源。同时其改进了LLama模型，效果还不错。白泽同样采用目前低成本的LoRA微调方案，获得白泽-7B、13B 和30B三种不同尺度，以及一个医疗垂直领域的模型。遗憾的是中文名字起的不错，但目前仍然不支持中文，中文的白泽模型据悉在计划中，未来发布。其开源github地址是：\n        \nhttps:\u002F\u002Fgithub.com\u002Fproject-baize\u002Fbaize\n\n### Koala考拉\n\n基于LLama的ChatGPT平替继续发酵，UC伯克利的伯克利发布了一个可以在消费级GPU上运行的对话模型Koala，参数达到13B。Koala 的训练数据集包括如下几个部分：ChatGPT数据和开源数据（Open Instruction Generalist (OIG)、斯坦ford Alpaca 模型使用的数据集、Anthropic HH、OpenAI WebGPT、OpenAI Summarization）。Koala模型在EasyLM中使用JAX\u002FFlax实现，用了8 个A100 GPU，完成2轮迭代需要6个小时。评测效果优于Alpaca，达到ChatGPT 50%的性能。\n        \n开源地址：https:\u002F\u002Fgithub.com\u002Fyoung-geng\u002FEasyLM\n\n### StackLLaMA\n\n随着斯坦福Alpaca的出现，一大堆基于LLama的羊驼家族和扩展动物家族开始出现，终于Hugging Face研究人员近期发布了一篇博客StackLLaMA：用RLHF训练LLaMA的实践指南。同时也发布了一个70亿参数的模型——StackLLaMA。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的模型。详细见其博客地址：\n\nhttps:\u002F\u002Fhuggingface.co\u002Fblog\u002Fstackllama\n\n### Chinese-LLaMA-Alpaca\n\n该项目针对中文对LLaMA进行了优化，并开源了其精调对话系统。该项目具体步骤包括：1. 词表扩充，采用sentencepiece在中文数据上进行了训练构建，并与LLaMA词表进行了合并；2. 预训练，在新词表上，约20G左右的通用中文语料进行了训练，训练中运用了LoRA技术；3. 利用Stanford Alpaca，在51k数据上进行了精调训练获得对话能力。\n\n开源地址为：https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca\n\n### Dolly2.0   （更新于2023年4月13日）\n\n4月12日，Databricks发布了Dolly2.0，号称业内第一个开源、遵循指令的LLM，数据集由Databricks员工生成，并进行了开源且可用于商业目的。新提出的Dolly2.0是一个120亿参数的语言模型，基于开源EleutherAI pythia模型系列，针对小型开源指令记录语料库进行了微调。\n\n开源地址为：https:\u002F\u002Fhuggingface.co\u002Fdatabricks\u002Fdolly-v2-12b\n\nhttps:\u002F\u002Fgithub.com\u002Fdatabrickslabs\u002Fdolly\n\n### Deep Speed Chat  （更新于2023年4月13日）\n\n该项目带来了全民ChatGPT的时代，训练成本再次大幅降低。项目是微软基于其Deep Speed优化库开发而成，具备强化推理、RLHF模块、RLHF系统三大核心功能，可将训练速度提升15倍以上，成本却大幅度降低。例如，一个130亿参数的类ChatGPT模型，只需1.25小时就能完成训练。 \n\n开源地址为：https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed\n\n### Wombat （更新于2023年4月16日）\n\n        该项目采取了不同于RLHF的方式RRHF进行人类偏好对齐，RRHF相对于RLHF训练的模型量和超参数量远远降低。RRHF训练得到的Wombat-7B在性能上相比于Alpaca有显著的增加，和人类偏好对齐的更好。\n        \n        开源地址为：https:\u002F\u002Fgithub.com\u002FGanjinZero\u002FRRHF\n\n### Guanaco （更新于2023年4月16日）\n\n        Guanaco是一个基于目前主流的LLaMA-7B模型训练的指令对齐语言模型，原始52K数据的基础上，额外添加了534K+条数据，涵盖英语、日语、德语、简体中文、繁体中文（台湾）、繁体中文（香港）以及各种语言和语法任务。丰富的数据助力模型的提升和优化，其在多语言环境中展示了出色的性能和潜力。\n        \n        开源地址为：https:\u002F\u002Fgithub.com\u002FGuanaco-Model\u002FGuanaco-Model.github.io\n\n        （更新于2023年5月27日，Guanaco-65B）\n\n        最近华盛顿大学提出QLoRA，使用4 bit量化来压缩预训练的语言模型，然后冻结大模型参数，并将相对少量的可训练参数以Low-Rank Adapters的形式添加到模型中，模型体量在大幅压缩的同时，几乎不影响其推理效果。该技术应用在微调LLaMA 65B中，通常需要780GB的GPU显存，该技术只需要48GB，训练成本大幅缩减。\n\n        开源地址为：https:\u002F\u002Fgithub.com\u002Fartidoro\u002Fqlora\n\n### LLMZoo（凤凰Phoenix和Chimera） （更新于2023年4月16日）\n\n        LLMZoo，即LLM动物园开源项目维护了一系列开源大模型，其中包括了近期备受关注的来自香港中文大学（深圳）和深圳市大数据研究院的王本友教授团队开发的Phoenix（凤凰）和Chimera等开源大语言模型，其中文本效果号称接近百度文心一言，GPT-4评测号称达到了97%文心一言的水平，在人工评测中五成不输文心一言。\n\n        Phoenix 模型有两点不同之处：在微调方面，指令式微调与对话式微调的进行了优化结合；支持四十余种全球化语言。\n\n        开源地址为：https:\u002F\u002Fgithub.com\u002FFreedomIntelligence\u002FLLMZoo\n\n### OpenAssistant （更新于2023年4月16日）\n\n        OpenAssistant是一个开源聊天助手，其可以理解任务、与第三方系统交互、动态检索信息。据其说，其是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。该模型主要创新在于一个较大的人类反馈数据集（详细说明见数据篇），公开测试显示效果在人类对齐和毒性方面做的不错，但是中文效果尚有不足。\n\n        开源地址为：https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FOpen-Assistant\n\n        HuggingChat （更新于2023年4月26日）\n \n        HuggingChat是Huggingface继OpenAssistant推出的对标ChatGPT的开源平替。其能力域基本与ChatGPT一致，在英文等语系上效果惊艳，被成为ChatGPT目前最强开源平替。但笔者尝试了中文，可谓一塌糊涂，中文能力还需要有较大的提升。HuggingChat的底座是oasst-sft-6-llama-30b，也是基于Meta的LLaMA-30B微调的语言模型。\n\n        该项目的开源地址是：https:\u002F\u002Fhuggingface.co\u002FOpenAssistant\u002Foasst-sft-6-llama-30b-xor\n\n        在线体验地址是：https:\u002F\u002Fhuggingface.co\u002Fchat\n\n### StableLM （更新于2023年4月30日）\n\n        StableVicuna是一个Vicuna-13B v0（LLaMA-13B上的微调）的RLHF的微调模型。\n\n        StableLM-Alpha是以开源数据集the Pile（含有维基百科、Stack Exchange和PubMed等多个数据源）基础上训练所得，训练token量达1.5万亿。\n \n        为了适应对话，其在Stanford Alpaca模式基础上，结合了Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH.等数据集，微调获得模型StableLM-Tuned-Alpha\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableLM\n\n### 华驼(HuaTuo) （更新于2023年4月30日）\n\n        该模型垂直医学领域，经过中文医学指令精调\u002F指令集对原始LLaMA-7B模型进行了微调，增强了医学领域上的对话能力。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FSCIR-HI\u002FHuatuo-Llama-Med-Chinese\n\n### ChatRWKV(Raven) （更新于2023年5月7日）\n\n        该模型的底座采用了自主研发的RWKV语言模型，100% RNN，微调部分仍然是经典的Alpaca、CodeAlpaca、Guanaco、GPT4All、 ShareGPT等。其开源了1B5、3B、7B和14B的模型，目前支持中英两个语种，提供不同语种比例的模型文件。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FBlinkDL\u002FChatRWKV 或 https:\u002F\u002Fhuggingface.co\u002FBlinkDL\u002Frwkv-4-raven\n\n\n### SELF-ALIGN和Dromedary （更新于2023年5月9日）\n\n        目前大部分类ChatGPT基本都是采用人工对齐方式，如RLHF，Alpaca模式只是实现了ChatGPT的效仿式对齐，对齐能力受限于原始ChatGPT对齐能力。卡内基梅隆大学语言技术研究所、IBM 研究院MIT-IBM Watson AI Lab和马萨诸塞大学阿默斯特分校的研究者提出了一种全新的自对齐方法。其结合了原则驱动式推理和生成式大模型的生成能力，用极少的监督数据就能达到很好的效果。该项目工作成功应用在LLaMA-65b模型上，研发出了Dromedary（单峰骆驼）。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FIBM\u002FDromedary\n\n### LLaVA （更新于2023年4月19日）\n\n        LLaVA是一个多模态的语言和视觉对话模型，类似GPT-4，其主要还是在多模态数据指令工程上做了大量工作，目前开源了其13B的模型文件。从性能上，据了解视觉聊天相对得分达到了GPT-4的85%；多模态推理任务的科学问答达到了SoTA的92.53%。该项目的开源地址是：\n\n        https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA\n\n### miniGPT-4 （更新于2023年4月21日）\n \n        从名字上看，该项目对标GPT-4的能力域，实现了一个缩略版。该项目来自来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队。该模型利用两阶段的训练方法，先在大量对齐的图像-文本对上训练以获得视觉语言知识，然后用一个较小但高质量的图像-文本数据集和一个设计好的对话模板对预trained的模型进行微调，以提高模型生成的可靠性和可用性。该模型语言解码器使用Vicuna，视觉感知部分使用与BLIP-2相同的视觉编码器。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4\n\n### InstructBLIP （更新于2023年5月16日）\n \n        该项目与上述MiniGPT-4底层具有很大相通的地方，文本部分都使用了Vicuna，视觉部分则是BLIP-2微调而来。在论文和评测中，该模型在看图理解、逻辑推理和对话描述方面具有强大的优势，甚至号称超过GPT-4。InstructBLIP强大性能主要体现在视觉-语言指令数据集构建和训练上，使得模型对未知的数据和任务具有零样本能力。在指令微调数据上为了保持多样性和可及性，研究人员一共收集了涵盖了11个任务类别和28个数据集，并将它们转化为指令微调格式。同时其提出了一种指令感知的视觉特征提取方法，充分利用了BLIP-2模型中的Q-Former架构，指令文本不仅作为输入给到LLM，同时也给到了QFormer。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Finstructblip\n\n### BiLLa （更新于2023年5月19日）\n \n        BiLLa是开源的推理能力增强的中英双语LLaMA模型，该模型训练过程和Chinese-LLaMA-Alpaca有点类似，都是三阶段：词表扩充、预训练和指令精调。不同的是在增强预训练阶段，BiLLa加入了任务数据，且没有采用Lora技术，精调阶段用到的指令数据也丰富的多。该模型在逻辑推理方面进行了特别增强，主要体现在加入了更多的逻辑推理任务指令。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FNeutralzz\u002FBiLLa\n\n### Ziya-LLaMA-13B-v1 （更新于2023年5月19日）\n \n        该项目是由IDEA开源，被成为\"姜子牙\"，是在LLaMA-13B基础上训练而得。该模型也采用了三阶段策略，一是重新构建中文词表；二是在千亿token量级数据规模基础上继续预训练，使模型具备原生中文能力；最后经过500万条多任务样本的有监督微调（SFT）和综合人类反馈训练（RM+PPO+HFFT+COHFT+RBRS)，增强各种AI能力。其同时开源了一个评估集，包括常识类问答、推理、自然语言理解任务、数学、写作、代码、翻译、角色扮演、翻译9大类任务，32个子类，共计185个问题。\n\n        该项目的开源地址是：https:\u002F\u002Fhuggingface.co\u002FIDEA-CCNL\u002FZiya-LLaMA-13B-v1\n\n        评估集开源地址是：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FIDEA-CCNL\u002FZiya-Eval-Chinese\n\n### LaVIN （更新于2023年5月30日）\n \n        该项目的研究者提出了一种新的视觉-语言指令微调对齐的端到端的经济方案，其称之为多模态适配器（MMA）。其巨大优势是只需要轻量化的适配器训练即可打通视觉和语言之间的桥梁，无需像LLaVa那样需要全量微调，因此成本大大降低。项目研究者还通过52k纯文本指令和152k文本-图像对，微调训练成一个多模态聊天机器人，具有较好的的视觉-语言理解能力。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fluogen1996\u002FLaVIN\n\n### Lion （更新于2023年5月30日）\n \n        该模型由港科大发布，主要是针对闭源大语言模型的对抗蒸馏思想，将ChatGPT的知识转移到了参数量LLaMA-7B模型上，训练数据只有70K，实现了近95%的ChatGPT能力，效果相当显著。该工作主要针对传统Alpaca等只有从闭源大模型单项输入的缺点出发，创新性提出正反馈循环机制，通过对抗式学习，使得闭源大模型能够指导学生模型应对难的指令，大幅提升学生模型的能力。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FYJiangcm\u002FLion\n\n### VPGTrans （更新于2023年6月12日）\n \n        最近多模态大模型成为开源主力，VPGTrans是其中一个，其动机是利用低成本训练一个多模态大模型。其一方面在视觉部分基于BLIP-2，可以直接将已有的多模态对话模型的视觉模块迁移到新的语言模型；另一方面利用VL-LLaMA和VL-Vicuna为各种新的大语言模型灵活添加视觉模块。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FVPGTrans\u002FVPGTrans\n\n### TigerBot（更新于2023年6月15日）\n \n        TigerBot是一个基于BLOOM框架的大模型，在监督指令微调、可控的事实性和创造性、并行训练机制和算法层面上都做了相应改进。本次开源项目共开源7B和180B，是目前开源参数规模最大的。除了开源模型外，其还开源了其用的指令数据集。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FTigerResearch\u002FTigerBot\n\n### WizadLM（更新于2023年6月20日）\n \n        该模型是微软提出的在LLaMa基础上的微调模型，其核心采用了一种Evol-Instruct（进化指令）的思想。Evol-Instruct使用LLM生成大量不同复杂度级别的指令数据，其基本思想是从一个简单的初始指令开始，然后随机选择深度进化（将简单指令升级为更复杂的指令）或广度进化（在相关话题下创建多样性的新指令）。同时，其还提出淘汰进化的概念，即采用指令过滤器来淘汰出失败的指令。该模型以其独到的指令加工方法，一举夺得AlpacaEval的开源模型第一名。同时该团队又发布了WizardCoder-15B大模型，该模型专注代码生成，在HumanEval、HumanEval+、MBPP以及DS1000四个代码生成基准测试中，都取得了较好的成绩。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fnlpxucan\u002FWizardLM\n\n### OpenChat（更新于2023年7月3日）\n \n        OpenChat一经开源和榜单评测公布，引发热潮评论，其在Vicuna GPT-4评测中，性能超过了ChatGPT，在AlpacaEval上也以80.9%的胜率夺得开源榜首。从模型细节上看也是基于LLaMA-13B进行了微调，只用到了6K GPT-4对话微调语料，能达到这个程度确实有点出乎意外。目前开源版本有OpenChat-2048和OpenChat-8192。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fimoneoi\u002Fopenchat\n\n### BayLing 百聆（更新于2023年7月3日）\n \n        百聆（BayLing）是一个具有增强的跨语言对齐的通用大模型，由中国科学院计算技术研究所自然语言处理团队开发。BayLing以LLaMA为基座模型，探索了以交互式翻译任务为核心进行指令微调的方法，旨在同时完成语言间对齐以及与人类意图对齐，将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言（中文）。在多语言翻译、交互翻译、通用任务、标准化考试的测评中，百聆在中文\u002F英语中均展现出更好的表现，取得众多开源大模型中最佳的翻译能力，取得ChatGPT 90%的通用任务能力。BayLing开源了7B和13B的模型参数，以供后续翻译、大模型等相关研究使用。\n\n        该项目开源地址是：[https:\u002F\u002Fgithub.com\u002Fimoneoi\u002Fopenchat](https:\u002F\u002Fgithub.com\u002Fictnlp\u002FBayLing)\n\n        在线体验地址是：[http:\u002F\u002Fnlp.ict.ac.cn\u002Fbayling\u002Fdemo](http:\u002F\u002Fnlp.ict.ac.cn\u002Fbayling\u002Fdemo)\n\n### ChatLaw（更新于2023年7月6日）\n \n        ChatLaw是由北大团队发布的面向法律领域的垂直大模型，其一共开源了三个模型：ChatLaw-13B，基于姜子牙Ziya-LLaMA-13B-v1训练而来，但是逻辑复杂的法律问答效果不佳；ChatLaw-33B，基于Anima-33B训练而来，逻辑推理能力大幅提升，但是因为Anima的中文语料过少，导致问答时常会出现英文数据；ChatLaw-Text2Vec，使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型，可将用户提问信息和对应的法条相匹配，\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FChatLaw\n\n### 飞天羊驼AlpaGasus（更新于2023年8月8日）\n \n        该项目是马里兰、三星和南加大的研究人员提出的，其针对Alpaca等方法构架的数据中包括很多质量低下的数据问题，提出了一种利用LLM自动识别和删除低质量数据的数据选择策略，不仅在测试中优于原始的Alpaca，而且训练速度更快。其基本思路是利用强大的外部大模型能力（如ChatGPT）自动评估每个（指令，输入，回应）元组的质量，对输入的各个维度如Accurac、Helpfulness进行打分，并过滤掉分数低于阈值的数据。\n\n        该项目开源地址是：https:\u002F\u002Flichang-chen.github.io\u002FAlpaGasus\n\n## 三、LLaMa-2篇\n\n        2023年7月18日，Meta正式发布最新一代开源大模型，不但性能大幅提升，更是带来了商业化的免费授权，这无疑为万模大战更添一新动力，并推进大模型的产业化和应用。此次LLaMA2共发布了从70亿、130亿、340亿以及700亿参数的预训练和微调模型，其中预训练过程相比1代数据增长40%（1.4T到2T），上下文长度也增加了一倍（2K到4K），并采用分组查询注意力机制（GQA）来提升性能；微调阶段，带来了对话版Llama 2-Chat，共收集了超100万条人工标注用于SFT和RLHF。但遗憾的是原生模型对中文支持仍然较弱，采用的中文数据集并不多，只占0.13%。\n\n        随着LLaMa 2的开源开放，一些优秀的LLaMa 2微调版开始涌现：\n\n### Baby LLaMA 2 （更新于2023年8月8日）\n\n        该项工作是OpenAI创始成员Andrej Karpathy的一个比较有意思的项目，中文俗称羊驼宝宝2代，该模型灵感来自llama.cpp，只有1500万参数，但是效果不错，能说会道。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002Fkarpathy\u002Fllama2.c\n\n### FreeWilly2 （更新于2023年8月8日）\n\n        该项目是由Stability AI和CarperAI实验室联合发布的基于LLaMA-2-70B模型的微调模型，模型采用了Alpaca范式，并经过SFT的全新合成数据集来进行训练，是LLaMA-2微调较早的成果之一。该模型在很多方面都表现出色，包括复杂的推理、理解语言的微妙之处，以及回答与专业领域相关的复杂问题。\n\n        该项目开源地址是：https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002FFreeWilly2\n\n### Chinese-Llama-2-7b （更新于2023年8月8日）\n\n        该项目是由国内AI初创公司LinkSoul.Al推出，其在Llama-2-7b的基础上使用了1000万的中英文SFT数据进行微调训练，大幅增强了中文能力，弥补了原生模型在中文上的缺陷。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FLinkSoul-AI\u002FChinese-Llama-2-7b\n\n### OpenBuddy-LLaMA2-13B （更新于2023年8月8日）\n\n        该项目是由OpenBuddy团队发布的，是基于Llama-2微调后的另一个中文增强模型。\n\n        该项目开源地址是：https:\u002F\u002Fhuggingface.co\u002FOpenBuddy\u002Fopenbuddy-llama2-13b-v8.1-fp16\n\n### Linly-Chinese-LLaMA-2 （更新于2023年8月14日）\n\n        该项目简化了主流的预训练+精调两阶段训练流程，训练使用包含不同数据源的混合数据，其中无监督语料包括中文百科、科学文献、社区问答、新闻等通用语料，提供中文世界知识；英文语料包含 SlimPajama、RefinedWeb 等数据集，用于平衡训练数据分布，避免模型遗忘已有的知识；以及中英文平行语料，用于对齐中英文模型的表示，将英文模型学到的知识快速迁移到中文上。有监督数据包括基于self-instruction构建的指令数据集，例如 BELLE、Alpaca、Baize、InstructionWild等；使用人工prompt构建的数据例如FLAN、COIG、Firefly、pCLUE等。在词典扩充方面，该项目扩充了8076个常用汉字和标点符号。\n\n        该项目开源地址是：https:\u002F\u002Fgithub.com\u002FCVI-SZU\u002FLinly\n\n## 四、通向AGI的开源之路\n\n        ChatGPT的出现使大家振臂欢呼AGI时代的到来，是打开通用人工智能的一把关键钥匙。但ChatGPT仍然是一种人机交互对话形式，针对你唤醒的指令问题进行作答，还没有产生通用的自主的能力。但随着AutoGPT的出现，人们已经开始向这个方向大跨步的迈进。\n\n### AutoGPT （更新于2023年4月26日）\n \n        AutoGPT已经大火了一段时间，也被称为ChatGPT通往AGI的开山之作，截止4.26日已达114K星。AutoGPT虽然是用了GPT-4等的底座，但是这个底座可以进行迁移适配到开源版。其最大的特点就在于能全自动地根据任务指令进行分析和执行，自己给自己提问并进行回答，中间环节不需要用户参与，将“行动→观察结果→思考→决定下一步行动”这条路子给打通并循环了起来，使得工作更加的高效，更低成本。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT\n\n### OpenAGI （更新于2023年4月26日）\n \n        OpenAGI将复杂的多任务、多模态进行语言模型上的统一，重点解决可扩展性、非线性任务规划和定量评估等AGI问题。OpenAGI的大致原理是将任务描述作为输入大模型以生成解决方案，选择和合成模型，并执行以处理数据样本，最后评估语言模型的任务解决能力可以通过比较输出和真实标签的一致性。OpenAGI内的专家模型主要来自于Hugging Face的transformers、diffusers以及Github库。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fagiresearch\u002FOpenAGI\n\n### BabyAGI （更新于2023年5月12日）\n \n        BabyAGI是仅次于AutoGPT火爆的AGI，运行方式类似AutoGPT，但具有不同的任务导向喜好。BabyAGI除了理解用户输入任务指令，他还可以自主探索，完成创建任务、确定任务优先级以及执行任务等操作。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fyoheinakajima\u002Fbabyagi\n\n### Transformers Agent （更新于2023年5月12日）\n \n        提起Agent，不免想起langchain agent，langchain的思想影响较大，其中AutoGPT就是借鉴了其思路。langchain agent可以支持用户根据自己的需求自定义插件，描述插件的具体功能，通过统一输入决定采用不同的插件进行任务处理，其后端统一接入LLM进行具体执行。\n\n        最近Huggingface开源了自己的Transformers Agent，其可以控制10万多个Hugging Face模型完成各种任务，通用智能也许不只是一个大脑，而是一个群体智慧结晶。其基本思路是agent充分理解你输入的意图，然后将其转化为Prompt，并挑选合适的模型去完成任务。\n\n        该项目的开源地址是：https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Ftransformers_agents\n\n### GirlfriendGPT （更新于2023年6月1日）\n \n        GPT-4的诞生，AI生成能力的大幅度跃迁，使人们开始更加关注数字人问题。通用人工智能的形态可能是更加智能、自主的人形智能体，他可以参与到我们真实生活中，给人类带来不一样的交流体验。近期，GitHub上开源了一个有意思的项目GirlfriendGPT，可以将现实中的女友克隆成虚拟女友，进行文字、图像、语音等不通模态的自主交流。\n\n        GirlfriendGPT现在可能只是一个toy级项目，但是随着AIGC的阶梯性跃迁变革，这样的陪伴机器人、数字永生机器人、冻龄机器人会逐渐进入人类的视野，并参与到人的社会活动中。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002FEniasCailliau\u002FGirlfriendGPT\n\n### Camel AGI （更新于2023年7月6日）\n \n        Camel AGI早在3月份就被发布了出来，比AutoGPT等都要早，其提出了提出了一个角色扮演智能体框架，可以实现两个人工智能智能体的交流。Camel的核心本质是提示工程， 这些提示被精心定义，用于分配角色，防止角色反转，禁止生成有害和虚假的信息，并鼓励连贯的对话。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel\n\n### 西部世界小镇 （更新于2023年8月14日）\n \n        《西部世界小镇》是由斯坦福基于chatgpt打造的多智能体社区，论文一经发布爆火，英伟达高级科学家Jim Fan甚至认为\"斯坦福智能体小镇是2023年最激动人心的AI Agent实验之一\"，当前该项目迎来了重磅开源，很多人相信，这标志着AGI的开始。该项目中采用了一种全新的多智能体架构，在小镇中打造了25个智能体，他们能够使用自然语言存储各自的经历，并随着时间发展存储记忆，智能体在工作时会动态检索记忆从而规划自己的行为。\n\n        智能体和传统的语言模型能力最大的区别是自主意识，西部世界小镇中的智能体可以做到相互之间的社会行为，他们通过不断地\"相处\"，形成新的关系，并且会记住自己与其他智能体的互动。智能体本身也具有自我规划能力，在执行规划的过程中，生成智能体会持续感知周围环境，并将感知到的观察结果存储到记忆流中，通过利用观察结果作为提示，让语言模型决定智能体下一步行动：继续执行当前规划，还是做出其他反应。\n\n        该项目的开源地址是：https:\u002F\u002Fgithub.com\u002Fjoonspk-research\u002Fgenerative_agents\n\n## 五、榜单篇\n\n        ChatGPT引爆了大模型的火山式喷发，琳琅满目的大模型出现在我们目前，本项目也汇聚了特别多的开源模型。但这些模型到底水平如何，还需要标准的测试。截止目前，大模型的评测逐渐得到重视，一些评测榜单也相继发布，因此，也汇聚在此处，供大家参考，以辅助判断模型的优劣。\n\n### Huggingface的Open LLM Leaderboard \n\n        该榜单评测4个大的任务：AI2 Reasoning Challenge (25-shot)，小学科学问题评测集；HellaSwag (10-shot)，尝试推理评测集；MMLU (5-shot)，包含57个任务的多任务评测集；TruthfulQA (0-shot)，问答的是\u002F否测试集。\n\n        榜单部分如下，详见：https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard\n\n        更新于2023年8月8日\n\n![Open LLM Leaderboard 更新于2023年6月13日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_f24aadd6405d.png)\n\n### C-Eval \n\n        该榜单旨在构造中文大模型的知识评估基准，其构造了一个覆盖人文，社科，理工，其他专业四个大方向，52个学科的13948道题目，范围遍布从中学到大学研究生以及职业考试。其数据集包括三类，一种是标注的问题、答案和判断依据，一种是问题和答案，一种是完全测试集。\n\n        榜单部分如下，详见：https:\u002F\u002Fcevalbenchmark.com\u002Fstatic\u002Fleaderboard.html\n\n        更新于2023年8月8日\n\n![C-Eval  更新于2023年6月13日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_06164cfc7808.png)\n\n### SuperCLUE琅琊榜\n\n        该榜单来自中文语言理解测评基准开源社区CLUE，其旨在构造一个中文大模型匿名对战平台，利用Elo评分系统进行评分。\n\n        榜单部分如下，详见：https:\u002F\u002Fwww.superclueai.com\u002F\n\n        更新于2023年8月8日\n\n![SuperCLUE 更新于2023年6月13日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_e59270f74a63.png)\n\n### AlpacaEval\n\n        该榜单由Alpaca的提出者斯坦福发布，是一个以指令微调模式语言模型的自动评测榜，该排名采用GPT-4\u002FClaude作为标准。\n\n        榜单部分如下，详见：https:\u002F\u002Ftatsu-lab.github.io\u002Falpaca_eval\u002F\n\n                更新于2023年8月8日\n\n![AlpacaEval 更新于2023年6月15日](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_readme_3301f132f918.png)\n\n## 六、语料篇\n\n### 开源传统对话语料\n\n1. LCCC，数据集有base与large两个版本，各包含6.8M和12M对话。这些数据是从79M原始对话数据中经过严格清洗得到的，包括微博、贴吧、小黄鸡等。\n\n   https:\u002F\u002Fgithub.com\u002Fthu-coai\u002FCDial-GPT#Dataset-zh\n\n### 指令集+答案\n\n1. Stanford-Alpaca数据集，52K条英文数据，采用Self-Instruct技术生成，数据已开源：\n   \n   https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca\u002Fblob\u002Fmain\u002Falpaca_data.json\n2. 中文Stanford-Alpaca数据集，52K条中文数据，通过机器翻译将Stanford-Alpaca翻译筛选成中文获得：\n\n   https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca\u002Fblob\u002Fmain\u002Fdata\u002Falpaca_data_zh_51k.json\n3. pCLUE数据，基于提示的大规模预训练数据集，根据CLUE评测标准转化而来，数据量较大，有300K之多\n\n   https:\u002F\u002Fgithub.com\u002FCLUEbenchmark\u002FpCLUE\u002Ftree\u002Fmain\u002Fdatasets\n4. Belle数据集，主要是中文，目前有2M和1.5M两个版本，都已经开源，数据获取方法同Stanford-Alpaca\n\n    3.5M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_3.5M_CN\n\n    2M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_2M_CN\n   \n   1M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_1M_CN\n\n   0.5M：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_0.5M_CN\n\n    0.8M多轮对话：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Fmultiturn_chat_0.8M\n5. 微软GPT-4数据集，包括中文和英文数据，采用Stanford-Alpaca方式，但是数据获取用的是GPT-4\n   \n   中文：https:\u002F\u002Fgithub.com\u002FInstruction-Tuning-with-GPT-4\u002FGPT-4-LLM\u002Fblob\u002Fmain\u002Fdata\u002Falpaca_gpt4_data_zh.json\n   \n   英文：https:\u002F\u002Fgithub.com\u002FInstruction-Tuning-with-GPT-4\u002FGPT-4-LLM\u002Fblob\u002Fmain\u002Fdata\u002Falpaca_gpt4_data.json\n\n6. ShareChat数据集，其将ChatGPT上获取的数据清洗\u002F翻译成高质量的中文语料，从而推进国内AI的发展，让中国人人可炼优质中文Chat模型，约九万个对话数据，英文68000，中文11000条。\n\n   https:\u002F\u002Fparatranz.cn\u002Fprojects\u002F6725\u002Ffiles\n7. OpenAssistant Conversations，该数据集是由LAION AI等机构的研究者收集的大量基于文本的输入和反馈的多样化和独特数据集。该数据集有161443条消息，涵盖35种不同的语言。该数据集的诞生主要是众包的形式，参与者超过了13500名志愿者，数据集目前面向所有人开源开放。\n\n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenAssistant\u002Foasst1\n8. firefly-train-1.1M数据集，该数据集是一份高质量的包含1.1M中文多任务指令微调数据集，包含23种常见的中文NLP任务的指令数据。对于每个任务，由人工书写若干指令模板，保证数据的高质量与丰富度。利用该数据集，研究者微调训练了一个中文对话式大语言模型（Firefly(流萤)）。\n   \n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FYeungNLP\u002Ffirefly-train-1.1M\n9. LLaVA-Instruct-150K，该数据集是一份高质量多模态指令数据，综合考虑了图像的符号化表示、GPT-4、提示工程等。\n\n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliuhaotian\u002FLLaVA-Instruct-150K\n10. UltraChat，该项目采用了两个独立的ChatGPT Turbo API来确保数据质量，其中一个模型扮演用户角色来生成问题或指令，另一个模型生成反馈。该项目的另一个质量保障措施是不会直接使用互联网上的数据作为提示。UltraChat对对话数据覆盖的主题和任务类型进行了系统的分类和设计，还对用户模型和回复模型进行了细致的提示工程，它包含三个部分：关于世界的问题、写作与创作和对于现有资料的辅助改写。该数据集目前只放出了英文版，期待中文版的开源。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstingning\u002Fultrachat\n11. MOSS数据集，MOSS在开源其模型的同时，开源了部分数据集，其中包括moss-002-sft-data、moss-003-sft-data、moss-003-sft-plugin-data和moss-003-pm-data，其中只有moss-002-sft-data完全开源，其由text-davinci-003生成，包括中、英各约59万条、57万条。 \n\n    moss-002-sft-data：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ffnlp\u002Fmoss-002-sft-data\n12. Alpaca-CoT，该项目旨在构建一个多接口统一的轻量级指令微调（IFT）平台，该平台具有广泛的指令集合，尤其是CoT数据集。该项目已经汇集了不少规模的数据，项目地址是：\n\n    https:\u002F\u002Fgithub.com\u002FPhoebusSi\u002FAlpaca-CoT\u002Fblob\u002Fmain\u002FCN_README.md\n13. zhihu_26k，知乎26k的指令数据，中文，项目地址是：\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliyucheng\u002Fzhihu_26k\n14. Gorilla APIBench指令数据集，该数据集从公开模型Hub（TorchHub、TensorHub和HuggingFace。）中抓取的机器学习模型API，使用自指示为每个API生成了10个合成的prompt。根据这个数据集基于LLaMA-7B微调得到了Gorilla，但遗憾的是微调后的模型没有开源：\n\n    https:\u002F\u002Fgithub.com\u002FShishirPatil\u002Fgorilla\u002Ftree\u002Fmain\u002Fdata\n15. GuanacoDataset 在52K Alpaca数据的基础上，额外添加了534K+条数据，涵盖英语、日语、德语、简体中文、繁体中文（台湾）、繁体中文（香港）等。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJosephusCheung\u002FGuanacoDataset\n16. ShareGPT，ShareGPT是一个由用户主动贡献和分享的对话数据集，它包含了来自不同领域、主题、风格和情感的对话样本，覆盖了闲聊、问答、故事、诗歌、歌词等多种类型。这种数据集具有很高的质量、多样性、个性化和情感化，目前数据量已达160K对话。\n\n    https:\u002F\u002Fsharegpt.com\u002F\n17. HC3，其是由人类-ChatGPT 问答对比组成的数据集，总共大约87k\n\n    中文：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHello-SimpleAI\u002FHC3-Chinese\n    英文：https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHello-SimpleAI\u002FHC3\n18. OIG，该数据集涵盖43M高质量指令，如多轮对话、问答、分类、提取和总结等。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flaion\u002FOIG\n19. COIG，由BAAI发布中文通用开源指令数据集，相比之前的中文指令数据集，COIG数据集在领域适应性、多样性、数据质量等方面具有一定的优势。目前COIG数据集主要包括：通用翻译指令数据集、考试指令数据集、价值对其数据集、反事实校正数据集、代码指令数据集。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FCOIG\n20. gpt4all-clean，该数据集由原始的GPT4All清洗而来，共374K左右大小。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcrumb\u002Fgpt4all-clean\n21. baize数据集，100k的ChatGPT跟自己聊天数据集\n\n    https:\u002F\u002Fgithub.com\u002Fproject-baize\u002Fbaize-chatbot\u002Ftree\u002Fmain\u002Fdata\n22. databricks-dolly-15k，由Databricks员工在2023年3月-4月期间人工标注生成的自然语言指令。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdatabricks\u002Fdatabricks-dolly-15k\n23. chinese_chatgpt_corpus，该数据集收集了5M+ChatGPT样式的对话语料，源数据涵盖百科、知道问答、对联、古文、古诗词和微博新闻评论等。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fsunzeyeah\u002Fchinese_chatgpt_corpus\n24. kd_conv，多轮对话数据，总共4.5K条，每条都是多轮对话，涉及旅游、电影和音乐三个领域。\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkd_conv\n25. Dureader，该数据集是由百度发布的中文阅读理解和问答数据集，在2017年就发布了，这里考虑将其列入在内，也是基于其本质也是对话形式，并且通过合理的指令设计，可以讲问题、证据、答案进行巧妙组合，甚至做出一些CoT形式，该数据集超过30万个问题，140万个证据文档，66万的人工生成答案，应用价值较大。\n\n    https:\u002F\u002Faistudio.baidu.com\u002Faistudio\u002Fdatasetdetail\u002F177185\n26. logiqa-zh，逻辑理解问题数据集，根据中国国家公务员考试公开试题中的逻辑理解问题构建的，旨在测试公务员考生的批判性思维和问题解决能力\n\n    https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fjiacheng-ye\u002Flogiqa-zh\n\n### 仅指令集\n\n1. awesome-chatgpt-prompts，该项目基本通过众筹的方式，大家一起设计Prompts，可以用来调教ChatGPT，也可以拿来用Stanford-alpaca形式自行获取语料，有中英两个版本：\n\n   英文：https:\u002F\u002Fgithub.com\u002Ff\u002Fawesome-chatgpt-prompts\u002Fblob\u002Fmain\u002Fprompts.csv\n   \n   简体中文：https:\u002F\u002Fgithub.com\u002FPlexPt\u002Fawesome-chatgpt-prompts-zh\u002Fblob\u002Fmain\u002Fprompts-zh.json\n\n   中国台湾繁体：https:\u002F\u002Fgithub.com\u002FPlexPt\u002Fawesome-chatgpt-prompts-zh\u002Fblob\u002Fmain\u002Fprompts-zh-TW.json\n\n### RLHF\n\n1. PKU-Beaver，该项目首次公开了RLHF所需的数据集、训练和验证代码，是目前首个开源的可复现的RLHF基准。其首次提出了带有约束的价值对齐技术CVA，旨在解决人类标注产生的偏见和歧视等不安全因素。但目前该数据集只有英文。\n\n   英文：https:\u002F\u002Fgithub.com\u002FPKU-Alignment\u002Fsafe-rlhf\n\n2. zhihu_rlhf_3k，基于知乎的强化学习反馈数据集，使用知乎的点赞数来作为评判标准，将同一问题下的回答构成正负样本对（chosen or reject）。\n\n   https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliyucheng\u002Fzhihu_rlhf_3k","# FindTheChatGPTer 快速上手指南\n\nFindTheChatGPTer 并非单一软件，而是一个汇总了各类 ChatGPT\u002FGPT-4 开源“平替”模型的项目列表。本指南将指导你如何从该列表中选择一个主流模型（以 **ChatGLM3-6B** 或 **Qwen-7B** 为例，因其对中文支持好且部署简单）进行快速本地部署和体验。\n\n## 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (需 WSL2)。\n*   **Python 版本**: 3.8 - 3.10。\n*   **硬件要求**:\n    *   **最低配置**: NVIDIA GPU 显存 ≥ 6GB (用于运行 6B-7B 参数量模型的量化版本)。\n    *   **推荐配置**: NVIDIA GPU 显存 ≥ 12GB (用于运行非量化或更大参数模型)。\n    *   若无独立显卡，可使用 CPU 运行量化模型（速度较慢）。\n*   **前置依赖**:\n    *   Git\n    *   CUDA Toolkit (若使用 NVIDIA GPU)\n    *   PyTorch (建议安装支持 CUDA 的版本)\n\n**国内加速方案**:\n推荐使用清华源或阿里源加速 Python 包安装：\n```bash\npip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 安装步骤\n\n以下以部署 **ChatGLM3-6B** 为例（其他模型如 Qwen、Baichuan 流程类似）：\n\n1.  **克隆项目代码**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM3.git\n    cd ChatGLM3\n    ```\n\n2.  **创建虚拟环境并安装依赖**\n    ```bash\n    conda create -n chatglm python=3.10\n    conda activate chatglm\n    pip install -r requirements.txt\n    ```\n    *注：若遇到 `torch` 安装缓慢，可手动指定清华源安装：*\n    ```bash\n    pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n    ```\n\n3.  **下载模型权重**\n    由于模型文件较大，建议使用 `git lfs` 或直接从国内镜像站（如 ModelScope 或 HuggingFace 镜像）下载。\n    \n    *方式 A: 使用 Git LFS (需配置代理或镜像)*\n    ```bash\n    git lfs install\n    git clone https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002Fchatglm3-6b\n    ```\n\n    *方式 B: 使用 ModelScope (魔搭社区，国内推荐)*\n    ```bash\n    pip install modelscope\n    # 编写一个简单的下载脚本 download_model.py\n    from modelscope import snapshot_download\n    model_dir = snapshot_download('ZhipuAI\u002Fchatglm3-6b', cache_dir='.\u002Fmodels')\n    ```\n    运行脚本：`python download_model.py`\n\n## 基本使用\n\n安装完成后，你可以通过命令行或 Python 脚本与模型交互。\n\n### 方法一：使用官方 CLI 工具（最简单）\n\n在项目根目录下直接运行启动脚本：\n\n```bash\npython cli_demo.py\n```\n\n启动后，终端会显示提示符 `用户:`，输入问题即可对话。例如：\n```text\n用户：你好，请介绍一下你自己。\n助手：你好！我是 ChatGLM3-6B，一个由智谱 AI 开源的对话大模型...\n```\n\n### 方法二：Python 代码调用\n\n创建一个 `test_inference.py` 文件，写入以下代码：\n\n```python\nfrom transformers import AutoTokenizer, AutoModel\nimport torch\n\n# 加载模型和分词器\n# 请将路径替换为你实际下载模型的位置\nmodel_path = \".\u002Fchatglm3-6b\" \ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\nmodel = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda()\nmodel = model.eval()\n\n# 构建对话\nresponse, history = model.chat(tokenizer, \"你好，如何用 Python 读取 CSV 文件？\", history=[])\nprint(response)\n\n# 多轮对话示例\nresponse, history = model.chat(tokenizer, \"如果文件很大怎么办？\", history=history)\nprint(response)\n```\n\n运行脚本：\n```bash\npython test_inference.py\n```\n\n> **提示**: 若显存不足，可在加载模型时启用量化（需安装 `bitsandbytes`）：\n> `model = AutoModel.from_pretrained(model_path, trust_remote_code=True).quantize(4).cuda()`","某高校人工智能实验室的研究团队正计划复现 ChatGPT 的核心技术路线，以开展大模型对齐策略的学术研究。\n\n### 没有 FindTheChatGPTer 时\n- **信息检索低效**：研究人员需在 GitHub、Hugging Face 及各类论文中大海捞针，难以区分哪些项目真正实现了 RLHF（人类反馈强化学习）全流程。\n- **选型风险高**：容易误入歧途，例如曾有不少团队将已证实为“愚人节玩笑”的 GPTrillion 万亿参数模型当作真实项目进行调研，浪费宝贵时间。\n- **技术细节模糊**：难以快速对比不同开源模型（如 ChatGLM 与 ColossalAI）在参数量、上下文长度及多模态支持上的具体差异，导致实验环境搭建反复试错。\n- **更新跟踪滞后**：开源社区迭代极快，团队往往错过像 VisualGLM-6B 或 ChatGLM2-6B 这样支持长文本或多模态的关键版本更新。\n\n### 使用 FindTheChatGPTer 后\n- **资源精准聚合**：直接获取按“自主模型”、“多模态”等分类的完整清单，迅速锁定如 ColossalAI 这样完整覆盖 SFT、奖励模型及 PPO 三阶段的项目。\n- **避坑指南明确**：通过项目备注即时识别无效信息（如 GPTrillion 已被删除），确保研究基准建立在真实可用的代码库之上。\n- **决策依据充分**：清晰对比各模型特性，例如根据需求选择支持 32K 上下文的 ChatGLM2-6B 进行长文档分析，或选用 mPLUG-Owl 进行多模态指令测试。\n- **动态同步前沿**：依托持续更新的列表，第一时间掌握 MOSS 插件化能力或 PandaLM 自动评估工具等新进展，保持研究与国际前沿同步。\n\nFindTheChatGPTer 将分散且良莠不齐的开源信息转化为结构化的技术导航图，极大降低了国内开发者探索 AGI 技术的门槛与试错成本。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchenking2020_FindTheChatGPTer_6eed4f57.png","chenking2020",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fchenking2020_f5f3e6aa.png","https:\u002F\u002Fgithub.com\u002Fchenking2020",2015,196,"2026-04-02T17:43:26",4,"","未说明（文中提及部分模型如 ChatGLM-6B 可在消费级显卡运行，RedPajama-3B 可在 RTX2070 运行，alpaca-lora 可在单块 RTX 4090 或树莓派运行，但无统一强制要求）","未说明",{"notes":87,"python":85,"dependencies":88},"该 README 是多个开源大模型项目的汇总列表（如 ChatYuan, ChatGLM, LLaMA, Alpaca 等），并非单一工具 'FindTheChatGPTer' 的安装文档。因此，文中没有提供统一的运行环境需求。具体环境配置需参考列表中各个子项目（如 ChatGLM-6B, alpaca-lora 等）各自的 GitHub 仓库。文中提到部分模型支持在消费级显卡（如 RTX 2070, RTX 3090, RTX 4090）甚至树莓派上运行，且部分项目支持 macOS (M1\u002FM2)。",[],[26,15,13,54],[91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110],"chatglm","llama","belle","vicuna","chatgpt","alpaca","guanaco","lora","llava","minigpt4","autogpt","agi","codi","self-instruct","ceval","learderboard","baichuan","wizadlm","llama2","linly","2026-03-27T02:49:30.150509","2026-04-06T09:46:58.484771",[],[]]