[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-xming521--WeClone":3,"tool-xming521--WeClone":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":77,"owner_website":75,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":10,"env_os":88,"env_gpu":89,"env_ram":90,"env_deps":91,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":108,"updated_at":109,"faqs":110,"releases":141},9009,"xming521\u002FWeClone","WeClone","🚀 One-stop solution for creating your AI twin from chat history 💡 Fine-tune LLMs with your chat logs to capture your unique style, then bind to a chatbot to bring your digital self to life.  从聊天记录创造数字分身的一站式解决方案  ","WeClone 是一款帮你从聊天记录中创造\"AI 数字分身”的一站式开源工具。它旨在解决传统聊天机器人缺乏个人风格、难以模仿用户独特语气和思维习惯的痛点。通过导入你的历史聊天数据，WeClone 能对大型语言模型进行微调，让生成的 AI 不仅懂知识，更拥有和你一样的说话“味道”，从而在多个平台上以你的数字形象与他人互动。\n\n这款工具非常适合希望保留个人数字记忆的普通用户、想要定制个性化客服或虚拟伴侣的创作者，以及关注隐私安全的开发者。其核心亮点在于端到端的完整流程：支持从 Telegram 等平台导出包含文本和图片的聊天数据，经过自动清洗和隐私过滤后，在本地进行模型训练与部署，确保数据不出境、安全可控。目前，WeClone 已支持将训练好的分身接入 Telegram、Discord、Slack 及个人微信等平台。作为一个快速迭代中的开源项目，它为每个人低成本打造专属数字自我提供了极具潜力的技术路径。","![download](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_4e4336114669.png)\n\n\u003Ch3 align=\"center\">🚀 One-stop solution for creating your digital avatar from chat history 💡\u003C\u002Fh3>  \n\n\u003Cdiv align=\"center\">\n\n[![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fxming521\u002FWeClone?style=for-the-badge&logo=github&label=Stars&logoColor=white&color=ffda65)](https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fstargazers)\n[![GitHub release](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fxming521\u002FWeClone?style=for-the-badge&logo=github&label=Release&logoColor=white&color=06d094)](https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Freleases)\n[![Telegram](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTelegram-2CA5E0?style=for-the-badge&logo=telegram&logoColor=white)](https:\u002F\u002Ft.me\u002F+JEdak4m0XEQ3NGNl)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-@weclone567-000000?style=for-the-badge&logo=x&logoColor=white)](https:\u002F\u002Fx.com\u002Fweclone567)\n[![小红书](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeClone-FE2C55?style=for-the-badge&logo=xiaohongshu&logoColor=white)](https:\u002F\u002Fwww.xiaohongshu.com\u002Fuser\u002Fprofile\u002F628109730000000021029de4)\n\u003Ca href=\"https:\u002F\u002Fqm.qq.com\u002Fcgi-bin\u002Fqm\u002Fqr?k=wNdgbOVT6oFOJ2wlMLsolUXErW9ESLpk&jump_from=webapi&authKey=z\u002FreOp6YLyvR4Tl2k2nYMsLoMC3w9\u002F99ucgKMX0oRGlxDV\u002FWbYnvq2QxODoIkfxn\" target=\"_blank\" style=\"text-decoration: none;\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FQQ群-708067078-12B7F5?style=for-the-badge&logo=qq&logoColor=white\" alt=\"WeClone①\" title=\"WeClone①\">\n\u003C\u002Fa>\n\n\n\u003Ca href=\"https:\u002F\u002Fhellogithub.com\u002Frepository\u002F12ab209b56cb4cfd885c8cfd4cfdd53e\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fabroad.hellogithub.com\u002Fv1\u002Fwidgets\u002Frecommend.svg?rid=12ab209b56cb4cfd885c8cfd4cfdd53e&claim_uid=RThlPDoGrFvdMY5\" alt=\"Featured｜HelloGitHub\" style=\"width: 150px; height: 28px;\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F13759\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_4a68feb902da.png\" alt=\"xming521%2FWeClone | Trendshift\" style=\"width: 220px; height: 50px;\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Fxming521\u002FWeClone\">\u003Cimg src=\"https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg\" alt=\"Ask DeepWiki\"  style=\"width: 134px; height: 23px;margin-bottom: 3px;\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fblob\u002Fmaster\u002FREADME_zh.md\" target=\"_blank\">简体中文\u003C\u002Fa>｜\n  English\u003C\u002Fa>｜\n  \u003Ca href=\"https:\u002F\u002Fwww.weclone.love\u002F\" target=\"_blank\"> Project Homepage \u003C\u002Fa> ｜\n  \u003Ca href=\"https:\u002F\u002Fdocs.weclone.love\u002Fdocs\u002Fintroduce\u002Fwhat-is-weclone.html\" target=\"_blank\"> Documentation \u003C\u002Fa> \n\u003C\u002Fp>\n\n> [!IMPORTANT]\n> ### Telegram is now supported as a data source !\n\n## ✨Core Features\n- 💫 Complete end-to-end solution for creating digital avatars, including chat data export, preprocessing, model training, and deployment\n- 💬 Fine-tune LLM using chat history with support for image modal data, infusing it with that authentic \"flavor\"\n- 🔗 Integrate with Telegram, WhatsApp (coming soon) to create your own digital avatar\n- 🛡️ Privacy information filtering with localized fine-tuning and deployment for secure and controllable data\n\n## 📋Features & Notes\n\n### Data Source Platform Support\n\n| Platform | Text | Images | Voice | Video | Animated Emojis\u002FStickers | Links (Sharing) | Quote | Forward | Location | Files |\n|----------|------|--------|-------|-------|-----------------|-----------------|-------|---------|----------|-------|\n| Telegram | ✅ | ✅ | ❌ | ❌ | ⚠️Convert to Emoji | ❌ | ❌ | ✅ | ✅ | ❌ |\n| WhatsApp | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |\n| Discord | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |\n| Slack | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |\n \n### Deployment Platform Support\n\n| Platform | Deployment Support |\n|----------|--------------------|\n| Telegram | ✅ |\n| WhatsApp | 🚧 |\n| WeChat (Personal Account) |✅ (Based on **openclaw-weixin**)|\n| Discord | ✅ |\n| Slack | ✅ |\n\n> [!IMPORTANT]\n> - WeClone is still in rapid iteration phase, current performance does not represent final results.  \n> - LLM fine-tuning effectiveness largely depends on model size, quantity and quality of chat data. Theoretically, larger models with more data yield better results.\n> - The performance of the 7B model is average, while models with 14B or more parameters tend to deliver better results.   \n> - Windows environment has not been rigorously tested. You can use WSL as the runtime environment.\n\n### Recent Updates\n[25\u002F07\u002F10] Data source added Telegram   \n[25\u002F06\u002F05] Support for image modal data fine-tuning    \n\n### Online Fine-Tuning\n- Big Model Lab (Lab4AI) (with 50 CNY voucher): https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=weclone1&id=ab83d14684fa45d197f67eddb3d8316c&type=project\n\n### Hardware Requirements\n\nThe project uses Qwen2.5-VL-7B-Instruct model by default with LoRA method for SFT stage fine-tuning. You can also use other models and methods supported by [LLaMA Factory](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Factory\u002Ftree\u002Fmain#supported-models).\n\nEstimated VRAM requirements: \n| Method                          | Precision |   7B  |  14B  |  30B  |   70B  |   `x`B  |\n| ------------------------------- | --------- | ----- | ----- | ----- | ------ | ------- |\n| Full (`bf16` or `fp16`)         |    32     | 120GB | 240GB | 600GB | 1200GB | `18x`GB |\n| Full (`pure_bf16`)              |    16     |  60GB | 120GB | 300GB |  600GB |  `8x`GB |\n| Freeze\u002FLoRA\u002FGaLore\u002FAPOLLO\u002FBAdam |    16     |  16GB |  32GB |  64GB |  160GB |  `2x`GB |\n| QLoRA                           |     8     |  10GB |  20GB |  40GB |   80GB |   `x`GB |\n| QLoRA                           |     4     |   6GB |  12GB |  24GB |   48GB | `x\u002F2`GB |\n| QLoRA                           |     2     |   4GB |   8GB |  16GB |   24GB | `x\u002F4`GB |\n\n\n## Environment Setup\n1. CUDA installation (skip if already installed, **requires version 12.6 or above**)\n\n2. It is recommended to use [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F) to install dependencies, which is a very fast Python environment manager. After installing uv, you can use the following commands to create a new Python environment and install dependencies. \n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone.git && cd WeClone\nuv venv .venv --python=3.12\nsource .venv\u002Fbin\u002Factivate # windows .venv\\Scripts\\activate\nuv pip install --group main -e . \n```\n\n3. Copy the configuration file template and rename it to `settings.jsonc`, and make subsequent configuration changes in this file:\n\n```bash\ncp examples\u002Ftg.template.jsonc settings.jsonc\n```\n\n> [!NOTE]\n> Training and inference related configurations are unified in the file `settings.jsonc`\n\n4. Use the following command to test whether the CUDA environment is correctly configured and can be recognized by PyTorch (not needed for Mac):\n```bash\n  python -c \"import torch; print('CUDA Available:', torch.cuda.is_available());\"\n```\n\n5. (Optional) Install FlashAttention to accelerate training and inference: `uv pip install flash-attn --no-build-isolation`.\n\n## Model Download\nIt is recommended to use [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Fmodels-downloading) to download models, or use the following command:\n```bash\ngit lfs install\ngit clone https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-VL-7B-Instruct models\u002FQwen2.5-VL-7B-Instruct\n```\n\n## Data Preparation\n\nPlease use [Telegram Desktop](https:\u002F\u002Fdesktop.telegram.org\u002F) to export chat records. Click the top right corner in the chat interface, then click \"Export chat history\". Select Photos for message types and JSON for format. You can export multiple contacts (group chat records are not recommended), then place the exported `ChatExport_*` in the `.\u002Fdataset\u002Ftelegram` directory, meaning put different people's chat record folders together in `.\u002Fdataset\u002Ftelegram`.   \n\n\n## Data Preprocessing\n- First, modify the `language`, `platform`, and `include_type` in the configuration file according to your needs.\n- If you use telegram, you need to modify the `telegram_args.my_id` in the configuration file to your own telegram user ID.\n- By default, the project uses Microsoft Presidio to remove `phone numbers, email addresses, credit card numbers, IP addresses, geographic location names, international bank account numbers, cryptocurrency wallet addresses, age information, and generic ID numbers` from the data, but it cannot guarantee 100% identification.\n- Therefore, a blocklist `blocked_words` is provided in `settings.jsonc`, allowing users to manually add words or phrases they want to filter (the entire sentence containing blocked words will be removed by default).\n\n> [!IMPORTANT]\n> 🚨 Please be sure to protect personal privacy and do not leak personal information!\n\n- Execute the following command to process the data. You can modify the `make_dataset_args` in settings.jsonc according to your own chat style.\n```bash\nweclone-cli make-dataset\n```\nMore Parameter Details: [Data Preprocessing](https:\u002F\u002Fdocs.weclone.love\u002Fdocs\u002Fdeploy\u002Fdata_preprocessing.html#related-parameters)\n\n## Configure Parameters and Fine-tune Model\n\n- (Optional) Modify `model_name_or_path`, `template`, `lora_target` in `settings.jsonc` to select other locally downloaded models.   \n- Modify `per_device_train_batch_size` and `gradient_accumulation_steps` to adjust VRAM usage.  \n- You can modify parameters like `num_train_epochs`, `lora_rank`, `lora_dropout` in `train_sft_args` based on your dataset's quantity and quality.\n\n### Single GPU Training\n```bash\nweclone-cli train-sft\n```\n\n### Multi-GPU Training\nUncomment the `deepspeed` line in `settings.jsonc` and use the following command for multi-GPU training:\n```bash\nuv pip install \"deepspeed\u003C=0.16.9\"\ndeepspeed --num_gpus=number_of_gpus weclone\u002Ftrain\u002Ftrain_sft.py\n```\n\n### Simple Inference with Browser Demo\nTest suitable temperature and top_p values, then modify `infer_args` in settings.jsonc for subsequent inference use.\n```bash\nweclone-cli webchat-demo\n```\n\n### Inference Using API\n\n```bash\nweclone-cli server\n```\n\n### Test with Common Chat Questions\nDoes not include questions asking for personal information, only daily conversation. Test results are in test_result-my.txt.\n```bash\nweclone-cli server\nweclone-cli test-model\n```\n\n## 🖼️ Results Showcase\n> [!TIP] \n> **We're looking for interesting examples of native English speakers chatting with WeClone! Feel free to share them with us on Twitter.**  \n\n\n\n## 🤖 Deploy to Chat Bots\n### AstrBot\n[AstrBot](https:\u002F\u002Fgithub.com\u002FAstrBotDevs\u002FAstrBot) is an easy-to-use multi-platform LLM chatbot and development framework ✨ Supports Discord, Telegram, Slack, Feishu and other platforms.      \n\nUsage steps:\n1. Deploy AstrBot\n2. Deploy messaging platforms like Discord, Telegram, Slack in AstrBot\n3. Execute `weclone-cli server` to start the API service\n4. Add a new service provider in AstrBot, select OpenAI type, fill in the API Base URL according to AstrBot's deployment method (e.g., for docker deployment it might be http:\u002F\u002F172.17.0.1:8005\u002Fv1), fill in the model as gpt-3.5-turbo, and enter any API Key\n5. Tool calling is not supported after fine-tuning, please turn off the default tools first by sending the command: `\u002Ftool off_all` on the messaging platform, otherwise the fine-tuned effect won't be visible.\n6. Set the system prompt in AstrBot according to the default_system used during fine-tuning.\n![5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_eab28f9e287c.png)\n> [!IMPORTANT]\n> Check the api_service logs to ensure that the large model service request parameters are consistent with those used during fine-tuning as much as possible, and turn off all tool plugin capabilities.\n\n### LangBot\n\n[LangBot](https:\u002F\u002Fgithub.com\u002Flangbot-app\u002FLangBot) is an easy-to-use open-source LLM chatbot platform suitable for various scenarios. It connects to various global instant messaging platforms. You can set up your IM bot in just 5 minutes.\n\n\u003Cimg width=\"400px\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_9a1a9da02487.png\" \u002F>\n\n1. [Deploy LangBot](https:\u002F\u002Fgithub.com\u002FRockChinQ\u002FLangBot\u002Fblob\u002Fmaster\u002FREADME_EN.md#-getting-started)\n2. Add a bot (Discord, Telegram, Slack, Lark e.g.) in LangBot\n3. Execute `weclone-cli server` to start the WeClone API service\n4. Add a new model in the model page, name it `gpt-3.5-turbo`, select OpenAI as the provider, fill in the request URL as WeClone's address. For detailed connection methods, refer to the [documentation](https:\u002F\u002Fdocs.langbot.app\u002Fen\u002Fworkshop\u002Fnetwork-details.html), and enter any API Key.\n\n\u003Cimg width=\"400px\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_335de38df54d.png\" \u002F>\n\n6. Select the model you just added in the pipeline configuration, or modify the prompt configuration\n\n\u003Cimg width=\"400px\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_0f89ca6839ed.png\" \u002F>\n\n\n## 📌 Roadmap\n- [ ] Support more data sources\n- [ ] Richer context: including contextual conversations, chat participant information, time, etc.\n- [ ] Memory support\n- [ ] Multimodal support: image support already implemented\n- [ ] Data augmentation\n- [ ] GUI support\n- [ ] COT (Chain of Thought) thinking support\n\n## Troubleshooting\n#### [Official Documentation FAQ](https:\u002F\u002Fdocs.weclone.love\u002Fdocs\u002Fintroduce\u002FFAQ.html)    \nIt is also recommended to use [DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fxming521\u002FWeClone) for problem solving.\n\n\n## ❤️ Contributing\n\nAny Issues\u002FPull Requests are welcome!\n\nYou can contribute by checking Issues or helping review PRs (Pull Requests). For new feature additions, please discuss through Issues first.   \nDevelopment environment:\n```bash\nuv pip install --group dev -e .\npre-commit install\n```\n\nThe project uses `pytest` for testing, `pyright` for type checking, and `ruff` for code formatting.   \nBefore submitting your code, you should run `pytest tests` to ensure all tests pass.\n\n\n## 🙏 Acknowledgments\n\nThanks to the following code contributors and other community members for their contributions\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_a9ede50803a5.png\" \u002F>\n\u003C\u002Fa>\n\nThis project also benefits from excellent open source projects such as [PyWxDump](https:\u002F\u002Fgithub.com\u002Fxaoyaoo\u002FPyWxDump), [LLaMA-Factory](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Factory), [AstrBot](https:\u002F\u002Fgithub.com\u002FAstrBotDevs\u002FAstrBot), [LangBot](https:\u002F\u002Fgithub.com\u002FRockChinQ\u002FLangBot), and others.\n\u003Cp>This project is supported by:\u003C\u002Fp>\n\u003Cp>\n  \u003Ca href=\"https:\u002F\u002Fwww.digitalocean.com\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fopensource.nyc3.cdn.digitaloceanspaces.com\u002Fattribution\u002Fassets\u002FSVG\u002FDO_Logo_horizontal_blue.svg\" width=\"201px\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n## ⚠️ Disclaimer\n> [!CAUTION]\n> **This project is for learning, research and experimental purposes only. There are significant risks in using it for production environments, please assess carefully. Do not use for illegal purposes, consequences are at your own risk.**\n\n> [!IMPORTANT]\n> #### WeClone is currently not partnered with any platform and has not issued any cryptocurrency. The only official website is: [weclone.love](https:\u002F\u002Fwww.weclone.love). Beware of imitations.\n\n\u003Cdetails>\n\u003Csummary>Click to view disclaimer terms\u003C\u002Fsummary>\n\n### 1. Use at Your Own Risk\n- Users should fully understand and bear all related risks when using this project\n- **The project authors are not responsible for any direct or indirect losses arising from the use of this project**\n- Including but not limited to: data loss, financial loss, legal disputes, personal reputation damage, social relationship impact, psychological trauma, career development obstacles, business reputation damage, etc.\n\n### 2. Production Environment Risk Warning\n- **Use for commercial purposes or providing external services requires bearing all risks yourself**\n- All consequences that may result from production environment use (including but not limited to service interruption, data security issues, user complaints, legal liability, etc.) are entirely borne by the user\n- **It is recommended to conduct thorough testing, verification and risk assessment before using in production environments**\n\n### 3. Model Output Unreliability\n- Fine-tuned models may produce inaccurate, harmful or misleading content\n- Model outputs do not represent the views or intentions of real persons\n- Users should conduct manual review and verification of model outputs\n\n### 4. Data Security and Privacy\n- Users should ensure that uploaded chat records and other data comply with relevant laws and regulations\n- Users should obtain **appropriate authorization from data-related persons**\n- This project is not responsible for **data leakage or privacy infringement**\n\n### 5. Legal Compliance\n- **Users should ensure that using this project complies with local laws and regulations**\n- Involving artificial intelligence, data protection, intellectual property and other related laws\n- **Users bear the consequences of illegal use**\n\n### 6. Technical Support Limitations\n- This project is provided \"as is\" without any express or implied warranties\n- Authors do not promise to provide continuous technical support or maintenance\n- No guarantee of project stability, reliability or applicability\n\n## Usage Recommendations\n\n### Mandatory Bot Identity Identification\n**When using digital avatars generated by this project, it is strongly recommended to:**\n- Clearly identify as \"AI Bot\" or \"Digital Avatar\" at the beginning of each conversation\n- Prominently mark \"AI-generated content\" in the user interface\n- Avoid letting users mistake it for real human conversation, which could cause risks\n\n### Risk Assessment Recommendations\n\nIf you must use in production environments, it is recommended to:\n1. Conduct comprehensive security testing\n2. Establish complete content review mechanisms\n3. Develop emergency response plans\n4. Purchase appropriate insurance coverage\n5. Consult legal professionals for advice\n\n\nThis disclaimer may be revised with project updates, users should regularly check the latest version. Continuing to use this project indicates agreement with the latest disclaimer terms.\n\n**Once you download, clone, modify, distribute or use the code or models of this project in any way, it indicates that you have fully read, understood and agreed to unconditionally accept all terms of this disclaimer.**\n\n\u003C\u002Fdetails>\n\n**Please carefully read and understand all contents of this disclaimer, ensuring strict compliance with relevant regulations when using this project.**\n\u003Cbr>  \n\n## ⭐ Star History\n> [!TIP] \n> If this project is helpful to you, or if you are interested in the future development of this project, please give the project a Star, thank you \n\n\u003Cdiv align=\"center\">\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_698efe89adc8.png)](https:\u002F\u002Fwww.star-history.com\u002F#xming521\u002FWeClone&Date)\n\n\u003C\u002Fdiv>\n","![download](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_4e4336114669.png)\n\n\u003Ch3 align=\"center\">🚀 从聊天记录创建数字分身的一站式解决方案 💡\u003C\u002Fh3>  \n\n\u003Cdiv align=\"center\">\n\n[![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fxming521\u002FWeClone?style=for-the-badge&logo=github&label=Stars&logoColor=white&color=ffda65)](https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fstargazers)\n[![GitHub 发布](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fxming521\u002FWeClone?style=for-the-badge&logo=github&label=Release&logoColor=white&color=06d094)](https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Freleases)\n[![Telegram](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTelegram-2CA5E0?style=for-the-badge&logo=telegram&logoColor=white)](https:\u002F\u002Ft.me\u002F+JEdak4m0XEQ3NGNl)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-@weclone567-000000?style=for-the-badge&logo=x&logoColor=white)](https:\u002F\u002Fx.com\u002Fweclone567)\n[![小红书](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeClone-FE2C55?style=for-the-badge&logo=xiaohongshu&logoColor=white)](https:\u002F\u002Fwww.xiaohongshu.com\u002Fuser\u002Fprofile\u002F628109730000000021029de4)\n\u003Ca href=\"https:\u002F\u002Fqm.qq.com\u002Fcgi-bin\u002Fqm\u002Fqr?k=wNdgbOVT6oFOJ2wlMLsolUXErW9ESLpk&jump_from=webapi&authKey=z\u002FreOp6YLyvR4Tl2k2nYMsLoMC3w9\u002F99ucgKMX0oRGlxDV\u002FWbYnvq2QxODoIkfxn\" target=\"_blank\" style=\"text-decoration: none;\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FQQ群-708067078-12B7F5?style=for-the-badge&logo=qq&logoColor=white\" alt=\"WeClone①\" title=\"WeClone①\">\n\u003C\u002Fa>\n\n\n\u003Ca href=\"https:\u002F\u002Fhellogithub.com\u002Frepository\u002F12ab209b56cb4cfd885c8cfd4cfdd53e\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fabroad.hellogithub.com\u002Fv1\u002Fwidgets\u002Frecommend.svg?rid=12ab209b56cb4cfd885c8cfd4cfdd53e&claim_uid=RThlPDoGrFvdMY5\" alt=\"精选｜HelloGitHub\" style=\"width: 150px; height: 28px;\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F13759\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_4a68feb902da.png\" alt=\"xming521%2FWeClone | Trendshift\" style=\"width: 220px; height: 50px;\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Fxming521\u002FWeClone\">\u003Cimg src=\"https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg\" alt=\"Ask DeepWiki\"  style=\"width: 134px; height: 23px;margin-bottom: 3px;\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fblob\u002Fmaster\u002FREADME_zh.md\" target=\"_blank\">简体中文\u003C\u002Fa>｜\n  English\u003C\u002Fa>｜\n  \u003Ca href=\"https:\u002F\u002Fwww.weclone.love\u002F\" target=\"_blank\"> Project Homepage \u003C\u002Fa> ｜\n  \u003Ca href=\"https:\u002F\u002Fdocs.weclone.love\u002Fdocs\u002Fintroduce\u002Fwhat-is-weclone.html\" target=\"_blank\"> Documentation \u003C\u002Fa> \n\u003C\u002Fp>\n\n> [!IMPORTANT]\n> ### Telegram 现已支持作为数据源！\n\n## ✨核心功能\n- 💫 完整的端到端数字分身创建方案，包括聊天数据导出、预处理、模型训练和部署\n- 💬 使用聊天历史微调大语言模型，支持图像模态数据，赋予其独特的“风味”\n- 🔗 可与 Telegram、WhatsApp（即将上线）集成，创建属于你的数字分身\n- 🛡️ 隐私信息过滤，结合本地化微调与部署，确保数据安全可控\n\n## 📋功能与说明\n\n### 数据源平台支持\n\n| 平台 | 文本 | 图片 | 语音 | 视频 | 动画表情\u002F贴纸 | 链接（分享） | 引用 | 转发 | 位置 | 文件 |\n|----------|------|--------|-------|-------|-----------------|-----------------|-------|---------|----------|-------|\n| Telegram | ✅ | ✅ | ❌ | ❌ | ⚠️转换为表情 | ❌ | ❌ | ✅ | ✅ | ❌ |\n| WhatsApp | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |\n| Discord | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |\n| Slack | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |\n\n### 部署平台支持\n\n| 平台 | 部署支持 |\n|----------|--------------------|\n| Telegram | ✅ |\n| WhatsApp | 🚧 |\n| 微信（个人账号） |✅（基于 **openclaw-weixin**）|\n| Discord | ✅ |\n| Slack | ✅ |\n\n> [!IMPORTANT]\n> - WeClone 仍处于快速迭代阶段，当前性能不代表最终结果。  \n> - LLM 微调效果很大程度上取决于模型规模、聊天数据的数量和质量。理论上，模型越大、数据越多，效果越好。\n> - 7B 模型的表现一般，而 14B 或更高参数的模型通常能带来更好的效果。   \n> - Windows 环境尚未经过严格测试。你可以使用 WSL 作为运行环境。\n\n### 最新更新\n[25\u002F07\u002F10] 增加 Telegram 数据源   \n[25\u002F06\u002F05] 支持图像模态数据微调    \n\n### 在线微调\n- Big Model Lab (Lab4AI)（附赠 50 元代金券）：https:\u002F\u002Fwww.lab4ai.cn\u002Fproject\u002Fdetail?utm_source=weclone1&id=ab83d14684fa45d197f67eddb3d8316c&type=project\n\n### 硬件要求\n\n该项目默认使用 Qwen2.5-VL-7B-Instruct 模型，并在 SFT 阶段采用 LoRA 方法进行微调。你也可以使用 [LLaMA Factory](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Factory\u002Ftree\u002Fmain#supported-models) 支持的其他模型和方法。\n\nVRAM 需求估算：\n| 方法                          | 精度 |   7B  |  14B  |  30B  |   70B  |   `x`B  |\n| ------------------------------- | --------- | ----- | ----- | ----- | ------ | ------- |\n| 全量（`bf16` 或 `fp16`）         |    32     | 120GB | 240GB | 600GB | 1200GB | `18x`GB |\n| 全量（`pure_bf16`）              |    16     |  60GB | 120GB | 300GB |  600GB |  `8x`GB |\n| 冻结\u002FLoRA\u002FGaLore\u002FAPOLLO\u002FBAdam |    16     |  16GB |  32GB |  64GB |  160GB |  `2x`GB |\n| QLoRA                           |     8     |  10GB |  20GB |  40GB |   80GB |   `x`GB |\n| QLoRA                           |     4     |   6GB |  12GB |  24GB |   48GB | `x\u002F2`GB |\n| QLoRA                           |     2     |   4GB |   8GB |  16GB |   24GB | `x\u002F4`GB |\n\n\n## 环境搭建\n1. CUDA 安装（若已安装可跳过，**需版本 12.6 或以上**）\n\n2. 推荐使用 [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F) 来安装依赖，它是一个非常快速的 Python 环境管理器。安装 uv 后，可以使用以下命令创建新的 Python 环境并安装依赖。 \n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone.git && cd WeClone\nuv venv .venv --python=3.12\nsource .venv\u002Fbin\u002Factivate # windows .venv\\Scripts\\activate\nuv pip install --group main -e . \n```\n\n3. 复制配置文件模板并重命名为 `settings.jsonc`，后续配置修改均在此文件中进行：\n\n```bash\ncp examples\u002Ftg.template.jsonc settings.jsonc\n```\n\n> [!NOTE]\n> 训练和推理相关配置统一放在 `settings.jsonc` 文件中\n\n4. 使用以下命令测试 CUDA 环境是否正确配置且被 PyTorch 识别（Mac 用户无需此步骤）：\n```bash\n  python -c \"import torch; print('CUDA Available:', torch.cuda.is_available());\"\n```\n\n5. （可选）安装 FlashAttention 以加速训练和推理：`uv pip install flash-attn --no-build-isolation`。\n\n## 模型下载\n建议使用 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fhub\u002Fmodels-downloading) 下载模型，或者使用以下命令：\n```bash\ngit lfs install\ngit clone https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-VL-7B-Instruct models\u002FQwen2.5-VL-7B-Instruct\n```\n\n## 数据准备\n\n请使用 [Telegram Desktop](https:\u002F\u002Fdesktop.telegram.org\u002F) 导出聊天记录。在聊天界面中点击右上角，然后选择“导出聊天记录”。消息类型选择“照片”，格式选择“JSON”。您可以导出多个联系人的聊天记录（不建议导出群聊记录），然后将导出的 `ChatExport_*` 文件夹放入 `.\u002Fdataset\u002Ftelegram` 目录下，即将不同用户的聊天记录文件夹统一放置在 `.\u002Fdataset\u002Ftelegram` 中。\n\n\n## 数据预处理\n- 首先，请根据您的需求修改配置文件中的 `language`、`platform` 和 `include_type`。\n- 如果您使用 Telegram，需要将配置文件中的 `telegram_args.my_id` 修改为您自己的 Telegram 用户 ID。\n- 默认情况下，项目会使用 Microsoft Presidio 从数据中移除 `电话号码、电子邮件地址、信用卡号码、IP 地址、地理位置名称、国际银行账号、加密货币钱包地址、年龄信息以及通用身份证号码`，但无法保证 100% 的识别率。\n- 因此，在 `settings.jsonc` 中提供了一个黑名单 `blocked_words`，允许用户手动添加想要过滤的单词或短语（默认会移除包含黑名单词汇的整句话）。\n\n> [!IMPORTANT]\n> 🚨 请务必保护个人隐私，切勿泄露个人信息！\n\n- 执行以下命令来处理数据。您可以根据自己的聊天风格修改 `settings.jsonc` 中的 `make_dataset_args`。\n```bash\nweclone-cli make-dataset\n```\n更多参数详情：[数据预处理](https:\u002F\u002Fdocs.weclone.love\u002Fdocs\u002Fdeploy\u002Fdata_preprocessing.html#related-parameters)\n\n## 配置参数并微调模型\n\n- （可选）修改 `settings.jsonc` 中的 `model_name_or_path`、`template`、`lora_target` 来选择其他本地下载的模型。\n- 修改 `per_device_train_batch_size` 和 `gradient_accumulation_steps` 以调整显存占用。\n- 您可以根据数据集的数量和质量，修改 `train_sft_args` 中的 `num_train_epochs`、`lora_rank`、`lora_dropout` 等参数。\n\n### 单 GPU 训练\n```bash\nweclone-cli train-sft\n```\n\n### 多 GPU 训练\n取消注释 `settings.jsonc` 中的 `deepspeed` 行，并使用以下命令进行多 GPU 训练：\n```bash\nuv pip install \"deepspeed\u003C=0.16.9\"\ndeepspeed --num_gpus=number_of_gpus weclone\u002Ftrain\u002Ftrain_sft.py\n```\n\n### 使用浏览器演示进行简单推理\n测试合适的 temperature 和 top_p 值，然后修改 `settings.jsonc` 中的 `infer_args` 以便后续推理使用。\n```bash\nweclone-cli webchat-demo\n```\n\n### 使用 API 进行推理\n\n```bash\nweclone-cli server\n```\n\n### 使用常见聊天问题进行测试\n不包含要求提供个人信息的问题，仅包括日常对话。测试结果保存在 test_result-my.txt 中。\n```bash\nweclone-cli server\nweclone-cli test-model\n```\n\n## 🖼️ 结果展示\n> [!TIP] \n> **我们正在寻找母语为英语的用户与 WeClone 聊天的有趣案例！欢迎在 Twitter 上与我们分享。**  \n\n\n\n## 🤖 部署到聊天机器人\n\n### AstrBot\n[AstrBot](https:\u002F\u002Fgithub.com\u002FAstrBotDevs\u002FAstrBot) 是一个易于使用的多平台 LLM 聊天机器人及开发框架 ✨ 支持 Discord、Telegram、Slack、飞书等平台。      \n\n使用步骤：\n1. 部署 AstrBot\n2. 在 AstrBot 中部署 Discord、Telegram、Slack 等消息平台\n3. 执行 `weclone-cli server` 启动 API 服务\n4. 在 AstrBot 中添加新的服务提供商，选择 OpenAI 类型，根据 AstrBot 的部署方式填写 API 基础 URL（例如，对于 Docker 部署可能是 http:\u002F\u002F172.17.0.1:8005\u002Fv1），模型填写为 gpt-3.5-turbo，并输入任意 API 密钥。\n5. 微调后不支持工具调用，请先通过发送命令 `\u002Ftool off_all` 关闭默认工具，否则微调效果将无法体现。\n6. 根据微调时使用的 default_system，在 AstrBot 中设置系统提示词。\n![5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_eab28f9e287c.png)\n> [!IMPORTANT]\n> 请检查 api_service 日志，确保大模型服务请求参数尽可能与微调时一致，并关闭所有工具插件功能。\n\n### LangBot\n\n[LangBot](https:\u002F\u002Fgithub.com\u002Flangbot-app\u002FLangBot) 是一个易于使用的开源 LLM 聊天机器人平台，适用于各种场景。它可连接全球多种即时通讯平台，您只需 5 分钟即可搭建自己的 IM 机器人。\n\n\u003Cimg width=\"400px\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_9a1a9da02487.png\" \u002F>\n\n1. [部署 LangBot](https:\u002F\u002Fgithub.com\u002FRockChinQ\u002FLangBot\u002Fblob\u002Fmaster\u002FREADME_EN.md#-getting-started)\n2. 在 LangBot 中添加机器人（如 Discord、Telegram、Slack、Lark 等）\n3. 执行 `weclone-cli server` 启动 WeClone API 服务\n4. 在模型页面中添加新模型，命名为 `gpt-3.5-turbo`，选择 OpenAI 作为提供商，将请求 URL 填写为 WeClone 的地址。详细连接方法请参考 [文档](https:\u002F\u002Fdocs.langbot.app\u002Fen\u002Fworkshop\u002Fnetwork-details.html)，并输入任意 API 密钥。\n\n\u003Cimg width=\"400px\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_335de38df54d.png\" \u002F>\n\n6. 在管道配置中选择刚刚添加的模型，或修改提示词配置。\n\n\u003Cimg width=\"400px\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_0f89ca6839ed.png\" \u002F>\n\n\n## 📌 路线图\n- [ ] 支持更多数据源\n- [ ] 更丰富的上下文：包括上下文对话、聊天参与者信息、时间等\n- [ ] 内存支持\n- [ ] 多模态支持：图像支持已实现\n- [ ] 数据增强\n- [ ] GUI 支持\n- [ ] COT（思维链）支持\n\n## 故障排除\n#### [官方文档 FAQ](https:\u002F\u002Fdocs.weclone.love\u002Fdocs\u002Fintroduce\u002FFAQ.html)    \n也推荐使用 [DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fxming521\u002FWeClone) 解决问题。\n\n\n## ❤️ 贡献\n\n欢迎提交任何问题或拉取请求！\n\n您可以通过查看 Issues 或帮助审查 PR（Pull Requests）来贡献。对于新功能的添加，请先通过 Issues 进行讨论。   \n开发环境：\n```bash\nuv pip install --group dev -e .\npre-commit install\n```\n\n该项目使用 `pytest` 进行测试，`pyright` 进行类型检查，`ruff` 进行代码格式化。   \n在提交代码之前，您应该运行 `pytest tests` 以确保所有测试都通过。\n\n## 🙏 致谢\n\n感谢以下代码贡献者及其他社区成员的贡献：\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_a9ede50803a5.png\" \u002F>\n\u003C\u002Fa>\n\n本项目也受益于诸多优秀的开源项目，如 [PyWxDump](https:\u002F\u002Fgithub.com\u002Fxaoyaoo\u002FPyWxDump)、[LLaMA-Factory](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Factory)、[AstrBot](https:\u002F\u002Fgithub.com\u002FAstrBotDevs\u002FAstrBot)、[LangBot](https:\u002F\u002Fgithub.com\u002FRockChinQ\u002FLangBot) 等。\n\n\u003Cp>本项目由以下机构支持：\u003C\u002Fp>\n\u003Cp>\n  \u003Ca href=\"https:\u002F\u002Fwww.digitalocean.com\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fopensource.nyc3.cdn.digitaloceanspaces.com\u002Fattribution\u002Fassets\u002FSVG\u002FDO_Logo_horizontal_blue.svg\" width=\"201px\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n## ⚠️ 免责声明\n> [!CAUTION]\n> **本项目仅用于学习、研究和实验目的。将其用于生产环境存在重大风险，请谨慎评估。请勿用于非法用途，后果自负。**\n\n> [!IMPORTANT]\n> #### WeClone 目前未与任何平台合作，也未发行任何加密货币。唯一官方网址为：[weclone.love](https:\u002F\u002Fwww.weclone.love)。请警惕仿冒网站。\n\n\u003Cdetails>\n\u003Csummary>点击查看免责声明条款\u003C\u002Fsummary>\n\n### 1. 自行承担使用风险\n- 用户在使用本项目时，应充分了解并自行承担所有相关风险。\n- **项目作者对因使用本项目而产生的任何直接或间接损失不承担任何责任**。\n- 包括但不限于：数据丢失、经济损失、法律纠纷、个人声誉受损、社会关系影响、心理创伤、职业发展障碍、商业信誉损害等。\n\n### 2. 生产环境风险提示\n- **用于商业用途或对外提供服务需自行承担全部风险**。\n- 因生产环境使用可能引发的一切后果（包括但不限于服务中断、数据安全问题、用户投诉、法律责任等）均由用户自行承担。\n- **建议在生产环境中使用前进行充分的测试、验证及风险评估**。\n\n### 3. 模型输出不可靠\n- 经过微调的模型可能会产生不准确、有害或误导性的内容。\n- 模型输出并不代表真实人物的观点或意图。\n- 用户应对模型输出进行人工审核和验证。\n\n### 4. 数据安全与隐私\n- 用户应确保上传的聊天记录及其他数据符合相关法律法规。\n- 用户应获得**数据相关方的适当授权**。\n- 本项目对**数据泄露或隐私侵犯**不承担任何责任。\n\n### 5. 法律合规\n- **用户应确保使用本项目符合当地法律法规**。\n- 涉及人工智能、数据保护、知识产权等相关法律。\n- **用户需自行承担非法使用带来的后果**。\n\n### 6. 技术支持限制\n- 本项目按“现状”提供，不提供任何明示或暗示的担保。\n- 作者不承诺提供持续的技术支持或维护。\n- 不保证项目的稳定性、可靠性或适用性。\n\n## 使用建议\n\n### 强制标识机器人身份\n**在使用本项目生成的数字分身时，强烈建议：**\n- 在每次对话开始时明确标识为“AI 机器人”或“数字分身”。\n- 在用户界面显著标注“AI 生成内容”。\n- 避免让用户误以为是真人对话，以免造成风险。\n\n### 风险评估建议\n\n如确需在生产环境中使用，建议：\n1. 进行全面的安全测试。\n2. 建立完善的内容审核机制。\n3. 制定应急响应预案。\n4. 购买适当的保险保障。\n5. 咨询法律专业人士的意见。\n\n本免责声明可能随项目更新而修订，用户应定期查看最新版本。继续使用本项目即表示同意最新的免责声明条款。\n\n**一旦您以任何方式下载、克隆、修改、分发或使用本项目的代码或模型，即表示您已完全阅读、理解并无条件接受本免责声明的所有条款。**\n\n\u003C\u002Fdetails>\n\n**请仔细阅读并理解本免责声明的所有内容，在使用本项目时务必严格遵守相关法规。**\n\u003Cbr>  \n\n## ⭐ 星标历史\n> [!TIP] \n> 如果本项目对您有所帮助，或您对本项目的未来发展感兴趣，请为本项目点亮星标，谢谢！\n\n\u003Cdiv align=\"center\">\n\n[![星标历史图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_readme_698efe89adc8.png)](https:\u002F\u002Fwww.star-history.com\u002F#xming521\u002FWeClone&Date)\n\n\u003C\u002Fdiv>","# WeClone 快速上手指南\n\nWeClone 是一个一站式数字分身创建工具，支持从聊天记录（如 Telegram）导出、预处理、模型微调到部署的全流程。本指南将帮助你快速在本地搭建并运行 WeClone。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐) 或 macOS。Windows 用户建议使用 WSL2。\n- **CUDA**: 版本需 **12.6** 或以上（用于 GPU 加速训练）。\n- **Python**: 建议版本 **3.12**。\n- **显存要求**:\n  - 默认使用 `Qwen2.5-VL-7B-Instruct` 模型配合 LoRA 微调。\n  - **最低显存**: 约 6GB (QLoRA 4-bit) 至 10GB (QLoRA 8-bit)。\n  - **推荐显存**: 16GB 以上以获得更稳定的训练效果。\n\n### 前置依赖\n- 确保已安装 `git` 和 `git-lfs` (用于下载大模型)。\n- 推荐使用 [`uv`](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F) 作为 Python 包管理器，速度极快。\n\n## 2. 安装步骤\n\n### 第一步：克隆项目与配置虚拟环境\n使用 `uv` 创建隔离的 Python 环境并安装依赖：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone.git && cd WeClone\nuv venv .venv --python=3.12\nsource .venv\u002Fbin\u002Factivate \n# Windows 用户请使用: .venv\\Scripts\\activate\n\n# 安装核心依赖\nuv pip install --group main -e . \n```\n\n> **可选优化**: 安装 FlashAttention 以加速训练和推理（需 CUDA 环境）：\n> ```bash\n> uv pip install flash-attn --no-build-isolation\n> ```\n\n### 第二步：配置文件初始化\n复制配置模板并重命名为 `settings.jsonc`，后续所有配置均在此文件修改：\n\n```bash\ncp examples\u002Ftg.template.jsonc settings.jsonc\n```\n\n### 第三步：下载基础模型\n推荐使用 Hugging Face 下载默认模型 `Qwen2.5-VL-7B-Instruct`：\n\n```bash\ngit lfs install\ngit clone https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-VL-7B-Instruct models\u002FQwen2.5-VL-7B-Instruct\n```\n*(注：国内用户若访问 HF 受阻，可使用镜像站或手动下载后放入 `models\u002F` 目录)*\n\n### 第四步：验证环境\n确认 PyTorch 能正确识别 CUDA（Mac 用户可跳过）：\n\n```bash\npython -c \"import torch; print('CUDA Available:', torch.cuda.is_available());\"\n```\n\n## 3. 基本使用\n\n### 数据准备 (以 Telegram 为例)\n1. 打开 **Telegram Desktop** 客户端。\n2. 进入目标聊天窗口，点击右上角菜单 -> **Export chat history**。\n3. 格式选择 **JSON**，媒体类型勾选 **Photos** (支持图片模态)。\n4. 将导出的 `ChatExport_*` 文件夹移动至项目根目录下的 `.\u002Fdataset\u002Ftelegram` 文件夹中。\n\n### 数据预处理\n编辑 `settings.jsonc`：\n- 设置 `language` (如 \"zh\")。\n- 设置 `platform` 为 \"telegram\"。\n- **重要**: 修改 `telegram_args.my_id` 为你的 Telegram 用户 ID。\n- (可选) 在 `blocked_words` 中添加需过滤的敏感词。\n\n执行预处理命令：\n```bash\nweclone-cli make-dataset\n```\n\n### 模型微调 (SFT)\n编辑 `settings.jsonc` 调整训练参数（如 `per_device_train_batch_size` 以适应显存）：\n- 单卡训练直接运行：\n```bash\nweclone-cli train-sft\n```\n- 多卡训练需先安装 deepspeed (`uv pip install \"deepspeed\u003C=0.16.9\"`)，取消配置文件中 `deepspeed` 注释后运行：\n```bash\ndeepspeed --num_gpus=2 weclone\u002Ftrain\u002Ftrain_sft.py\n```\n\n### 快速测试与部署\n微调完成后，启动本地 Web 界面进行对话测试：\n\n```bash\nweclone-cli webchat-demo\n```\n浏览器访问提示的地址即可与你的数字分身对话。\n\n若需集成到其他机器人平台（如 AstrBot, LangBot），可启动 API 服务：\n```bash\nweclone-cli server\n```\n此时服务默认运行在 `http:\u002F\u002Flocalhost:8005`，兼容 OpenAI API 格式。","资深内容创作者老张希望在自己休假期间，让一个能完美复刻其写作风格和互动习惯的“数字分身”继续维护社群并回复粉丝咨询。\n\n### 没有 WeClone 时\n- **风格难以复制**：雇佣的临时助理只能机械回复，无法模仿老张独特的幽默感和专业术语，导致粉丝感觉“味道不对”。\n- **数据整理繁琐**：手动导出微信或 Telegram 聊天记录并清洗格式耗时数天，且容易遗漏包含图片的多模态上下文。\n- **隐私泄露风险**：将敏感聊天数据上传至第三方云端训练平台，担心核心客户信息和私人对话被滥用。\n- **部署门槛极高**：缺乏算法背景，无法独立完成从数据预处理、模型微调到机器人部署的全流程，项目被迫搁置。\n\n### 使用 WeClone 后\n- **精准风格复刻**：直接导入历史聊天记录，WeClone 自动微调大模型，成功捕捉老张的语气、表情习惯甚至图片回复逻辑。\n- **一站式自动化**：内置数据导出与预处理工具，支持 Telegram 等多平台数据一键清洗，将原本数天的准备工作缩短至小时级。\n- **本地化安全可控**：支持本地化微调和部署，敏感数据无需出域，在保障隐私安全的前提下完成了数字分身的构建。\n- **无缝集成上线**：提供端到端解决方案，轻松将训练好的模型绑定至 Telegram 或微信机器人，实现真正的“无人值守”智能互动。\n\nWeClone 通过低代码的一站式流程，让普通人也能基于自有数据低成本构建高保真、安全可控的专属数字分身。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxming521_WeClone_5c454bef.png","xming521","小铭","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fxming521_69b59907.png",null,"xming567@qq.com","weclone567","https:\u002F\u002Fgithub.com\u002Fxming521",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,17552,1484,"2026-04-18T03:45:23","AGPL-3.0","Linux, macOS, Windows (建议使用 WSL)","需要 NVIDIA GPU (Mac 除外)。显存需求取决于模型大小和训练方法：7B 模型 QLoRA (4bit) 需 6GB，LoRA (16bit) 需 16GB；14B+ 模型推荐以获得更好效果。必须安装 CUDA 12.6 或以上版本。可选安装 FlashAttention 加速。","未说明",{"notes":92,"python":93,"dependencies":94},"1. Windows 环境未经过严格测试，推荐使用 WSL 作为运行环境。2. 默认使用 Qwen2.5-VL-7B-Instruct 模型，支持通过 LLaMA Factory 切换其他模型。3. 数据预处理默认使用 Microsoft Presidio 过滤隐私信息，并支持自定义黑名单。4. 建议使用 uv 管理 Python 环境和依赖。5. 多显卡训练需安装 deepspeed (版本\u003C=0.16.9)。","3.12",[95,96,97,98,99,100],"torch","LLaMA-Factory","flash-attn (可选)","deepspeed (多卡训练可选)","Microsoft Presidio","uv",[14,35],[103,104,105,106,107],"llm","qwen","chat-history","digital-avatar","telegram","2026-03-27T02:49:30.150509","2026-04-18T17:04:41.224106",[111,116,121,126,131,136],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},40411,"遇到 transformers 版本兼容性问题（如 ImportError 或 AttributeError）该如何解决？","不同版本的 transformers 可能导致导入错误或属性缺失。建议检查项目依赖文档，确保使用推荐的 transformers 版本。如果问题持续，尝试更新或降级 transformers 库，并确保 ml_dtypes 等相关依赖库版本匹配。维护者通常会在最新代码中修复此类兼容性问题，建议拉取最新代码重试。","https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fissues\u002F2",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},40412,"在 Windows 上微调训练时进度卡死、内存爆满但 GPU\u002FCPU 占用低怎么办？","这通常是因为在 Windows 环境下使用 uv 安装 torch 时未正确安装 CUDA 版本。请确认已安装带有 CUDA 支持的 torch。维护者建议加入官方 QQ 群（708067078）讨论具体环境配置。此外，显存较小的显卡（如 3050\u002F4060）可能难以直接运行，建议租用云端显卡进行训练。","https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fissues\u002F28",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},40413,"Windows 下运行 weclone-cli make-dataset 提示 'No module named vllm._C' 错误如何解决？","该错误通常由 vllm 模块安装不完整引起。解决方法是拉取最新代码并重新安装 vllm：\n1. 执行 `git pull https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone.git` 拉取最新代码。\n2. 执行 `uv pip uninstall vllm` 卸载当前的 vllm 模块。\n3. 重新按照安装教程安装依赖。如果不使用 vllm 训练，推理时可能需要手动插入 patch 以支持 vllm 推理。","https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fissues\u002F53",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},40414,"安装过程中出现 'ERROR: Failed building wheel for vllm' 错误怎么办？","构建 vllm wheel 失败通常是由于环境配置或源码编译问题。推荐的快速解决方案是：\n1. 拉取最新代码：`git pull https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone.git`\n2. 卸载 vllm：`uv pip uninstall vllm`\n许多用户反馈执行完这两步后问题即可解决。如果仍需使用 vllm 功能，请确保系统满足编译要求或等待官方提供预编译包。","https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fissues\u002F96",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},40415,"单卡（如 3090）进行数据预处理时报 'No available memory for the cache blocks' 错误是什么原因？","该错误表明显存不足。vLLM 在初始化 KV Cache 时需要大量显存，有用户反馈该进程单独占用了超过 22GB 显存。对于 24GB 显存的 3090 显卡，这可能接近极限。解决方案包括：关闭敏感信息过滤功能以减少显存占用，或者参考 README 中关于小显存设置的说明（尽管部分用户反馈该设置在某些情况下会中断）。如果显存确实不足，建议使用更大显存的显卡或云端资源。","https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fissues\u002F83",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},40416,"已安装 FlashInfer 但运行时仍提示不可用或警告，如何处理？","即使使用了 uv 命令安装 FlashInfer，仍可能出现无法识别的情况。这通常是因为安装环境与运行环境不一致，或者版本不匹配。请确保在安装时使用与当前 Python 环境和 CUDA 版本完全匹配的 FlashInfer 版本。如果问题依旧，建议检查环境变量配置，或尝试手动编译安装 FlashInfer。同时，Safetensors 加载缓慢可能与磁盘 IO 或模型文件大小有关，属正常现象。","https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fissues\u002F66",[142,147,152,157,162,167,172,177,182,187,192,197],{"id":143,"version":144,"summary_zh":145,"released_at":146},323775,"v0.3.03","## 🎉 更新内容\r\n\r\n本次更新核心亮点包括升级至Python 3.12以及数据集管线优化。\r\n\r\n**依赖与环境更新：**\r\n* 在`pyproject.toml`和开发配置中将Python版本升级至3.12。\r\n* 依赖项更新：将`llamafactory`从基于git的安装方式改为固定版本，新增支持CUDA 12.6的`torchdata`和`torchaudio`，并优化了PyTorch包的平台特定依赖标记。\r\n\r\n**数据处理**\r\n- 新增\"\u003Cbegin_chat>\"标记，以提升对话流程的上下文连贯性\r\n- 更新`qa_generator.py`，新增聊天成员关系管理机制，支持在对话中添加用户间关系的上下文信息\r\n- 重构CSV加载函数，支持从`users.json`文件加载用户关系数据，增强问答生成时的上下文信息\r\n- 在数据集配置中新增`add_relation`选项，允许用户自主启用\u002F禁用此功能\r\n\r\n**其他**\r\n- 引入支持线程池批量聊天和可选JSON引导解码的`OnlineLLM`；统一了vLLM与OpenAI结果的JSON解析流程。\r\n\r\n","2026-01-04T14:40:10",{"id":148,"version":149,"summary_zh":150,"released_at":151},323776,"v0.3.02","## 🎉 变更内容\n\n在离线清理中启用可配置的“思考”功能，改进问答处理中的图像和 GIF 处理，重构配置模型以实现更清晰的数据集命名，并为发布 v0.3.02 提升版本和依赖项。\n\n新功能：\n- 引入 `enable_thinking` 标志，用于控制离线清理行为\n- 支持对含有图片的数据集进行打分清洗（含有图片的 QA 对赋值最高分）\n\n改进：\n- 重构 `cleaned_dataset_name`，使其能够从原始数据集动态派生\n- 将 `enable_thinking` 传递到 vLLM 推理管道中，并相应调整 `repetition_penalty` 和 `max_new_tokens`\n- 实现 `CommonMethods` 类，用于解析带有模态后缀的数据集名称，并移除已弃用的配置字段\n\n构建：\n- 将项目版本提升至 0.3.02，配置版本提升至 0.3.02\n- 更新依赖项：`openai` 至 1.87.0，`vllm` 至 0.10.0，`torch` 至 2.7.1，添加 `torchvision`，`transformers` 至 4.53.2，以及 `triton` 至 3.3.1\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.3.01...v0.3.02\n\n## 😊 更新内容\n\n在离线清理中启用可配置的“思考”功能，改进问答处理中的图像和 GIF 处理，重构配置模型以实现更清晰的数据集命名，并为发布 v0.3.02 提升版本和依赖项。\n\n新功能：\n- 引入 `enable_thinking` 以控制离线清理行为\n- 支持对含有图片的数据集打分清洗（含有图片的qa对赋值最高分）\n\n改进：\n- 重构 `cleaned_dataset_name` 以从原始数据集动态派生\n- 将 `enable_thinking` 传递给 vLLM 推理管道，并相应调整 `repetition_penalty` 和 `max_new_tokens`\n- 实现 `CommonMethods` 以解析带有模态后缀的数据集名称，并移除已弃用的配置字段\n\n构建：\n- 将项目版本提升至 0.3.02，配置版本提升至 0.3.02\n- 更新依赖项：`openai` 至 1.87.0，`vllm` 至 0.10.0，`torch` 至 2.7.1，添加 `torchvision`，`transformers` 至 4.53.2，以及 `triton` 至 3.3.1\n\nCI：\n- 将 `pre-commit-hooks` 升级至 v6.0.0，`ruff` 升级至 v0.12.8","2025-08-17T07:26:24",{"id":153,"version":154,"summary_zh":155,"released_at":156},323777,"v0.3.01","## 🎉 变更内容\n\n新功能：\n- 新增退避策略的retry_on_http_error和retry_openai_api装饰器，增加LLM在线调用自动重试机制\n- feat(dataset)：训练数据增加包含时间的选项 \n\n功能优化：\n- performance(PII)：新增批量PII检测以提升性能\n- refactor：统一group内容分隔符为\\n\n- feat(PII)：增强中文PII检测能力 \n\n问题修复：\n- 修复关于deepspeed版本的#184问题\n- fix(dataset)：数据处理结果缺失图像 \n\n测试相关：\n- 新增PII过滤测试脚本\n- test_full_pipe新增setup_data_environment及禁用词\u002F图片标签断言检查\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.3.0...v0.3.01\n\n## 🥲更新内容\n\n新功能：\n- 新增退避策略的retry_on_http_error和retry_openai_api装饰器，增加LLM在线调用自动重试机制\n- feat(dataset)：训练数据增加包含时间的选项 \n\n功能优化：\n- performance(PII)：新增批量PII检测以提升性能\n- refactor：统一group内容分隔符为\\n\n- feat(PII)：增强中文PII检测能力 \n\n问题修复：\n- 修复关于deepspeed版本的#184问题\n- fix(dataset)：数据处理结果缺失图像 \n\n测试相关：\n- 新增PII过滤测试脚本\n- test_full_pipe新增setup_data_environment及禁用词\u002F图片标签断言检查\n","2025-07-17T07:23:21",{"id":158,"version":159,"summary_zh":160,"released_at":161},323778,"v0.3.0","## 🎉 变更内容\n\n- 支持对 `Telegram` 聊天记录进行微调\n- 使用 `presidio` 进行隐私过滤\n- 添加多语种支持配置\n- 优化了 vllm 推理及解码解析\n- 优化日志系统，hook 其他依赖的日志，并新增日志级别配置\n- 将日志打印和代码注释翻译为英文\n- 将 `commentjson` 依赖迁移到 `pyjson5`\n- 添加\u002F更新了 CLI 命令\n- 其他（例如示例、测试、README）\n  版本升级并进行了一些文本更新，以确保一致性和清晰度。\n\n## 🐛 Bug 修复\n修复 #172 修复 #170 \n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.2.24...v0.3.0\n\n## 🥰 更新内容\n- 支持Telegram聊天记录微调\n- 使用presidio进行隐私过滤 \n- 添加多语种支持配置；\n- 优化vllm推理、解码解析\n- 优化日志系统，hook其他依赖logging，添加日志等级配置\n- 日志打印、代码注释翻译为英文\n- 迁移commentjson依赖为pyjson5\n- 添加\u002F更新了CLI命令\n- 其他（例如示例、测试、README）\n  版本升级并进行了一些文本更新以保持一致性和清晰性。","2025-07-05T07:49:35",{"id":163,"version":164,"summary_zh":165,"released_at":166},323779,"v0.2.24","## 🥰 变更内容\n- 更新torch版本至2.7.0，vllm版本到0.9.1，离线推理改为chat方式调用\n- 添加`test_model_args` and `vllm_args`配置项，允许自定义测试集文件\n- CLI中添加配置文件路径选项，支持设置WECLONE_CONFIG_PATH环境变量\n- 更新数据清理策略中的max_new_tokens和enable_thinking参数以优化推理过程\n- 部分功能适配qwen3\n\n\n## 🐛 Bug修复\n修复#158、#83、#77、#69\n\n**完整更新日志**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.2.23...v0.2.24\n\n## 🥰 更新内容\n- 更新torch版本至2.7.0，vllm版本到0.9.1，离线推理改为chat方式调用\n- 添加`test_model_args` and `vllm_args`配置项，允许自定义测试集文件\n- CLI中添加配置文件路径选项，支持设置WECLONE_CONFIG_PATH环境变量\n- 更新数据清理策略中的max_new_tokens和enable_thinking参数以优化推理过程\n- 部分功能适配qwen3\n\n","2025-06-19T10:07:41",{"id":168,"version":169,"summary_zh":170,"released_at":171},323780,"v0.2.23","## 🥰 变更内容\n\n* 重构配置项，并新增图像模态测试脚本。由 @xming521 提交于 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F153\n    * 使用 pydantic 重构全部配置相关功能\n    * 新增图像模态测试脚本\n    * 统一数据集格式：chat-sft\n    * 纯文本模型微调数据切换为 ShareGPT 格式，默认携带聊天历史上下文\n    * 升级依赖以支持 qwen3\n* feat(dataset): 添加图像转文本功能，重构清洗策略 由 @BAIKEMARK 提交于 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F156\n* 新增 pre-commit，使用 ruff 格式化代码，更新 .gitignore，更新 pyproject.toml，更新 README.md。由 @xming521 提交于 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F149\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.2.22...v0.2.23","2025-06-13T08:01:49",{"id":173,"version":174,"summary_zh":175,"released_at":176},323781,"v0.2.21","## 有哪些变化\n* 文档：添加 LangBot 集成，由 @RockChinQ 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F65 中完成\n* 优化 CSV 文件读取，由 @Mundi-Xu 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F87 中完成\n* 添加日志和测试流水线，由 @xming521 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F118 中完成\n* 添加在线 LLM 数据清洗功能，由 @niulinbiao 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F119 中完成\n\n## 更新了什么\n* 文档：添加 LangBot 集成，由 @RockChinQ 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F65 中完成\n* 优化 CSV 文件读取，由 @Mundi-Xu 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F87 中完成\n* 添加日志和测试流水线，由 @xming521 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F118 中完成\n* 添加在线 LLM 数据清洗功能，由 @niulinbiao 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F119 中完成\n\n## 新贡献者\n* @RockChinQ 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F65 中完成了首次贡献\n* @songhahaha66 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F68 中完成了首次贡献\n* @BAIKEMARK 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F74 中完成了首次贡献\n* @Mundi-Xu 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F87 中完成了首次贡献\n* @niulinbiao 在 https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F119 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.2.2...v0.2.21","2025-05-23T07:56:50",{"id":178,"version":179,"summary_zh":180,"released_at":181},323782,"v0.2.2","## ✨ 新增特性\n- 新增LLM清洗数据。使用LLM判别器对聊天记录进行打分，使用vLLM进行离线推理。\n- 支持通过命令行工具 `weclone-cli` 使用。\n\n## 🎈 功能优化\n- 将屏蔽词库配置移至 `setting.json` 文件中。\n- 更新依赖项版本，将 `torch` 和 `torchaudio` 升级至 2.6.0，将 `openai` 更新至 1.52.0；相应更新了 `test_model`，调整 PyTorch 源为 cu124，并添加了 vLLM。\n- 配置文件改为模板方式。\n\n## 🐛 修复 Bug\n- [修复多卡 length_cdf](https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F50\u002Fcommits\u002F3bdcb3b8acf4fed2de0acff85a92df1349b9c10d)\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.2.0...v0.2.2","2025-05-08T14:11:29",{"id":183,"version":184,"summary_zh":185,"released_at":186},323783,"v0.2.1-beta1","- 支持通过命令行工具 `weclone-cli` 使用\n- 更新依赖项版本，将 PyTorch 和 TorchAudio 升级至 2.6.0，OpenAI 升级至 1.52.0；相应更新 `test_model` 脚本，调整 PyTorch 的 CUDA 版本源为 cu124，并新增 VLLM 支持。\n- 配置文件改为模板化方式。","2025-05-01T11:55:48",{"id":188,"version":189,"summary_zh":190,"released_at":191},323784,"v0.2.0","更新内容\n- 0.2.0 版本进行了全面重构，数据集目录和脚本路径全部进行了修改，拉取新代码后，`csv`文件夹放在`dataset`下，并且需要重新安装依赖。\n- 默认使用Qwen2.5-7B-Instruct模型，可修改[settings.json](settings.json)的`model_name_or_path`和`template`选择其他模型。\n- python版本升级到3.10\n- 修复ds多卡训练\n- 可以使用FlashAttention加速训练\n- 完善文档\n","2025-04-22T13:34:56",{"id":193,"version":194,"summary_zh":195,"released_at":196},323785,"v0.1.3","* 对数据处理进行了重构\r\n\r\n## What's Changed\r\n* 更新readme by @xming521 in https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F17\r\n* Refactoring data processing by @xming521 in https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F23\r\n* Update README.md by @xming521 in https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F25\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcompare\u002Fv0.1.2...v0.1.3","2025-04-13T11:59:26",{"id":198,"version":199,"summary_zh":200,"released_at":201},323786,"v0.1.2","## ✨新特性\r\n\r\n- 支持声音克隆 👉[WeClone-audio](https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Ftree\u002Fmaster\u002FWeClone-audio)\r\n- 支持接入AstrBot聊天机器人\r\n- 统一项目依赖\r\n\r\n## What's Changed\r\n* Fix makedataset by @xming521 in https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F9\r\n* Clone audio by @xming521 in https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F11\r\n* Dependencies1 by @xming521 in https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F13\r\n* Add Astrbot  by @xming521 in https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fpull\u002F15\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fxming521\u002FWeClone\u002Fcommits\u002Fv0.1.2","2025-04-08T13:27:04"]