[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zake7749--Chatbot":3,"tool-zake7749--Chatbot":65},[4,17,27,35,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",146793,2,"2026-04-08T23:32:35",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,"2026-04-08T11:03:08",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,43,46],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":23,"last_commit_at":63,"category_tags":64,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[14,26,13,15,46],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":80,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":93,"env_os":94,"env_gpu":95,"env_ram":95,"env_deps":96,"category_tags":102,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":103,"updated_at":104,"faqs":105,"releases":144},5767,"zake7749\u002FChatbot","Chatbot","基於向量匹配的情境式聊天機器人","Mianbot 是一款基于向量匹配技术的开源情境式聊天机器人框架，旨在通过检索与模板结合的方式实现自然的多轮对话。它主要解决了传统规则机器人缺乏语境理解能力，以及纯生成式模型在特定领域回复不够精准的问题。\n\n该工具提供两种核心回复机制：一是利用词向量进行短语分类与特征抽取，实现基于语义图谱的记忆与多轮交互；二是以 PTT 论坛数据为知识库，通过计算文本相似度，从海量推文中筛选并生成最可靠的回答。其独特亮点在于将结构化规则（JSON 配置）与非结构化的向量检索巧妙融合，既保证了回复的可控性，又具备处理开放域话题的灵活性。\n\nMianbot 特别适合开发者、自然语言处理研究人员及高校学生使用。用户需具备 Python 基础，并能自行训练或加载中文词向量模型（支持 gensim 与 jieba 分词）。对于希望深入探索检索式对话系统原理、构建垂直领域智能助手或进行中文语料挖掘实验的技术人员而言，这是一个极具参考价值的轻量级项目。","# Mianbot\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzake7749_Chatbot_readme_4975a7f26408.png)\n\n🎉 News: 我們採用了類似的資料採集策略訓練了一個繁體中文的大型語言模型，模型效能與使用方式可以參考 [Kyara](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FKyara)\n\nMianbot 是採用樣板與檢索式模型搭建的聊天機器人，目前有兩種產生回覆的方式。\n\n* 其一（左圖）是以詞向量進行短語分類，針對分類的目標模組實現特徵抽取與記憶回覆功能，以進行多輪對話，匹配方式可參考[Semantic Graph](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FSemantic-Graph)（目前仍在施工中 ΣΣΣ (」○ ω○ )／）。\n* 其二（右圖）除了天氣應答外，主要是以 PTT Gossiping 作為知識庫，透過文本相似度的比對取出與使用者輸入最相似的文章標題，再從推文集內挑選出最為可靠的回覆，程式內容及實驗過程請參見[PTT-Chat_Generator](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FPTT-Chat-Generator)。\n\n## 匹配示例\n\n更多的樣例可以參照 `example\u002Foutput.txt`\n\n輸入：明天早上叫我起床。\n\n|相似度|概念|匹配元|\n|------|----|------|\n|0.4521|鬧鐘|起床|\n|0.3904|天氣|早上|\n|0.3067|住宿|起床|\n|0.1747|病症|起床|\n|0.1580|購買|早上|\n|0.1270|股票|早上|\n|0.1096|觀光|早上|\n\n輸入：明天上海會不會下雨？\n\n|相似度|概念|匹配元|\n|------|----|------|\n|0.5665|天氣|下雨|\n|0.3918|鬧鐘|下雨|\n|0.1807|病症|下雨|\n|0.1362|住宿|下雨|\n|0.0000|股票||\n|0.0000|觀光||\n|0.0000|購買||\n\n## 環境需求\n\n* 安裝 python3 開發環境\n* 安裝 [gensim – Topic Modelling in Python](https:\u002F\u002Fgithub.com\u002FRaRe-Technologies\u002Fgensim)\n* 安裝 [jieba 结巴中文分词 ](https:\u002F\u002Fgithub.com\u002Ffxsjy\u002Fjieba)\n* 有已訓練好的中文詞向量，並根據檔案位置調整 `Console class` 的初始化參數。\n\n```python\nimport Chatbot.console as console\nc = console.Console(model_path='your_model')\n```\n\n* 如要使用 QA 模組，請先依照[問答測試用資料集](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot#%E5%95%8F%E7%AD%94%E6%B8%AC%E8%A9%A6%E7%94%A8%E8%B3%87%E6%96%99%E9%9B%86)進行配置，或透過將`chatbot.py` 中的 `self.github_qa_unupdated` 設為 `True` 選擇關閉 QA 模組\n\n## 使用方式\n\n### 聊天機器人\n\n```python\nimport Chatbot.chatbot as chatbot\n\nchatter = chatbot.Chatbot(w2v_model_path='your_model')\nchatter.waiting_loop()\n```\n\n### 計算匹配度\n\n```python\nimport Chatbot.console as console\n\nc = console.Console(model_path='your_model')\nspeech = input('Input a sentence:')\nres,path = c.rule_match(speech)\nc.write_output(speech,res,path)\n```\n\n## 規則格式\n\n規則採用 json 格式，樣板規則放置於`\\RuleMatcher\\rule`中，\n\n```json\n    {\n        \"domain\": \"代表這個規則的抽象概念\",\n        \"response\": [\n\t\t\"對應到該規則後\",\n        \t\"機器人所會給予的回覆\",\n        \t\"機器人會隨機抽取一條 response\"\n        ],\n        \"concepts\": [\n            \"該規則的可能表示方式\"\n        ],\n        \"children\": [\"該規則的子規則\",\"如購買 -> 購買飲料,購買衣服......\"]\n    }\n```\n\n### Example\n\n```json\n    {\n        \"domain\": \"購買\",\n        \"response\": [\n        \t\"正在將您導向購物模組\"\n        ],\n        \"concepts\": [\n            \"購買\",\"購物\",\"訂購\"\n        ],\n        \"children\": [\n            \"購買生活用品\",\n            \"購買家電\",\n            \"購買食物\",\n            \"購買飲料\",\n            \"購買鞋子\",\n            \"購買衣服\",\n            \"購買電腦產品\"\n        ]\n    },\n```\n## 問答測試用資料集\n\n請點擊[這裡](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11JlbmYmuu00TfmfdAfyoGK_E3VMp8Vd_\u002Fview)下載部分測試用資料集，內容包含了 PTT C_Chat、Gossiping 版非新聞類問答約 250,000 則。檔案解壓縮後請放置於 `QuestionAnswering\u002Fdata\u002F` 資料夾下，`reply.rar` 解壓縮後的資料夾請放置於 `QuestionAnswering\u002Fdata\u002Fprocessed` 下：\n```\nQuestionAnswering\n└── data\n   ├── SegTitles.txt\n   ├── processed\n   │   └── reply\n   │       ├── 0.json\n   │       ├── .\n   │       ├── .\n   │       ├── .\n   │       └── xxx.json\n   └── Titles.txt\n```\n完成配置後，可以將`chatbot.py` 中的 `self.github_qa_unupdated` 設為 `False` 打開問答模組進行測試。\n\n## 開發日誌\n\n* [以 gensim 訓練中文詞向量](http:\u002F\u002Fzake7749.github.io\u002F2016\u002F08\u002F28\u002Fword2vec-with-gensim\u002F)\n* [基於詞向量的主題匹配](http:\u002F\u002Fzake7749.github.io\u002F2016\u002F08\u002F30\u002Fchatterbot-with-word2vec\u002F)\n* [聊天機器人的開發思路](http:\u002F\u002Fzake7749.github.io\u002F2016\u002F12\u002F17\u002Fhow-to-develop-chatbot\u002F)\n\n## 特別致謝\n\n* 網路探勘暨跨語知識系統實驗室\n* 智慧型知識管理實驗室\n* Legoly\n* 給予我協助與交流的每名朋友\n","# Mianbot\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzake7749_Chatbot_readme_4975a7f26408.png)\n\n🎉 新闻：我们采用了类似的资料采集策略训练了一个繁体中文的大型语言模型，模型效能与使用方式可以参考 [Kyara](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FKyara)\n\nMianbot 是采用样板与检索式模型搭建的聊天机器人，目前有两种产生回复的方式。\n\n* 其一（左图）是以词向量进行短语分类，针对分类的目标模块实现特征抽取与记忆回复功能，以进行多轮对话，匹配方式可参考[Semantic Graph](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FSemantic-Graph)（目前仍在施工中 ΣΣΣ (」○ ω○ )／）。\n* 其二（右图）除了天气应答外，主要是以 PTT Gossiping 作为知识库，通过文本相似度的比对取出与用户输入最相似的文章标题，再从推文集内挑选出最为可靠的回复，程序内容及实验过程请参见[PTT-Chat_Generator](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FPTT-Chat-Generator)。\n\n## 匹配示例\n\n更多的样例可以参照 `example\u002Foutput.txt`\n\n输入：明天早上叫我起床。\n\n|相似度|概念|匹配元|\n|------|----|------|\n|0.4521|闹钟|起床|\n|0.3904|天气|早上|\n|0.3067|住宿|起床|\n|0.1747|病症|起床|\n|0.1580|购买|早上|\n|0.1270|股票|早上|\n|0.1096|观光|早上|\n\n输入：明天上海会不会下雨？\n\n|相似度|概念|匹配元|\n|------|----|------|\n|0.5665|天气|下雨|\n|0.3918|闹钟|下雨|\n|0.1807|病症|下雨|\n|0.1362|住宿|下雨|\n|0.0000|股票||\n|0.0000|观光||\n|0.0000|购买||\n\n## 环境需求\n\n* 安装 python3 开发环境\n* 安装 [gensim – Topic Modelling in Python](https:\u002F\u002Fgithub.com\u002FRaRe-Technologies\u002Fgensim)\n* 安装 [jieba 结巴中文分词 ](https:\u002F\u002Fgithub.com\u002Ffxsjy\u002Fjieba)\n* 有已训练好的中文词向量，并根据文件位置调整 `Console class` 的初始化参数。\n\n```python\nimport Chatbot.console as console\nc = console.Console(model_path='your_model')\n```\n\n* 如要使用 QA 模块，请先依照[问答测试用数据集](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot#%E5%95%8F%E7%AD%94%E6%B8%AC%E8%A9%A6%E7%94%A8%E8%B3%87%E6%96%99%E9%9B%86)进行配置，或通过将`chatbot.py` 中的 `self.github_qa_unupdated` 设为 `True` 选择关闭 QA 模块\n\n## 使用方式\n\n### 聊天机器人\n\n```python\nimport Chatbot.chatbot as chatbot\n\nchatter = chatbot.Chatbot(w2v_model_path='your_model')\nchatter.waiting_loop()\n```\n\n### 计算匹配度\n\n```python\nimport Chatbot.console as console\n\nc = console.Console(model_path='your_model')\nspeech = input('Input a sentence:')\nres,path = c.rule_match(speech)\nc.write_output(speech,res,path)\n```\n\n## 规则格式\n\n规则采用 json 格式，样板规则放置于`\\RuleMatcher\\rule`中，\n\n```json\n    {\n        \"domain\": \"代表这个规则的抽象概念\",\n        \"response\": [\n\t\t\"对应到该规则后\",\n        \t\"机器人所会给予的回复\",\n        \t\"机器人会随机抽取一条 response\"\n        ],\n        \"concepts\": [\n            \"该规则的可能表示方式\"\n        ],\n        \"children\": [\"该规则的子规则\",\"如购买 -> 购买饮料,购买衣服......\"]\n    }\n```\n\n### Example\n\n```json\n    {\n        \"domain\": \"购买\",\n        \"response\": [\n        \t\"正在将您导向购物模块\"\n        ],\n        \"concepts\": [\n            \"购买\",\"购物\",\"订购\"\n        ],\n        \"children\": [\n            \"购买生活用品\",\n            \"购买家电\",\n            \"购买食物\",\n            \"购买饮料\",\n            \"购买鞋子\",\n            \"购买衣服\",\n            \"购买电脑产品\"\n        ]\n    },\n```\n## 问答测试用数据集\n\n请点击[这里](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11JlbmYmuu00TfmfdAfyoGK_E3VMp8Vd_\u002Fview)下载部分测试用数据集，内容包含了 PTT C_Chat、Gossiping 版非新闻类问答约 250,000 则。文件解压后请放置于 `QuestionAnswering\u002Fdata\u002F` 文件夹下，`reply.rar` 解压后的文件夹请放置于 `QuestionAnswering\u002Fdata\u002Fprocessed` 下：\n```\nQuestionAnswering\n└── data\n   ├── SegTitles.txt\n   ├── processed\n   │   └── reply\n   │       ├── 0.json\n   │       ├── .\n   │       ├── .\n   │       ├── .\n   │       └── xxx.json\n   └── Titles.txt\n```\n完成配置后，可以将`chatbot.py` 中的 `self.github_qa_unupdated` 设为 `False` 打开问答模块进行测试。\n\n## 开发日志\n\n* [以 gensim 训练中文词向量](http:\u002F\u002Fzake7749.github.io\u002F2016\u002F08\u002F28\u002Fword2vec-with-gensim\u002F)\n* [基于词向量的主题匹配](http:\u002F\u002Fzake7749.github.io\u002F2016\u002F08\u002F30\u002Fchatterbot-with-word2vec\u002F)\n* [聊天机器人的开发思路](http:\u002F\u002Fzake7749.github.io\u002F2016\u002F12\u002F17\u002Fhow-to-develop-chatbot\u002F)\n\n## 特别致谢\n\n* 网络探勘暨跨语知识系统实验室\n* 智慧型知识管理实验室\n* Legoly\n* 给予我协助与交流的每名朋友","# Mianbot 聊天机器人快速上手指南\n\nMianbot 是一个基于模板与检索式模型构建的中文聊天机器人。它支持两种回复生成模式：一是基于词向量的短语分类与多轮对话记忆；二是基于文本相似度从知识库（如 PTT 文章）中检索最佳回复。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux \u002F macOS \u002F Windows\n*   **Python 版本**：Python 3.x\n*   **核心依赖库**：\n    *   `gensim`：用于主题建模和词向量处理\n    *   `jieba`：用于中文分词\n*   **前置资源**：\n    *   已训练好的中文词向量模型文件（`.model` 或类似格式）。\n    *   （可选）问答测试数据集：若需启用高级 QA 模块，需下载并配置特定数据集。\n\n## 安装步骤\n\n1.  **安装 Python 依赖**\n    使用 pip 安装必要的第三方库。国内用户推荐使用清华或阿里镜像源以加速下载：\n\n    ```bash\n    pip install gensim jieba -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n2.  **获取项目代码**\n    克隆仓库或下载源码到本地：\n\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot.git\n    cd Chatbot\n    ```\n\n3.  **配置词向量路径**\n    确保你拥有已训练好的中文词向量模型。后续代码初始化时需指定该模型的文件路径。\n\n4.  **（可选）配置 QA 模块数据**\n    若需使用基于 PTT 数据的问答功能：\n    *   下载测试数据集（包含约 25 万条问答数据）。\n    *   解压后将主文件置于 `QuestionAnswering\u002Fdata\u002F` 目录。\n    *   将 `reply.rar` 解压后的内容置于 `QuestionAnswering\u002Fdata\u002Fprocessed` 目录。\n    *   修改 `chatbot.py`，将 `self.github_qa_unupdated` 设置为 `False` 以启用该模块。若无需使用，保持默认值 `True` 即可关闭。\n\n## 基本使用\n\n### 1. 启动聊天机器人\n\n这是最简单的交互方式，程序将进入等待输入的循环模式。\n\n```python\nimport Chatbot.chatbot as chatbot\n\n# 初始化机器人，替换 'your_model' 为你的词向量模型实际路径\nchatter = chatbot.Chatbot(w2v_model_path='your_model')\n\n# 启动对话循环\nchatter.waiting_loop()\n```\n\n### 2. 单次匹配度计算\n\n如果你只想测试某句话的意图匹配情况，可以使用控制台模式：\n\n```python\nimport Chatbot.console as console\n\n# 初始化控制台\nc = console.Console(model_path='your_model')\n\n# 获取用户输入\nspeech = input('Input a sentence:')\n\n# 执行规则匹配\nres, path = c.rule_match(speech)\n\n# 输出结果到文件\nc.write_output(speech, res, path)\n```\n\n### 3. 自定义规则（进阶）\n\n机器人的回复逻辑基于 JSON 格式的规则文件，位于 `\\RuleMatcher\\rule` 目录下。你可以编辑这些文件来定义新的领域概念和回复模板。\n\n示例规则结构：\n```json\n{\n    \"domain\": \"購買\",\n    \"response\": [\n        \"正在將您導向購物模組\"\n    ],\n    \"concepts\": [\n        \"購買\", \"購物\", \"訂購\"\n    ],\n    \"children\": [\n        \"購買生活用品\", \"購買家電\"\n    ]\n}\n```","某初创团队希望为旗下生活类 App 快速构建一个能理解繁体中文语境、具备多轮对话能力的智能客服原型，以处理用户关于天气查询、闹钟设置及日常闲聊的需求。\n\n### 没有 Chatbot 时\n- **意图识别僵化**：传统关键词匹配无法理解“明天早上叫我起床”与“闹铃”之间的语义关联，导致大量用户指令被误判或忽略。\n- **回复内容生硬**：面对“上海会不会下雨”等动态问题，只能返回固定模板答案，缺乏基于实时数据或社区知识（如 PTT 文章）的灵活应答。\n- **开发维护成本高**：每新增一个业务场景（如从“买衣服”扩展到“买电脑”），都需要人工编写大量正则规则，难以通过向量匹配自动泛化子概念。\n- **多轮对话断裂**：系统无法记忆上下文特征，用户一旦偏离预设流程，对话即刻终止，体验极不连贯。\n\n### 使用 Chatbot 后\n- **语义理解精准**：利用词向量技术，Chatbot 能准确计算输入与“闹钟”、“天气”等概念的相似度（如 0.4521），即使措辞不同也能精准分类意图。\n- **知识库动态检索**：针对开放性问题，Chatbot 自动在 PTT Gossiping 等知识库中比对文本相似度，从热门推文中挑选最可靠的自然语言回复。\n- **规则扩展高效**：只需在 JSON 配置中添加“购买”及其子概念（如“购买电脑产品”），Chatbot 即可自动继承父级逻辑，无需重写代码。\n- **上下文记忆流畅**：基于特征抽取与记忆机制，Chatbot 能支撑多轮交互，让对话像真人一样自然延续。\n\nChatbot 通过向量匹配与检索式生成，将原本需要数周开发的语义理解能力缩短至小时级配置，显著提升了中文情境下的对话智能度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzake7749_Chatbot_4975a7f2.png","zake7749","Justin Yang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzake7749_73a78272.png","Work hard, be kind, and amazing things will happen.",null,"Taiwan","https:\u002F\u002Fzake7749.github.io","https:\u002F\u002Fgithub.com\u002Fzake7749",[85],{"name":86,"color":87,"percentage":88},"Python","#3572A5",100,906,269,"2026-03-31T08:58:55","GPL-3.0",4,"","未说明",{"notes":97,"python":98,"dependencies":99},"需要预先训练好的中文词向量文件，并需在代码中配置模型路径。若使用问答（QA）模块，需手动下载约 25 万条 PTT 问答数据集并放置于指定目录，或通过修改代码参数关闭该模块。","Python 3",[100,101],"gensim","jieba",[15],"2026-03-27T02:49:30.150509","2026-04-09T10:22:56.233522",[106,111,116,121,126,131,136,140],{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},26158,"运行时报错 'NameError: name 'exit' is not defined' 或 'FileNotFoundError: No such file or directory: model\u002Fch-corpus-3sg.bin' 怎么办？","这是因为项目未包含预训练的词向量模型文件（ch-corpus-3sg.bin），需要用户自行训练。请参考 [word2vec-tutorial](https:\u002F\u002Fgithub.com\u002Fzake7749\u002Fword2vec-tutorial) 进行训练。训练完成后，将生成的模型文件放置在 `model` 文件夹中，并在代码中指定正确的路径：\n```python\nimport Chatbot.chatbot as chatbot\nbot = chatbot.Chatbot(w2v_model_path='your_model_path')\n```","https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot\u002Fissues\u002F37",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},26159,"加载模型时出现 Gensim 编码错误：'utf-8' codec can't decode byte 0x80... invalid start byte' 如何解决？","这是由于 Gensim 库版本更新导致加载旧版二进制模型的方法不兼容。旧版使用 `models.KeyedVectors.load_word2vec_format(path, binary=True)`，新版可能需要调整。维护者已提交 commit 兼容两者。如果仍然报错，可以尝试修改 `Chatbot\u002FRuleMatcher\u002Frulebase.py` 第 213 行左右的加载代码为：\n```python\nself.model = models.Word2Vec.load(path)\n```\n或者确保使用的是与教程中导出方法匹配的 Gensim 版本。","https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot\u002Fissues\u002F27",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},26160,"如何获取问答测试用的数据集？原链接失效了。","可以从以下 GitHub 原始数据链接直接下载问答测试资料集（reply.7z）：\nhttps:\u002F\u002Fgithub.com\u002Fzake7749\u002FGossiping-Chinese-Corpus\u002Fraw\u002Fmaster\u002Fdata\u002Fsource_replies\u002Freply.7z\n下载后解压即可使用。","https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot\u002Fissues\u002F44",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},26161,"项目无法直接运行，提示需要先进行前处理，具体步骤是什么？","不能直接运行未经处理的原始数据。必须先按照 [實驗簡述](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FPTT-Chat-Generator) 的说明进行数据前处理。\n如果您只是想获取处理好的问答对作为语料，而不打算自己实现匹配算法，可以直接使用 [Gossiping-Chinese-Corpus](https:\u002F\u002Fgithub.com\u002Fzake7749\u002FGossiping-Chinese-Corpus) 项目中已经处理好的数据。","https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot\u002Fissues\u002F47",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},26162,"对话意图抽取和规则库（rulebase）是如何生成的？是自动生成的吗？","目前的规则库（rulebase）中的规则大部分是由人工标注设计的，并非完全自动生成。\n关于子主题（children）的生成，基于无监督方式自动生成比较困难，因为定义需随应用类型动态调整（例如“购买”在保险系统和外卖平台下的子概念不同）。项目结合了闲聊（chit-chat）机制来处理超出预设规则的对话。如果需要通用型分类，可参考广义知网架构，但动作部分仍需引入特定应用端信息。","https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot\u002Fissues\u002F48",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},26163,"为什么聊天机器人回复总是默认的“是吗？”、“我不太明白”，或者回答答非所问？","这通常是因为没有正确加载词向量模型，或者使用的规则是基于 Word2Vec 的规则比对，而没有连接到 PTT 的数据集。\n请确认：\n1. 已在 `model` 文件夹中放置了正确的词向量模型文件（如 `ch-corpus-3sg.bin`）。\n2. 如果是基于搜索的 QA 模式，它会比对输入与语料库标题，找出最相似文章后采样回复。如果效果不佳，可能需要检查语料库质量或重新训练符合特定领域需求的词向量模型。\n3. 内部规则模板可能需要根据您的具体需求进行调整。","https:\u002F\u002Fgithub.com\u002Fzake7749\u002FChatbot\u002Fissues\u002F36",{"id":137,"question_zh":138,"answer_zh":139,"source_url":115},26164,"如何在简体中文环境下使用该项目？词向量模型有区别吗？","如果只针对意图分类这一块，使用简体语料训练的词向量是可以正常使用的。\n但是，您必须视自己的需求调整模板的内容（即规则库中的关键词和逻辑），因为繁体和简体的用词习惯可能存在差异。",{"id":141,"question_zh":142,"answer_zh":143,"source_url":125},26165,"demo_qa 模式的运作原理是什么？必须要有 w2v_model 才能执行吗？","QA 模块的设计是基于搜索的。它会比对使用者输入跟语料库中所有的文章标题，找出最相似的文章后，再 sample 其他用户对该文章的推文作为回复。\n默认情况下执行 `chatbot.py` 需要 w2v_model（词向量模型）。但如果您没有复杂的语义匹配需求，可以直接使用 `demo_qa` 的方式执行项目，这种方式主要依赖文本相似度搜索。",[145],{"id":146,"version":147,"summary_zh":148,"released_at":149},163568,"v0.3","对话管理模块、Seq2Seq 模块、Django 后端以及问答模块的数据集不包含在该版本中。","2017-05-25T07:01:34"]