Chatbot

906 269 较难 1 次阅读 1周前GPL-3.0语言模型

AI 解读由 AI 自动生成，仅供参考

Mianbot 是一款基于向量匹配技术的开源情境式聊天机器人框架，旨在通过检索与模板结合的方式实现自然的多轮对话。它主要解决了传统规则机器人缺乏语境理解能力，以及纯生成式模型在特定领域回复不够精准的问题。

该工具提供两种核心回复机制：一是利用词向量进行短语分类与特征抽取，实现基于语义图谱的记忆与多轮交互；二是以 PTT 论坛数据为知识库，通过计算文本相似度，从海量推文中筛选并生成最可靠的回答。其独特亮点在于将结构化规则（JSON 配置）与非结构化的向量检索巧妙融合，既保证了回复的可控性，又具备处理开放域话题的灵活性。

Mianbot 特别适合开发者、自然语言处理研究人员及高校学生使用。用户需具备 Python 基础，并能自行训练或加载中文词向量模型（支持 gensim 与 jieba 分词）。对于希望深入探索检索式对话系统原理、构建垂直领域智能助手或进行中文语料挖掘实验的技术人员而言，这是一个极具参考价值的轻量级项目。

使用场景

某初创团队希望为旗下生活类 App 快速构建一个能理解繁体中文语境、具备多轮对话能力的智能客服原型，以处理用户关于天气查询、闹钟设置及日常闲聊的需求。

没有 Chatbot 时

意图识别僵化：传统关键词匹配无法理解“明天早上叫我起床”与“闹铃”之间的语义关联，导致大量用户指令被误判或忽略。
回复内容生硬：面对“上海会不会下雨”等动态问题，只能返回固定模板答案，缺乏基于实时数据或社区知识（如 PTT 文章）的灵活应答。
开发维护成本高：每新增一个业务场景（如从“买衣服”扩展到“买电脑”），都需要人工编写大量正则规则，难以通过向量匹配自动泛化子概念。
多轮对话断裂：系统无法记忆上下文特征，用户一旦偏离预设流程，对话即刻终止，体验极不连贯。

使用 Chatbot 后

语义理解精准：利用词向量技术，Chatbot 能准确计算输入与“闹钟”、“天气”等概念的相似度（如 0.4521），即使措辞不同也能精准分类意图。
知识库动态检索：针对开放性问题，Chatbot 自动在 PTT Gossiping 等知识库中比对文本相似度，从热门推文中挑选最可靠的自然语言回复。
规则扩展高效：只需在 JSON 配置中添加“购买”及其子概念（如“购买电脑产品”），Chatbot 即可自动继承父级逻辑，无需重写代码。
上下文记忆流畅：基于特征抽取与记忆机制，Chatbot 能支撑多轮交互，让对话像真人一样自然延续。

Chatbot 通过向量匹配与检索式生成，将原本需要数周开发的语义理解能力缩短至小时级配置，显著提升了中文情境下的对话智能度。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes需要预先训练好的中文词向量文件，并需在代码中配置模型路径。若使用问答（QA）模块，需手动下载约 25 万条 PTT 问答数据集并放置于指定目录，或通过修改代码参数关闭该模块。

pythonPython 3

gensim

jieba

快速开始

Mianbot

demo

🎉 新闻：我们采用了类似的资料采集策略训练了一个繁体中文的大型语言模型，模型效能与使用方式可以参考 Kyara

Mianbot 是采用样板与检索式模型搭建的聊天机器人，目前有两种产生回复的方式。

其一（左图）是以词向量进行短语分类，针对分类的目标模块实现特征抽取与记忆回复功能，以进行多轮对话，匹配方式可参考Semantic Graph（目前仍在施工中 ΣΣΣ (」○ ω○ )／）。
其二（右图）除了天气应答外，主要是以 PTT Gossiping 作为知识库，通过文本相似度的比对取出与用户输入最相似的文章标题，再从推文集内挑选出最为可靠的回复，程序内容及实验过程请参见PTT-Chat_Generator。

匹配示例

更多的样例可以参照 example/output.txt

输入：明天早上叫我起床。

相似度	概念	匹配元
0.4521	闹钟	起床
0.3904	天气	早上
0.3067	住宿	起床
0.1747	病症	起床
0.1580	购买	早上
0.1270	股票	早上
0.1096	观光	早上

输入：明天上海会不会下雨？

相似度	概念	匹配元
0.5665	天气	下雨
0.3918	闹钟	下雨
0.1807	病症	下雨
0.1362	住宿	下雨
0.0000	股票
0.0000	观光
0.0000	购买

环境需求

安装 python3 开发环境
安装 gensim – Topic Modelling in Python
安装 jieba 结巴中文分词
有已训练好的中文词向量，并根据文件位置调整 Console class 的初始化参数。

import Chatbot.console as console
c = console.Console(model_path='your_model')

如要使用 QA 模块，请先依照问答测试用数据集进行配置，或通过将chatbot.py 中的 self.github_qa_unupdated 设为 True 选择关闭 QA 模块

使用方式

聊天机器人

import Chatbot.chatbot as chatbot

chatter = chatbot.Chatbot(w2v_model_path='your_model')
chatter.waiting_loop()

计算匹配度

import Chatbot.console as console

c = console.Console(model_path='your_model')
speech = input('Input a sentence:')
res,path = c.rule_match(speech)
c.write_output(speech,res,path)

规则格式

规则采用 json 格式，样板规则放置于\RuleMatcher\rule中，

    {
        "domain": "代表这个规则的抽象概念",
        "response": [
		"对应到该规则后",
        	"机器人所会给予的回复",
        	"机器人会随机抽取一条 response"
        ],
        "concepts": [
            "该规则的可能表示方式"
        ],
        "children": ["该规则的子规则","如购买 -> 购买饮料,购买衣服......"]
    }

Example

    {
        "domain": "购买",
        "response": [
        	"正在将您导向购物模块"
        ],
        "concepts": [
            "购买","购物","订购"
        ],
        "children": [
            "购买生活用品",
            "购买家电",
            "购买食物",
            "购买饮料",
            "购买鞋子",
            "购买衣服",
            "购买电脑产品"
        ]
    },

问答测试用数据集

请点击这里下载部分测试用数据集，内容包含了 PTT C_Chat、Gossiping 版非新闻类问答约 250,000 则。文件解压后请放置于 QuestionAnswering/data/ 文件夹下，reply.rar 解压后的文件夹请放置于 QuestionAnswering/data/processed 下：

QuestionAnswering
└── data
   ├── SegTitles.txt
   ├── processed
   │   └── reply
   │       ├── 0.json
   │       ├── .
   │       ├── .
   │       ├── .
   │       └── xxx.json
   └── Titles.txt

完成配置后，可以将chatbot.py 中的 self.github_qa_unupdated 设为 False 打开问答模块进行测试。

开发日志

特别致谢

网络探勘暨跨语知识系统实验室
智慧型知识管理实验室
Legoly
给予我协助与交流的每名朋友

Mianbot 聊天机器人快速上手指南

Mianbot 是一个基于模板与检索式模型构建的中文聊天机器人。它支持两种回复生成模式：一是基于词向量的短语分类与多轮对话记忆；二是基于文本相似度从知识库（如 PTT 文章）中检索最佳回复。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux / macOS / Windows
Python 版本：Python 3.x
核心依赖库：
- gensim：用于主题建模和词向量处理
- jieba：用于中文分词
前置资源：
- 已训练好的中文词向量模型文件（.model 或类似格式）。
- （可选）问答测试数据集：若需启用高级 QA 模块，需下载并配置特定数据集。

安装步骤

安装 Python 依赖 使用 pip 安装必要的第三方库。国内用户推荐使用清华或阿里镜像源以加速下载：
```
pip install gensim jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
```

获取项目代码 克隆仓库或下载源码到本地：

git clone https://github.com/zake7749/Chatbot.git
cd Chatbot

配置词向量路径 确保你拥有已训练好的中文词向量模型。后续代码初始化时需指定该模型的文件路径。
（可选）配置 QA 模块数据 若需使用基于 PTT 数据的问答功能：
- 下载测试数据集（包含约 25 万条问答数据）。
- 解压后将主文件置于 QuestionAnswering/data/ 目录。
- 将 reply.rar 解压后的内容置于 QuestionAnswering/data/processed 目录。
- 修改 chatbot.py，将 self.github_qa_unupdated 设置为 False 以启用该模块。若无需使用，保持默认值 True 即可关闭。

基本使用

1. 启动聊天机器人

这是最简单的交互方式，程序将进入等待输入的循环模式。

import Chatbot.chatbot as chatbot

# 初始化机器人，替换 'your_model' 为你的词向量模型实际路径
chatter = chatbot.Chatbot(w2v_model_path='your_model')

# 启动对话循环
chatter.waiting_loop()

2. 单次匹配度计算

如果你只想测试某句话的意图匹配情况，可以使用控制台模式：

import Chatbot.console as console

# 初始化控制台
c = console.Console(model_path='your_model')

# 获取用户输入
speech = input('Input a sentence:')

# 执行规则匹配
res, path = c.rule_match(speech)

# 输出结果到文件
c.write_output(speech, res, path)

3. 自定义规则（进阶）

机器人的回复逻辑基于 JSON 格式的规则文件，位于 \RuleMatcher\rule 目录下。你可以编辑这些文件来定义新的领域概念和回复模板。

示例规则结构：

{
    "domain": "購買",
    "response": [
        "正在將您導向購物模組"
    ],
    "concepts": [
        "購買", "購物", "訂購"
    ],
    "children": [
        "購買生活用品", "購買家電"
    ]
}

版本历史

v0.32017/05/25

常见问题

运行时报错 'NameError: name 'exit' is not defined' 或 'FileNotFoundError: No such file or directory: model/ch-corpus-3sg.bin' 怎么办？

加载模型时出现 Gensim 编码错误：'utf-8' codec can't decode byte 0x80... invalid start byte' 如何解决？

如何获取问答测试用的数据集？原链接失效了。

项目无法直接运行，提示需要先进行前处理，具体步骤是什么？

对话意图抽取和规则库（rulebase）是如何生成的？是自动生成的吗？

为什么聊天机器人回复总是默认的“是吗？”、“我不太明白”，或者回答答非所问？

如何在简体中文环境下使用该项目？词向量模型有区别吗？

demo_qa 模式的运作原理是什么？必须要有 w2v_model 才能执行吗？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 146.8k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|4天前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|今天

语言模型数据工具其他

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|5天前

Agent图像开发框架