whatsapp-python-chatbot

GitHub
725 216 简单 1 次阅读 3天前语言模型Agent
AI 解读 由 AI 自动生成,仅供参考

whatsapp-python-chatbot 是一款基于 Python 构建的高性价比 WhatsApp 智能聊天机器人解决方案。它巧妙结合了 Google 先进的 Gemini AI 大模型与 WaSenderAPI,旨在以极低的成本实现强大的自动化对话功能。

该工具主要解决了传统 WhatsApp Business API 费用高昂、接入门槛高的问题。通过采用每月仅需 6 美元的 WaSenderAPI 作为替代方案,并搭配 Google Gemini 的免费额度,用户可将运营成本控制在极低水平,同时享受高质量的 AI 交互体验。

这款工具非常适合具备一定编程基础的开发者、初创团队或希望低成本验证 AI 客服场景的技术爱好者使用。它不仅支持文本交流,还能处理图片、音频、视频及文档等多种媒体格式。其技术亮点包括:自动将长回复智能拆分为多条消息以提升阅读体验、通过 JSON 配置灵活定制 AI 人设、以及具备上下文记忆能力以维持自然流畅的多轮对话。整体架构基于 Flask 开发,部署简单,既适合本地调试,也易于在云端生产环境中运行,是构建个性化智能助手的理想起点。

使用场景

一家小型跨境电商团队希望利用 WhatsApp 为海外客户提供 24 小时自动售后支持,但受限于预算无法承担昂贵的官方商业 API 费用。

没有 whatsapp-python-chatbot 时

  • 高昂的接入成本:依赖 WhatsApp 官方商业 API 需支付高额消息费及认证费,初创团队难以负担。
  • 人工响应滞后:客服仅能在工作时间回复,夜间或节假日的客户咨询积压严重,导致订单流失。
  • 上下文记忆缺失:简单的关键词自动回复无法理解多轮对话,客户重复描述问题,体验极差。
  • 多媒体处理困难:面对客户发送的产品损坏图片或视频证据,传统脚本无法识别内容,只能转人工处理。

使用 whatsapp-python-chatbot 后

  • 极致低成本运营:结合 WaSenderAPI($6/月)与 Gemini 免费额度,将月度通讯成本压缩至一杯咖啡钱。
  • 全天候智能应答:基于 Gemini AI 的理解能力,机器人能即时处理复杂售后咨询,实现真正的 7×24 小时服务。
  • 拟人化连续对话:通过内置的对话历史功能,机器人能记住前文语境,像真人一样流畅解决多步骤问题。
  • 多模态自动分析:直接解析客户上传的故障图片或语音,AI 自动生成针对性的解决方案,大幅减少人工介入。

whatsapp-python-chatbot 让中小开发者也能以极低门槛,在 WhatsApp 上部署具备多模态理解与长记忆能力的专业级 AI 客服。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes该工具基于云端 API(Google Gemini 和 WaSenderAPI),本地无需高性能硬件或下载大型模型。运行需配置 .env 文件包含 API Key。开发环境可使用 Flask 内置服务器,生产环境建议使用 Gunicorn 配合 Nginx/Apache 反向代理。若需在本地暴露 webhook 进行测试,需安装 ngrok。
python3.x (README 中使用 python3 命令,未指定具体小版本)
flask
google-generativeai
python-dotenv
gunicorn
whatsapp-python-chatbot hero image

快速开始

用 Python 打造的经济实惠 WhatsApp AI 聊天机器人:每月仅需 6 美元

只需每月 6 美元(WaSenderAPI 订阅)加上 Google Gemini API 的免费层级(每月 1500 次请求),即可创建一个由 Google Gemini AI 提供支持的强大 WhatsApp 聊天机器人。该基于 Python 的解决方案使用 Flask 通过 WaSenderAPI Webhook 处理传入消息,并利用 Gemini 先进的 AI 功能生成智能、对话式的响应。

💰 高性价比方案

  • WaSenderAPI:仅需每月 6 美元即可实现 WhatsApp 集成
  • Gemini AI:免费层级,每月 1500 次请求
  • 托管:可在本地运行或选择低成本云服务
  • 无需支付 WhatsApp Business API 费用:使用 WaSenderAPI 作为经济实惠的替代方案

🔥 核心功能

  • WhatsApp 集成:通过 WaSenderAPI 接收和发送消息
  • AI 驱动的回复:使用 Google Gemini AI 生成智能回复
  • 媒体支持:支持文本、图片、音频、视频和文档消息
  • 智能消息拆分:自动将长回复拆分为多条消息,提升可读性
  • 可定制的 AI 角色:通过简单的 JSON 配置调整机器人的个性与行为
  • 对话历史:保持消息间的上下文,实现自然流畅的对话
  • 错误处理:强大的日志记录和错误管理机制,确保稳定运行
  • 易于配置:通过环境变量进行简单设置

📁 项目结构

/whatsapp-python-chatbot/
├── script.py         # 主 Flask 应用程序及机器人逻辑
├── requirements.txt  # Python 依赖项
├── .env              # 环境变量(API 密钥等)
├── persona.json      # 可定制的 AI 角色设置
└── README.md         # 当前文件

🚀 设置与安装

  1. 克隆仓库(如适用)或按照说明创建文件。

  2. 建议创建虚拟环境:

    python3 -m venv venv
    source venv/bin/activate  # Windows 用户请使用 `venv\Scripts\activate`
    
  3. 安装依赖项:

    pip3 install -r requirements.txt
    
  4. 配置环境变量: 在项目根目录下创建 .env 文件,复制下方示例内容。请勿将包含敏感密钥的 .env 文件提交到版本控制中。

    GEMINI_API_KEY="YOUR_GEMINI_API_KEY_HERE"  # 免费层级:每月 1500 次请求
    WASENDER_API_TOKEN="YOUR_WASENDER_API_TOKEN_HERE"  # 每月 6 美元订阅
    # 可选:若在 script.py 中更改了端口,请在此处更新以供 ngrok 或其他服务使用
    # FLASK_RUN_PORT=5000
    

    将占位符替换为您的实际 API 密钥:

    • GEMINI_API_KEY:您的 Gemini API 密钥(提供免费层级)
    • WASENDER_API_TOKEN:您从 WaSenderAPI 获取的 API 令牌(每月 6 美元订阅)

🏃‍♂️ 运行应用程序

1. 开发模式(使用 Flask 内置服务器)

适用于本地开发和测试。

python3 script.py

应用程序默认将在 http://0.0.0.0:5001/ 上运行。

2. 使用 ngrok 测试 Webhook

WaSenderAPI 需要将 Webhook 事件(传入消息)发送到一个可公开访问的 URL。如果您在本地运行 Flask 应用程序,ngrok 可以将您的本地服务器暴露到互联网上。

a. 安装 ngrok(如尚未安装):https://ngrok.com/

b. 启动 ngrok,将其转发到 Flask 应用的端口(例如 5001):

ngrok http 5001

c. ngrok 将为您提供一个公共 URL(例如 https://xxxx-xx-xxx-xxx-xx.ngrok-free.app)。

d. 在 WaSenderAPI 控制台中将此 ngrok URL 配置为您的 Webhook URL,用于已连接的设备/会话。请务必添加 /webhook 路径(例如 https://xxxx-xx-xxx-xxx-xx.ngrok-free.app/webhook)。

3. 生产部署(使用 Gunicorn)

在生产环境中,建议使用 Gunicorn 等专业的 WSGI 服务器,而非 Flask 自带的开发服务器。

a. 安装 Gunicorn:

pip3 install gunicorn

b. 使用 Gunicorn 运行应用程序: 如果文件名或 Flask 应用实例名称有更改,请将 script:app 替换为 your_filename:your_flask_app_instance_name

gunicorn --workers 4 --bind 0.0.0.0:5001 script:app
  • --workers 4:根据您的服务器 CPU 核心数调整工作进程数量(常见起始值为 2 * num_cores + 1)。
  • --bind 0.0.0.0:5001:指定 Gunicorn 监听的地址和端口。

c. 反向代理(推荐): 在典型的生产环境中,您会将 Gunicorn 部署在 Nginx 或 Apache 等反向代理之后。反向代理负责处理传入的 HTTPS 请求、SSL 终止、静态文件服务(如有),并将请求转发至 Gunicorn。

🔄 WaSenderAPI Webhook 配置

  • 登录您的 WaSenderAPI 控制台。
  • 导航到会话管理部分。
  • 将您的手机号码连接到会话。
  • 找到设置或更新 Webhook URL 的选项。
  • 输入您的 Flask 应用程序 /webhook 端点所运行的可公开访问的 URL(例如开发阶段的 ngrok URL,或生产服务器的 URL)。
  • 确保仅选择 message_upsert
  • 保存更改。

📝 自定义机器人个性

聊天机器人包含一个可定制的基础提示,用于定义 AI 的角色和行为。编辑 persona.json 文件,以调整 Gemini 对消息的响应方式,使机器人更正式、更随意、更具信息性或更富对话感,从而满足您的具体使用场景需求。

{
  "name": "WhatsApp 助手",
  "base_prompt": "您是一位在 WhatsApp 聊天中回答问题的乐于助人且简洁的 AI 助手……",
  "description": "您是一位乐于助人的 WhatsApp 助手。请保持回复简洁……"
}

📊 日志记录与错误处理

  • 应用程序使用 Python 内置的 logging 模块。
  • 默认情况下,日志会打印到控制台。
  • 日志格式为:%(asctime)s - %(levelname)s - %(message)s
  • 未处理的异常也会被记录。
  • 生产环境注意事项:建议将日志写入文件,使用集中式日志服务(如 ELK 堆栈、Sentry、Datadog),并实施日志轮转。

📚 WaSenderAPI 文档

请参阅官方 WaSenderAPI 文档,获取关于 API 端点、请求/响应格式以及 Webhook 详情的最新信息:https://wasenderapi.com/api-docs

💡 为什么选择此方案?

这款聊天机器人提供了一种极具成本效益的方式,让您无需承担通常与 WhatsApp Business API 相关的高昂费用,即可部署一款 AI 驱动的 WhatsApp 机器人。通过结合 WaSenderAPI 每月 6 美元的经济实惠订阅和 Google 免费的 Gemini API 层级,您将以远低于企业级解决方案的成本获得一个功能强大且可定制的聊天机器人解决方案。

版本历史

v0.1.12025/07/02
v0.12025/06/11

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

145.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|今天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|2天前
开发框架图像Agent