LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant

584 50 较难 1 次阅读 3天前MIT语言模型Agent

AI 解读由 AI 自动生成，仅供参考

LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant 是一款集数据采集、智能分析与多渠道推送于一体的开源舆情分析助手。它整合了15个主流平台的26个实时榜单，旨在解决传统舆情监控中信息分散、人工筛选效率低以及非结构化数据（如视频内容）难以量化分析的痛点。

通过友好的前端交互界面，用户只需通过自然语言对话，即可轻松完成热搜查询、特定主题搜索、话题聚类及情感倾向分析。系统不仅支持快捷键控制爬虫启停和快速跳转原始页面，还能深入挖掘新闻详情页乃至视频中的关键信息，生成结构化的分析报告。此外，它支持将热点资讯通过邮箱、微信、企业微信或Telegram等多渠道自动推送，帮助用户第一时间掌握动态。

在技术层面，该项目特别优化了对中文语境的理解能力，推荐集成华为盘古大模型作为分析引擎。相较于通用模型，它在处理长文本解析、识别反讽等复杂情感以及适配科技金融等专业领域术语方面表现更佳，且支持本地化部署，有效保障了数据隐私与安全性。

这款工具非常适合需要实时追踪网络热点的媒体从业者、市场公关人员、社会科学研究者以及关注特定领域动态的企业分析师使用。对于具备一定技术背景的开发者而言，其开源架构也提供了良好的二次开发基础，便于根据具体需求定制专属的舆情监控方案。

使用场景

某跨国科技公司的公关总监正面临突发危机：社交媒体上突然涌现大量关于其新产品“涉嫌数据泄露”的负面讨论，且信息散落在微博、B站、知乎等15个主流平台，团队需在2小时内厘清事实并制定回应策略。

没有 LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant 时

数据收集低效：分析师需手动切换多个平台搜索关键词，难以覆盖全部26个实时榜单，极易遗漏B站视频评论或小众论坛的关键线索。
情感判断主观：面对海量混杂着反讽、隐喻的中文评论，人工研判情感倾向耗时且易出错，难以快速区分真实用户抱怨与水军攻击。
信息整合滞后：将分散的新闻、视频摘要和网友观点整理成报告需数小时，导致管理层无法在黄金窗口期获取结构化洞察，决策严重延迟。
监控存在盲区：缺乏自动化推送机制，团队需时刻盯着屏幕，一旦夜间出现新热点（如权威媒体介入报道），无法即时收到微信或邮件预警。

使用 LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant 后

全域自动聚合：通过对话式指令一键查询多平台热搜，系统自动抓取包括视频内容在内的全量数据，确保无死角覆盖关键舆情源头。
智能深度分析：依托盘古大模型强大的长文本解析能力，精准识别中文语境下的反讽与隐晦表达，自动生成客观的情感倾向分析与话题聚类。
报告即时生成：系统自动提炼核心事件（如区分事实指控与情绪宣泄），秒级输出包含信源链接的结构化报告，大幅缩短从数据到洞察的路径。
多渠道实时触达：配置企业微信与邮箱推送任务，一旦监测到负面声量激增或关键媒体发声，立即通知相关负责人，实现7x24小时被动式监控。

核心价值在于将原本需要多人协作数小时的舆情排查工作，压缩为分钟级的自动化智能洞察，显著提升危机响应速度与决策准确性。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

未说明（若本地部署盘古大模型则需相应GPU资源，否则仅依赖API）

内存

未说明

依赖

notes1. 必须安装 Edge 或 Chrome/Chromium 浏览器，并配置对应版本的 WebDriver（chromedriver 或 msedgedriver）至系统 PATH。2. 需自行安装并配置 MySQL 数据库，参考 init.py 建表。3. 大模型支持本地部署华为盘古大模型（推荐 openPangu-Embedded-7B）或使用 OpenAI 格式接口。4. 爬虫集群与分析系统完全分离，需分别配置参数。5. 部分平台数据抓取可能需要配置 Cookies。

python未说明

LangChain==0.0.346

Scrapy==2.11.0

PyMySQL==1.1.0

scikit-learn==1.3.0

jieba==0.42.1

ChromaDB==0.4.15

sentence-transformers==2.2.2

beautifulsoup4==4.12.2

lxml==4.9.3

Twisted==22.10.0

LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant hero image

快速开始

舆情分析助手项目文档

项目概述

本项目是一款结合 15 个主流平台的 26 个榜单实时数据与大模型分析能力的舆情分析助手。通过前端页面，用户可实现对话式热搜榜单查询、特定主题搜索、话题聚类分析及情感倾向分析。系统支持快捷键控制爬虫启停、多平台数据快速查询与跳转，并能基于新闻详情页内容（即使是视频信息也能挖掘出来）累积分析结果，设置包括邮箱、微信、企业微信、Telegram 在内的多渠道热点推送任务。

核心功能

1. 数据采集与分析

系统整合多平台实时数据，通过大模型分析能力提供多维舆情洞察。用户可通过自然语言对话完成以下操作：

热搜榜单查询：实时获取各平台热门话题排行。
特定主题搜索：精准定位目标舆情信息。
话题聚类分析：自动识别关联话题并生成聚类结果。
情感倾向分析：智能判断舆情正负向趋势。

2. 操作与推送功能

爬虫控制：支持快捷键启动/结束爬虫任务。
数据查询：各平台数据快速检索并可直接点击跳转原始页面。
热点推送：基于新闻详情页内容累积分析结果(包括视频类新闻数据的获取)，支持以下多渠道推送：
- 企业微信群机器人
- 企业微信应用（推送到个人微信）
- Telegram 机器人
- 邮箱（SMTP 协议）

报告 - 关于特朗普和美国相关的消息（推送报告示例）

时间：2025-12-23 16:07:54

关于特朗普与美国近期动态的报告

本报告旨在梳理近期与特朗普及美国相关的关键信息。根据提供的结构化数据，直接匹配“特朗普”和“美国”的聚类主题未能找到。然而，通过对原始搜索结果的深入分析，我们识别出两个主要信息流：一是围绕美国军事项目（特别是海军舰艇）的广泛讨论，其中部分内容涉及特朗普的言论；二是一则关于特朗普与委内瑞拉外交摩擦的明确新闻报道。以下为详细报告。

核心发现与数据亮点

特朗普的军事主张成为焦点：在关于美国海军项目的讨论中，前总统兼2024年总统候选人唐纳德·特朗普的相关言论是高频出现的内容。他关于建造新型大型战舰的宣称，引发了大量关注和衍生内容。
美国海军项目争议不断：美国“星座级”护卫舰等项目因成本超支、进度延误和技术问题受到广泛批评，被部分媒体称为“最失败项目”，这与特朗普宣称的“强大海军”愿景形成鲜明对比。
美委紧张局势升级：一则权威新闻报道证实，特朗普政府近期加强对委内瑞拉的制裁与海上封锁行动，导致两国关系持续紧张，并引发委内瑞拉总统马杜罗的公开回应。

详细新闻内容梳理

以下列出从数据中提取的、与查询直接或强相关的新闻条目：

1. 特朗普高调宣布新型战舰计划

标题：特朗普：将建“特朗普级”新型战舰，比现有舰艇“强100倍”
URL：https://search.bilibili.com/all?keyword=如何评价美国新护卫舰项目&from_source=webtop_search&spm_id_from=333.934&search_source=4 (内容列表内)
摘要：据央视新闻报道，特朗普公开宣布将建造名为“特朗普级”的新型战舰，并宣称其战斗力将比现有舰艇“强100倍”。此言论迅速成为热议话题，体现了其强调增强美国军事力量的个人政治风格。

2. 美委外交风波：马杜罗隔空喊话特朗普

标题：马杜罗：特朗普，请管好美国自己的问题
URL：http://www.baidu.com/link?url=AYq6wxS3CV4H7aKMowVtRndNgSCwXdN5tNxbtTIr9UALSMH4o22_fP44PDUXjTOmXaaGOFG8kC2G-8PNLdRZVa
摘要：新华社加拉加斯电，委内瑞拉总统马杜罗于12月22日公开表示，建议美国总统特朗普专注于处理美国国内的关键问题。马杜罗指出，特朗普近期70%的讲话都在针对委内瑞拉。此举是对特朗普政府自12月10日起多次在委附近海域拦截油轮、并于16日下令对委实施“全面彻底封锁”的强硬回应。委方谴责美方行为是“海盗行径”，两国紧张关系加剧。

3. 美国海军护卫舰项目陷入困境

标题：美国8年砸8亿的“星座级”护卫舰项目彻底烂尾
URL：https://search.bilibili.com/all?keyword=如何评价美国新护卫舰项目&from_source=webtop_search&spm_id_from=333.934&search_source=4 (内容列表内)
摘要：有视频报道指出，美国海军重要的“星座级”护卫舰项目面临严重问题，被形容为“彻底烂尾”。该项目耗时8年、耗资巨大，但进展缓慢，暴露了美军在装备采购和项目管理方面存在的深层问题。

4. 舆论关注美国军事战略与设计

标题：如何评价美国新护卫舰项目？美国公开新型护卫舰设计给世界看傻了
URL：https://search.bilibili.com/all?keyword=如何评价美国新护卫舰项目&from_source=webtop_search&spm_id_from=333.934&search_source=4 (内容列表内)
摘要：该内容反映了公众和军事观察家对美国最新公开的护卫舰设计方案的关注与讨论。其中不乏将其与外国同类舰艇（如被提及的中国054型护卫舰）进行比较，讨论其设计理念、实战效能及项目前景。

5. 特朗普宣称建造“黄金舰队”

标题：突发！特朗普宣布：批准建造“黄金舰队”，首先造2艘有史以来最大的战列舰！
URL：https://search.bilibili.com/all?keyword=如何评价美国新护卫舰项目&from_source=webtop_search&spm_id_from=333.934&search_source=4 (内容列表内)
摘要：这是一则关于特朗普宣称打造“黄金舰队”并优先建造巨型战列舰的报道。此类消息通常带有强烈的个人宣传色彩，旨在吸引眼球并塑造其强力领导人的形象，但其现实可行性和具体细节常受质疑。

分析与总结

从以上信息可以看出，近期“特朗普”与“美国”相关的消息主要交织在 军事外交 和 国内政治叙事 两个维度：

对外强硬姿态：特朗普通过对委内瑞拉实施极限施压（油轮封锁）、高调宣布扩军计划（“特朗普级”战舰），持续塑造其对外强硬、维护“美国优先”的形象。这与马杜罗的回应共同构成了当前美拉关系中的一个热点冲突。
国内政治与军事改革的碰撞：特朗普雄心勃勃的军事建设宣言，与美国军方当前面临的现实困境（如“星座级”护卫舰项目的失败）形成巨大反差。这种反差成为媒体和公众讨论的焦点，既涉及对美国军费效率的批评，也涉及对特朗普政策主张可行性的探讨。
信息传播特点：相关话题在中文网络平台（如Bilibili）上传播时，呈现出混合状态：既有引自央视、新华社的权威新闻，也有大量自媒体制作的解读、评论甚至带有夸张色彩的二次创作内容。用户在获取信息时需注意辨别来源与事实核查。

综上所述，尽管初始聚类分析未显示直接关联主题，但实际数据揭示了以 “特朗普的军事主张” 和 “美委紧张关系” 为核心的两条清晰线索，共同勾勒出特朗普活跃于美国政治前台时，其言论与政策如何持续影响美国的内外议程与公众讨论。

技术选型说明：关于使用盘古大模型

图片描述

概述

本项目在开发过程中，为提升舆情分析环节的核心能力，对多个开源及可本地化部署的大语言模型进行了对比测试。经实际验证，华为盘古大模型在本项目的特定任务场景下表现良好，因此选择将其作为推荐的分析引擎之一集成到项目中。

选型理由

以下是在本地测试环境中，我们观察到的盘古模型相较于其他对比模型的一些实际特点：

对长文本的解析能力较强
- 在处理新闻稿、长篇论坛帖子等文本时，能较为稳定地提取核心事件与观点。
- 在情感倾向分析上，对中文的复杂性（如反讽、隐晦表述）有相对更好的处理能力。
领域知识适配性较好
- 在涉及科技、金融、公共政策等领域的文本分析中，表现出更准确的术语理解和上下文关联。
本地部署的可行性
- 支持本地化部署，这对于处理敏感的舆情数据、保障数据隐私和满足定制化需求至关重要。
- 在本地环境运行，避免了因网络API调用带来的延迟、费用与稳定性问题。

资源参考

如果您对盘古模型感兴趣，可以参考以下官方资源进行深入了解：

华为openPangu-Embedded-7B-model下载地址：https://ai.gitcode.com/ascend-tribe/openpangu-embedded-7b-model

项目结构

主要文件夹

分析系统：hotsearch_analysis_agent
爬虫集群：hotsearchcrawler（与分析系统完全分离）

核心文件说明

项目启动文件：app.py
推送任务测试文件：test_push_task
爬虫测试文件：runspider-test
爬虫启动文件：run_spiders（通过前端界面启动）
数据库初始化参考：init.py

部署步骤

1. 环境准备

1.1 浏览器驱动配置（详细步骤）

本项目依赖浏览器驱动获取新闻详情页内容，需按以下步骤配置：

步骤一：确认浏览器版本

确保已安装 Edge 或 Chrome/Chromium 浏览器。
打开浏览器，进入 设置 → 关于，查看浏览器版本号（如 Chrome 115.0.5790.102）。

步骤二：下载对应驱动

Chrome 驱动：访问 ChromeDriver 下载页
Edge 驱动：访问 EdgeDriver 下载页
选择与浏览器版本匹配的驱动版本，下载对应操作系统的驱动文件（如 chromedriver.exe（Windows）、chromedriver（macOS/Linux））。

步骤三：定位浏览器安装路径

Windows：通常位于 C:\Program Files\Google\Chrome\Application\ 或 C:\Program Files (x86)\Microsoft\Edge\Application\
macOS：通常位于 /Applications/Google Chrome.app/Contents/MacOS/ 或 /Applications/Microsoft Edge.app/Contents/MacOS/
Linux：通常位于 /usr/bin/google-chrome 或 /usr/bin/microsoft-edge

步骤四：将驱动文件放置于系统可识别路径

建议将驱动文件（如 chromedriver）放置在以下任一位置：
1. 浏览器的安装目录（与浏览器可执行文件同级）
2. 系统 PATH 环境变量中包含的任意目录（如 /usr/local/bin/（macOS/Linux）或 C:\Windows\System32\（Windows））

步骤五：添加驱动路径至系统 PATH

Windows：
1. 右键"此电脑" → "属性" → "高级系统设置" → "环境变量"
2. 在"系统变量"中找到 Path，点击"编辑"
3. 添加驱动所在目录的完整路径（如 C:\WebDriver\）
macOS/Linux：
1. 打开终端，编辑 ~/.bashrc 或 ~/.zshrc
2. 添加一行：export PATH=$PATH:/path/to/driver/directory
3. 执行 source ~/.bashrc 或重启终端

步骤六：验证驱动是否可用

在终端或命令行中执行：

chromedriver --version

或

msedgedriver --version

若显示版本号，则说明驱动配置成功。

1.2 虚拟环境与依赖安装

创建并激活虚拟环境。
执行命令安装依赖：pip install -r requirements.txt

1.3 数据库配置

下载安装 MySQL 数据库。
参考 init.py 代码建立相应库和数据表。

2. 参数配置

2.1 爬虫集群配置 (`hotsearchcrawler/settings`)

MySQL 接口参数设置。
个别平台 cookies（可选）。

2.2 分析系统配置

.env 文件设置
- MySQL 参数。
- OpenAI 格式大模型接口参数。
- 各平台推送参数。
- 历史记忆轮数、模型温度等参数。
cookies 配置
- 在 config/cookies 文件中设置相应格式的平台 cookies（可通过浏览器插件获取）。
- 注：cookies 为可选项，若未配置将损失个别平台的详情页提取能力。

推送任务参数获取指南（建议优先考虑邮箱推送，简单易使用）

1. 企业微信群机器人（群聊）

参数名: WECOM_WEBHOOK 获取步骤：

登录企业微信管理后台（work.weixin.qq.com）。
进入"应用管理" → "创建应用"或选择已有应用。
在应用详情中，找到"接收消息" → "配置 API 接收"。

简易方式：

在任意群聊中点击右上角群设置。
选择"添加机器人" → "新建机器人".
设置机器人名称，复制生成的 Webhook URL。

格式示例： https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx

2. 企业微信应用（推送到个人微信）

需配置四个参数：

企业 ID (WECOM_CORP_ID)：
- 获取方式：登录企业微信后台 → "我的企业" → "企业信息" → 找到"企业 ID"（通常以 ww 开头）。
应用 ID (WECOM_AGENT_ID)：
- 获取方式：进入"应用管理" → 选择或创建应用 → 在应用详情页找到"AgentId"。
应用密钥 (WECOM_SECRET)：
- 获取方式：在应用详情页找到"Secret"字段 → 点击"查看"（可能需要管理员权限）→ 复制生成的 Secret（一串随机字符）。
接收用户 ID (WECOM_USER_ID)：
- 获取方式：进入"通讯录" → 查看成员信息 → 成员的"账号"字段即为 UserID。
- 注意：多个用户用 | 分隔，如：zhangsan|lisi|wangwu。

3. Telegram 机器人

需配置两个参数：

机器人 Token (TELEGRAM_BOT_TOKEN)：
- 获取步骤：
  1. 在 Telegram 中搜索 @BotFather。
  2. 发送 /newbot 命令。
  3. 按提示设置机器人名称和 username。
  4. BotFather 会返回 token。
- 格式示例：1234567890:ABCDEFGHIJKLMNOPQRSTUVWXYZ
聊天 ID (TELEGRAM_CHAT_ID)：
- 获取方法一（个人聊天）：
  1. 给机器人发送任意消息。
  2. 访问：https://api.telegram.org/bot<YourBOTToken>/getUpdates
  3. 在返回的 JSON 中找到 chat.id。
- 获取方法二（群组/频道）：
  1. 将机器人添加到群组/频道。
  2. 在群组中发送一条消息。
  3. 通过上述 getUpdates 接口获取 chat.id。
- 注意：群组 ID 为负数，个人聊天 ID 为正数。

4. 邮箱推送（SMTP）

需配置五个参数：

SMTP 服务器 (EMAIL_HOST)：
- 常用邮箱 SMTP 服务器：
  - QQ 邮箱：smtp.qq.com
  - 163 邮箱：smtp.163.com
  - Gmail：smtp.gmail.com
  - 企业邮箱：咨询邮箱服务商。
端口号 (EMAIL_PORT)：
- 常见端口：
  - SSL 加密：465
  - TLS 加密：587
  - 非加密：25（不推荐）。
发件邮箱 (EMAIL_USER)：
- 用于发送邮件的邮箱地址，示例：your_email@qq.com。
邮箱密码/授权码 (EMAIL_PASSWORD)：
- 注意：不是登录密码，而是 SMTP 授权码。
- 获取方式：
  - QQ 邮箱：设置 → 账户 → POP3/IMAP 服务 → 生成授权码。
  - 163 邮箱：设置 → POP3/SMTP/IMAP → 客户端授权密码。
  - Gmail：需要开启两步验证，然后生成应用专用密码。
收件邮箱 (EMAIL_TO)：
- 接收推送邮件的地址，多个邮箱用逗号分隔，如：user1@qq.com,user2@163.com。

注意事项

系统分离：爬虫集群 (hotsearchcrawler) 与分析系统 (hotsearch_analysis_agent) 完全分离，需分别进行参数配置。
Cookies (可选)：cookies 设置为可选项，若未配置将损失个别平台的详情页提取能力。
参数格式：各平台推送参数需严格按照格式要求填写，否则可能导致推送失败。
数据库：数据库配置需参考 init.py 代码创建相应库和表结构。
功能测试：所有参数配置完成后，建议先运行测试文件验证功能是否正常：
- 推送测试：运行 test_push_task。
- 爬虫测试：运行 runspider-test。

浏览器驱动配置快速检查清单

已确认浏览器版本
已下载匹配版本的驱动
已配置系统 PATH（如需要）
已通过命令行验证驱动可用

文档版本：1.1

注意：完成浏览器驱动配置后，请继续按照项目部署文档完成后续步骤。如遇问题，可查看项目日志或运行测试文件定位具体错误。

💖 小小的星星，大大的鼓励！

如果您觉得这个项目有用，请给它一颗星 ⭐️ 这将激励我继续改进和完善！🚀

开源软件使用声明

项目信息

项目名称: 舆情分析系统
版本: 1.0.0
版权所有: [huangmingqi]
项目许可证: MIT

使用的开源软件列表

序号	开源软件名称	版本	许可证	用途
1	LangChain	0.0.346	MIT	智能体框架构建
2	Scrapy	2.11.0	BSD	网络爬虫功能
3	PyMySQL	1.1.0	MIT	MySQL数据库连接
4	scikit-learn	1.3.0	BSD	聚类分析算法
5	jieba	0.42.1	MIT	中文分词处理
6	textblob	0.17.1	MIT	情感分析功能
7	ChromaDB	0.4.15	Apache 2.0	向量数据库
8	sentence-transformers	2.2.2	Apache 2.0	文本嵌入模型
9	requests	2.31.0	Apache 2.0	HTTP请求处理
10	beautifulsoup4	4.12.2	MIT	HTML内容解析
11	lxml	4.9.3	BSD	XML/HTML处理
12	schedule	1.2.0	MIT	定时任务调度
13	tqdm	4.66.1	MPL-2.0	进度条显示
14	numpy	1.24.3	BSD	数值计算
15	Twisted	22.10.0	MIT	异步网络框架
16	pyOpenSSL	23.2.0	Apache 2.0	SSL/TLS支持
17	cryptography	41.0.7	Apache 2.0/BSD	加密功能

许可证义务履行

已履行的义务

在所有分发版本中包含完整的许可证文本
保留所有开源软件的版权声明
在NOTICE文件中明确声明使用的开源软件
提供本使用声明文档

许可证兼容性说明

本项目使用的开源软件均采用宽松的开源许可证（MIT、BSD、Apache 2.0等），这些许可证与项目选择的MIT许可证完全兼容。

第三方服务声明

本软件使用了OpenAI API服务，该服务不属于开源软件，但受OpenAI的服务条款约束。

免责声明

重要提示

本项目（包括但不限于所有爬虫代码、分析工具及相关文档）仅供学习、研究与交流目的使用。任何用户在使用本项目代码或衍生作品前，必须仔细阅读并理解本免责声明的全部内容。使用本项目即表示您同意承担所有相关风险及责任。

1. 使用性质

本项目为技术演示与学术研究项目，所有代码及文档均不构成任何形式的专业建议或服务。
严禁将本项目用于任何非法、侵权、商业盈利或违反目标网站服务条款的用途。

2. 关于网络爬虫的特别声明

遵守法律法规与网站协议：使用者有责任确保其爬虫行为符合《中华人民共和国网络安全法》、《数据安全法》、《个人信息保护法》等相关法律法规，并严格遵守目标网站的robots.txt协议、服务条款及使用规范。
尊重网站负载：使用者应通过合理技术手段（如设置请求间隔、并发控制等）避免对目标网站服务器造成不当负担或干扰其正常运营。
数据使用限制：通过爬虫获取的任何数据，其使用范围不得超出数据所有者（目标网站）明确允许的范畴，并应特别注意对个人信息、商业秘密等敏感数据的保护。

3. 风险自担

使用本项目代码及由此产生的任何行为完全由使用者自行承担风险。项目开发者（贡献者）不对以下情况负责：
- 因使用本项目而产生的任何直接、间接、偶然或特殊的损失或损害。
- 因违反目标网站规定、相关法律或本声明所引发的任何法律纠纷、索赔或处罚。
- 因数据准确性、完整性、及时性问题导致的任何决策后果。

4. 知识产权

项目代码版权归本仓库贡献者所有，详见LICENSE文件。
通过爬虫获取的数据，其知识产权归属于原始数据提供方（目标网站/平台）。使用者有责任尊重并维护原始数据所有者的合法权益。

5. 第三方责任

本项目可能引用或依赖第三方库、工具或服务，其各自的知识产权与免责声明由其所有者提供。项目开发者不对这些第三方内容承担任何责任。

6. 建议与终止

强烈建议在使用任何爬虫前，先行咨询法律与合规专业人士，并与目标网站进行必要沟通。
如任何网站明确要求停止抓取，使用者应立即终止相关爬虫行为。
项目开发者保留随时更新或终止本项目的权利，且不因此对任何使用者承担责任。

LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant 快速上手指南

环境准备

系统要求与前置依赖

编程语言：Python 3.x
数据库：MySQL（需提前安装并启动服务）
浏览器：Google Chrome 或 Microsoft Edge
浏览器驱动：ChromeDriver 或 EdgeDriver（版本需与浏览器严格匹配）

关键配置检查

在开始安装前，请确保浏览器驱动已正确配置到系统环境变量 PATH 中。验证方法：在终端执行以下命令，若能输出版本号即表示配置成功。

chromedriver --version
# 或
msedgedriver --version

安装步骤

1. 克隆项目与创建虚拟环境

git clone <项目仓库地址>
cd LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant

# 创建虚拟环境
python -m venv venv

# 激活虚拟环境
# Windows:
venv\Scripts\activate
# macOS/Linux:
source venv/bin/activate

2. 安装依赖

pip install -r requirements.txt

提示：若下载速度慢，可添加国内镜像源，例如：pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 数据库初始化

参考项目根目录下的 init.py 文件，在 MySQL 中创建对应的数据库和数据表结构。

4. 参数配置

项目包含两个独立模块，需分别配置：

A. 爬虫集群配置 (`hotsearchcrawler/settings`)

配置 MySQL 连接信息。
（可选）配置特定平台的 Cookies 以增强详情页获取能力。

B. 分析系统配置 (`.env` 文件)

在项目根目录创建或编辑 .env 文件，配置以下关键参数：

数据库：MySQL 连接参数。
大模型：OpenAI 格式接口参数（推荐使用华为盘古大模型或其他兼容 OpenAI 格式的本地/云端模型）。
推送渠道：根据需求配置邮箱、企业微信或 Telegram 的参数（详见原 README “推送任务参数获取指南”）。
其他：历史记忆轮数、模型温度等。

基本使用

1. 功能测试（推荐先执行）

在正式运行前，建议通过测试脚本验证配置是否正确。

测试推送功能：
```
python test_push_task
```
测试爬虫功能：
```
python runspider-test
```

2. 启动服务

启动前端与分析系统：
```
python app.py
```
启动后，通过浏览器访问前端页面进行对话式热搜查询、主题搜索及情感分析。
启动爬虫集群：可通过前端界面快捷键控制启停，或在命令行直接运行：
```
python run_spiders
```

3. 核心功能体验

热搜查询：在前端输入自然语言指令，如“查看微博今日热搜”。
专题分析：输入特定主题（如“特朗普”），系统将自动聚类相关话题并生成情感分析报告。
热点推送：配置好推送参数后，系统将根据设定频率将分析结果推送到指定渠道（如企业微信或邮箱）。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant 时

使用 LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant 后

运行环境要求

快速开始

舆情分析助手项目文档

项目概述

核心功能

1. 数据采集与分析

2. 操作与推送功能

报告 - 关于特朗普和美国相关的消息（推送报告示例）

关于特朗普与美国近期动态的报告

核心发现与数据亮点

详细新闻内容梳理

分析与总结

技术选型说明：关于使用盘古大模型

概述

选型理由

资源参考

项目结构

主要文件夹

核心文件说明

部署步骤

1. 环境准备

1.1 浏览器驱动配置（详细步骤）

1.2 虚拟环境与依赖安装

1.3 数据库配置

2. 参数配置

2.1 爬虫集群配置 (hotsearchcrawler/settings)

2.2 分析系统配置

推送任务参数获取指南（建议优先考虑邮箱推送，简单易使用）

1. 企业微信群机器人（群聊）

2. 企业微信应用（推送到个人微信）

3. Telegram 机器人

4. 邮箱推送（SMTP）

注意事项

浏览器驱动配置快速检查清单

开源软件使用声明

项目信息

使用的开源软件列表

许可证义务履行

已履行的义务

许可证兼容性说明

第三方服务声明

免责声明

重要提示

1. 使用性质

2. 关于网络爬虫的特别声明

3. 风险自担

4. 知识产权

5. 第三方责任

6. 建议与终止

LLM-Based-Intelligent-Public-Opinion-Analytics-Assistant 快速上手指南

环境准备

系统要求与前置依赖

关键配置检查

安装步骤

1. 克隆项目与创建虚拟环境

2. 安装依赖

3. 数据库初始化

4. 参数配置

A. 爬虫集群配置 (hotsearchcrawler/settings)

B. 分析系统配置 (.env 文件)

基本使用

1. 功能测试（推荐先执行）

2. 启动服务

3. 核心功能体验

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

2.1 爬虫集群配置 (`hotsearchcrawler/settings`)

A. 爬虫集群配置 (`hotsearchcrawler/settings`)

B. 分析系统配置 (`.env` 文件)