LeadQualifier

650 106 简单 1 次阅读 4天前MIT语言模型

AI 解读由 AI 自动生成，仅供参考

LeadQualifier 是一款由 Xeneta 开源的机器学习工具，旨在帮助销售团队利用算法自动评估潜在客户的价值。在传统销售流程中，人工筛选海量线索不仅耗时费力，还容易因主观判断遗漏高价值客户。LeadQualifier 通过分析公司描述等文本数据，自动将销售线索标记为“合格”或“不合格”，从而显著提升销售效率与转化率。

该工具主要面向具备一定编程基础的开发者和数据科学家，同时也适合希望构建定制化销售预测模型的企业技术团队。用户既可以使用项目提供的脱敏数据集来测试和优化自己的算法，挑战现有的性能榜单；也可以基于企业内部数据，训练专属的线索评分模型。

在技术实现上，LeadQualifier 展示了完整的机器学习工作流，涵盖数据预处理、特征提取（如 TF-IDF 向量化）及模型训练。项目内置了随机森林和 SGD 分类器等基准模型，其中 SGD 分类器在测试中表现优异，F1 分数达到 0.905。此外，代码库还包含了使用 TensorFlow 进行神经网络实验的示例，为探索更复杂的深度学习方案提供了参考。通过简单的脚本配置，用户即可快速部署从模型训练到实际线索预测的全流程应用。

使用场景

某 B2B SaaS 初创公司的销售团队每天需从数百个通过官网表单和第三方数据源获取的潜在客户中筛选高价值目标，以便集中精力跟进。

没有 LeadQualifier 时

销售人员需人工逐条阅读公司描述和网站信息，耗时费力且效率极低。
缺乏统一评估标准，不同销售对“合格线索”的判断主观性强，导致资源浪费。
大量低质量线索混杂其中，挤占了跟进高意向客户的时间，转化率长期低迷。
无法快速处理新增数据，面对突发的大规模线索涌入时往往束手无策。

使用 LeadQualifier 后

利用机器学习模型自动分析公司描述与 URL 特征，秒级完成数百条线索的初筛分类。
基于历史成交数据训练专属算法（如 SGD Classifier），建立客观统一的线索评分标准。
输出带有明确"Prediction"标记的表格，销售团队可优先聚焦标记为"1"的高潜客户，显著提升成单率。
流程高度自动化，新线索导入 Excel 即可运行脚本获取结果，轻松应对业务增长带来的数据洪峰。

LeadQualifier 将原本需要数小时的人工筛选工作压缩至分钟级，让销售团队从繁琐的数据清洗中解放出来，专注于真正有价值的客户沟通。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes项目主要依赖 scikit-learn 进行机器学习（如 SGDClassifier），并提及正在实验 TensorFlow 神经网络。运行前需通过 Python 交互界面手动下载 nltk 的 stopwords 数据包。训练自定义模型时需要准备包含'URL'和'Description'列的 Excel 文件。由于涉及敏感公司信息，原始文本数据未公开，仅提供向量化后的数据用于测试。

python未说明

nltk

scikit-learn

快速开始

领导者资格评估器

此仓库是我们Xeneta公司用于通过机器学习对销售线索进行资格评估的脚本集合。有关该项目的更多信息，请参阅Medium文章利用机器学习提升销售业绩。

您可以使用此仓库完成两件事：

使用我们的数据和您自己的算法，尝试超越我们的预测结果。
使用您自己的数据为贵公司创建一个线索资格评估工具。

设置

首先运行以下命令：

pip install -r requirements.txt

您还需要从nltk包中下载停用词。启动Python解释器并输入以下内容：

import nltk
nltk.download('stopwords')

1. 尝试您自己的算法

我们非常希望在排行榜上看到更多优秀的算法，因此在您实现了一个算法后，请向我们提交拉取请求。

Xeneta资格评估器

我们已在此处提供给您经过向量化和转换的数据这里。遗憾的是，我们无法共享原始文本数据，因为其中包含敏感的公司信息（即我们的客户是谁）。

要测试您自己的算法，只需将其添加到run.py文件中，并运行该脚本：

python run.py

感谢lampts实现了迄今为止表现最佳的算法——SGD分类器。

排行榜：

算法	精确率	召回率	F1分数
SGD分类器	0.872	0.940	0.905
随机森林	0.845	0.915	0.878

附注： 我们还在nn.py文件中尝试使用TensorFlow构建神经网络。

2. 创建您自己的线索资格评估器

要创建您自己的线索资格评估器，您需要获取公司简介（以构建您的数据集）。目前我们使用FullContact来完成这一任务。

注意： 我们添加了示例数据，以便您无需担心错误即可运行这两个脚本，并为您提供表格样式的参考。

训练算法

此脚本会基于您自己的输入数据训练一个算法。它期望在input文件夹中存在名为qualified和disqualified的两个Excel表格。这些表格需要包含两列：

URL
描述

运行脚本：

python run.py

脚本会将三个文件输出到qualify_leads项目中：

algorithm
vectorizer
tfidf_vectorizer

现在您已经准备好开始对销售线索进行分类了！

线索资格评估

这是实际用于预测线索质量的脚本。请在input文件夹中添加一个名为data的Excel表格。请使用与现有示例文件相同的格式。

运行脚本：

python run.py

脚本将生成一个Excel表格，其中包含一列名为Prediction，值为1表示合格，值为0表示不合格：

如有疑问，请发送邮件至per@xeneta.com。

LeadQualifier 快速上手指南

LeadQualifier 是一个基于机器学习的销售线索筛选工具，由 Xeneta 开源。它可以帮助企业利用历史数据训练模型，自动判断新的销售线索是否合格（Qualified）。

环境准备

操作系统：Linux / macOS / Windows
Python 版本：建议 Python 3.6+
前置依赖：
- pip (Python 包管理工具)
- nltk (自然语言处理工具包)
- scikit-learn, pandas, openpyxl 等（将通过 requirements.txt 自动安装）

提示：国内用户安装 Python 依赖时，建议指定清华或阿里镜像源以加速下载。

安装步骤

克隆项目代码

git clone https://github.com/xeneta/LeadQualifier.git
cd LeadQualifier

安装 Python 依赖

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

下载 NLTK 停用词数据 启动 Python 交互界面并执行以下命令：
```
import nltk
nltk.download('stopwords')
```
注：若下载缓慢，可手动下载 stopwords 数据包并放置于本地 NLTK 数据目录。

基本使用

本项目提供两种主要使用场景：使用官方脱敏数据进行算法实验，或使用自有数据构建专属筛选器。

场景一：运行官方示例算法（实验模式）

此模式使用 Xeneta 提供的已向量化数据测试不同算法的效果。

进入实验目录：
```
cd xeneta_qualifier
```
（可选）在 run.py 中添加你自己的算法逻辑。
运行脚本查看评估结果（精确率、召回率、F1 分数）：
```
python run.py
```

场景二：使用自有数据训练并预测（生产模式）

若需为公司创建专属的线索筛选器，请按以下步骤操作：

第一步：训练模型

准备数据：在 train_algorithm/input 文件夹中放入两个 Excel 文件，分别命名为 qualified.xlsx（合格线索）和 disqualified.xlsx（不合格线索）。
- 文件需包含两列：URL 和 Description。
- 参考项目中的 dummy data 格式。
进入训练目录并运行：
```
cd ../train_algorithm
python run.py
```
生成产物：脚本运行成功后，会在 qualify_leads 项目中生成三个关键文件：algorithm（模型）、vectorizer 和 tfidf_vectorizer。

第二步：预测新线索

准备待测数据：在 qualify_leads/input 文件夹中放入名为 data.xlsx 的文件，格式同上（包含 URL 和 Description）。
进入预测目录并运行：
```
cd ../qualify_leads
python run.py
```
查看结果：脚本将输出一个新的 Excel 文件，其中包含 Prediction 列：
- 1 代表 Qualified (合格)
- 0 代表 Disqualified (不合格)

常见问题

如何安装项目依赖？

在 Python 3 (OSX) 上安装时遇到 'csv' 包无法找到的错误怎么办？

除了准确率（Accuracy），还有哪些指标可以评估模型性能？

如何使用 SGDClassifier 和 ElasticNet 惩罚项来提高模型准确率？

train_algorithm/run.py 中的 cleanUp 函数有一个未使用的 'disc' 参数，这会影响模型训练吗？

是否支持使用不平衡训练集来调整误报和漏报的容忍度？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架