photon-ml
Photon-ML 是一款基于 Apache Spark 构建的可扩展机器学习库,由 LinkedIn 机器学习算法团队开源。它专注于高效训练各类广义线性模型(GLM)及广义线性混合模型(GLMM/GLMix),涵盖逻辑回归、线性回归和泊松回归等核心算法。
在大数据场景下,传统机器学习工具往往难以应对海量特征或需要精细刻画个体差异的复杂建模需求。Photon-ML 正是为解决这一痛点而生,它能够支撑高达数千亿系数的模型训练,同时保持计算的高效与稳定。其独特的 GAME 算法通过坐标下降法,不仅能处理固定效应,还能轻松引入针对用户、物品或地区等实体的随机效应系数,非常适合推荐系统排序、广告点击率预测等高精度业务场景。
该工具主要面向数据科学家、机器学习工程师及后端开发人员,特别是那些需要在分布式集群上处理大规模稀疏数据的技术团队。除了强大的模型表达能力,Photon-ML 还内置了 LBFGS 和 TRON 等多种可配置优化器,支持 L1、L2 及弹性网正则化,并提供特征标准化、热启动训练及超参数自动调优等实用功能,帮助开发者快速构建并部署高性能的工业级机器学习模型。
使用场景
某大型电商平台的推荐算法团队正面临海量用户行为数据的建模挑战,需要为千万级用户和百万级商品构建高精度的点击率(CTR)预测模型。
没有 photon-ml 时
- 无法捕捉个性化差异:传统广义线性模型只能学习全局固定参数,难以同时处理“每个用户”和“每个商品”特有的随机效应,导致长尾商品推荐效果差。
- 训练规模受限:当尝试引入用户 - 商品交叉特征时,参数量瞬间膨胀至数百亿,单机或普通 Spark 任务直接内存溢出,无法完成训练。
- 迭代开发效率低:缺乏热启动(Warm-start)和部分重训练功能,每次更新数据或调整策略都需从头训练,耗时数小时甚至数天。
- 调优过程繁琐:缺少自动超参数整定支持,算法工程师需手动反复试错,消耗大量算力资源且难以找到最优解。
使用 photon-ml 后
- 精准建模混合效应:利用 GLMix 模型轻松纳入每用户、每商品的随机效应系数,显著提升了千人千面的推荐准确度。
- 轻松应对海量参数:基于 Spark 的分布式坐标下降算法,稳定支撑数百亿系数的训练任务,将原本不可行的模型变为现实。
- 实现敏捷迭代:通过热启动和部分重训练功能,新模型可基于旧模型快速收敛,将训练周期从小时级缩短至分钟级。
- 自动化超参数寻优:内置的自动调参模块能快速锁定最佳正则化系数和学习率,大幅降低人工干预成本并提升模型泛化能力。
photon-ml 让团队在 Spark 集群上以工业级规模高效训练出包含复杂随机效应的混合模型,彻底解决了大规模个性化推荐的落地难题。
运行环境要求
- Linux
- macOS
- Windows
未说明
未说明

快速开始
Photon 机器学习(Photon ML)
请查看我们的动手教程。
Photon ML 是一个基于 Apache Spark 的机器学习库。它最初由 LinkedIn 机器学习算法团队开发。目前,Photon ML 支持训练不同类型的广义线性模型(GLMs)和广义线性混合效应模型(GLMMs/GLMix 模型):逻辑回归、线性回归和泊松回归。
功能特性
广义线性模型
- 线性回归
- 逻辑回归
- 泊松回归
GAME - 广义加性混合效应模型
GAME 算法使用坐标下降法,超越了传统的 GLM,进一步提供了针对每个实体(如用户、物品、国家等)的系数(在统计文献中也称为随机效应)。它能够在 Spark 框架内解决并扩展到包含数百亿个系数的模型训练问题。
例如,用于电影推荐的 GAME 模型可以表示为(固定效应模型 + 针对用户的随机效应模型 + 针对电影的随机效应模型 + 用户-电影矩阵分解模型)。有关 GAME 模型的更多详细信息,请参阅这里。
Photon ML 目前支持的 GAME 模型类型是 GLMM 或“GLMix”模型。LinkedIn 的许多核心产品都采用了 GLMix 模型:职位搜索与推荐、新闻推送排序、广告点击率预测以及“相关浏览”功能。有关 GLMix 模型的更多信息,请参阅这里。
可配置的优化器
正则化
- L1(LASSO)正则化
- L2(Tikhonov)正则化(仅 TRON 支持)
- 弹性网络正则化
特征缩放与归一化
- 标准化:均值为零、方差为一的归一化
- 按标准差缩放
- 按最大值缩放到 [-1, 1] 范围
偏置训练
这是一种典型的多层模型训练方法,用于将另一个模型的响应插入到全局模型中。例如,在进行二分类问题时,可以先用部分特征训练一个模型。然后,用该模型对数据进行评分,并将得分作为“偏置”值。这样,后续模型就可以在第一层模型残差的基础上进行学习,同时结合两个模型的优势。
特征汇总
提供每个特征的典型指标(均值、最小值、最大值、标准差、方差等)。
模型验证
在验证数据集上计算已训练模型的评估指标,例如 AUC、RMSE 或 Precision@k。
热启动训练
加载现有模型,并将其系数作为优化的起点。当连续训练多个模型时,可以使用前一个模型的系数。
部分重新训练
加载现有模型,但锁定其系数。这允许高效地重新训练 GAME 模型的一部分。
增量学习
加载现有模型,利用其系数和方差构建先验信息,从而实现增量式训练。增量训练的模型性能与同时使用历史数据和当前数据的模型相当。
实验性功能
Photon ML 目前包含一些尚未完全测试的实验性功能。
平滑合页损失线性 SVM
除了上述广义线性模型之外,Photon ML 还支持一种对优化器友好的线性 SVM 近似方法,具体描述见 Jason D. M. Rennie 在这里的文章。
超参数自动调优
自动探索 GAME 模型的超参数空间。有两种搜索方式:
- 随机搜索:使用 Sobol 序列随机但均匀地探索超参数空间
- 贝叶斯搜索:使用高斯过程在整个超参数空间中进行定向搜索
如何构建
注意:在构建之前,请确保环境变量 JAVA_HOME 指向 Java 8 JDK。Photon ML 不兼容 JDK < 1.8。
以下命令适用于 Linux/Mac 用户,Windows 用户请使用 gradlew.bat 代替 gradlew。
# 仅构建二进制 JAR 文件:
./gradlew assemble
# 构建并运行所有测试(单元测试和集成测试):
./gradlew clean build
# 仅运行单元测试:
./gradlew clean build -x integTest
# 仅运行集成测试:
./gradlew clean build -x test
# 不运行任何测试:
./gradlew clean build -x test -x integTest
# 运行单元测试:
./gradlew test
# 运行集成测试:
./gradlew integTest
# 使用 Apache Rat 检查许可证:
./gradlew rat
# 检查 Scala 代码风格:
./gradlew scalastyle
# 检查所有内容
./gradlew check
使用方法
驱动程序
要从命令行使用 Photon ML,有 3 种默认驱动程序:用于 GLM 训练的旧版 Photon 驱动程序、GAME 训练驱动程序和 GAME 打分驱动程序。每种驱动程序都有各自的输入参数。我们建议使用 GAME 驱动程序,因为 GLM 是 GAME 模型的一种特殊情况。旧版 Photon 驱动程序已有一段时间未进行开发,现已弃用。
API
Photon ML 可以像 Spark ML 一样导入,并直接使用其 API 层。在可能的情况下,我们尽量使接口与 Spark ML 的接口保持一致。有关如何使用 Photon ML API 的示例,请参阅驱动程序源代码。
Avro 模式
目前可用的驱动程序以 Apache Avro 格式读取和写入数据。详细的模式声明位于 photon-avro-schemas 模块中。
其他格式呢?
LinkedIn 主要使用 Avro 格式的数据。虽然 Avro 提供了一种统一且严谨的方式来管理所有关键的数据表示形式,但我们认为允许其他数据格式也很重要,这样可以使 Photon ML 更加灵活。欢迎并鼓励为 Photon ML 贡献其他格式的数据读取器。
输入数据格式
Photon ML 在 Avro 输入数据中保留了以下字段名称:
- response:
double(必填)- 事件的响应/标签
- weight:
double(可选)- 某个样本相对于其他样本的相对权重
- 默认值 = 1.0
- offset:
double(可选)- 由其他模型计算出的残差分数
- 默认值 = 0.0
- 计算出的分数总是采用
(x * B) + offset的形式,其中x是特征向量,B是系数向量
- uid:
string、int或long(可选)- 样本的唯一标识符
- metadataMap:
map: [string](可选)- 样本的非特征元数据映射
- features:
array: [FeatureAvro](旧版 Photon 驱动程序要求)- 用于训练或打分的特征数组
所有这些默认名称都可以通过 GAME 驱动程序覆盖。然而,它们是保留字段,不能用于除默认用途之外的其他目的(例如,不能将 response 指定为权重列)。
记录中可能还存在其他字段,事实上,某些功能确实需要这些字段(例如,必须有 ID 字段才能按随机效应模型或某些验证指标对数据进行分组)。
通过现有驱动程序加载的特征应遵循 LinkedIn 的命名规范。每个特征必须是一个包含以下字段的 Avro 记录:
- name:
string
- 特征名称/类别
- term:
string
- 特征子类别
- value:
double
- 特征值
为了说明 name 和 term 之间的区别,可以考虑以下分类特征:
name = “age”
term = “0-10”
value = 1.0
name = “age”
term = “11-20”
value = 0.0
...
模型
旧版 Photon 直接将模型系数输出到文本文件中:
# 对于文本文件中的每一行:
[feature_string]\t[feature_id]\t[coefficient_value]\t[regularization_weight]
GAME 模型则使用 BayesianLinearModelAvro Avro 模式输出。
打包后的 JAR 文件
photon-all 模块发布了一个打包后的 JAR 文件,其中包含了 Photon ML 的所有必要运行时依赖项,但不包括 Spark 和 Hadoop。打包是一种创建“胖”JAR 文件的可靠方法。它不仅将所有依赖项打包到一个单独的文件中,还会智能地重命名一些选定的类包,以避免依赖冲突。尽管 photon-all.jar 并不是必需品,用户也可以提供自己的依赖副本,但在系统 JAR 和用户 JAR 之间可能发生复杂依赖冲突的集群环境中,强烈建议使用此打包后的 JAR 文件。(有关打包的更多信息,请参阅 Gradle Shadow Plugin)。
以下是构建 photon-all JAR 文件的命令:
./gradlew :photon-all:assemble
试一试!
开始使用 Photon ML 的最简单方法是尝试我们创建的教程,该教程演示了如何应用 GLMix 模型来构建个性化的推荐系统。您可以在维基页面上查看说明:这里。
或者,您也可以按照以下步骤在本地机器上试用 Photon ML。
安装 Spark
此步骤取决于您的操作系统。在 OS X 上,您可以使用 Homebrew 通过以下命令安装 Spark:
brew install apache-spark
有关更多信息,请参阅 Spark 文档。
获取并构建代码
git clone git@github.com:linkedin/photon-ml.git
cd photon-ml
./gradlew build -x test -x integTest
获取数据集
在此示例中,我们将使用“a1a”数据集,该数据集来自 https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html。目前,Photon ML 数据集转换器仅支持 LibSVM 格式。
curl -O https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/a1a
curl -O https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/a1a.t
将数据转换为 Photon ML 驱动程序使用的 Avro 格式。
mkdir -p a1a/train
mkdir -p a1a/test
pip install avro
python dev-scripts/libsvm_text_to_trainingexample_avro.py a1a dev-scripts/TrainingExample.avsc a1a/train/a1a.avro
python dev-scripts/libsvm_text_to_trainingexample_avro.py a1a.t dev-scripts/TrainingExample.avsc a1a/test/a1a.t.avro
第一条命令可能会因您的系统配置而有所不同。如果失败,请尝试您所在平台的标准 Python 库安装方法。
训练模型
现在,我们已经准备好在本地开发环境中使用 Photon ML 训练模型了。从“photon-ml”目录运行以下命令:
spark-submit \
--class com.linkedin.photon.ml.Driver \
--master local[*] \
--num-executors 4 \
--driver-memory 1G \
--executor-memory 1G \
"./build/photon-all_2.10/libs/photon-all_2.10-1.0.0.jar" \
--training-data-directory "./a1a/train/" \
--validating-data-directory "./a1a/test/" \
--format "TRAINING_EXAMPLE" \
--output-directory "out" \
--task "LOGISTIC_REGRESSION" \
--num-iterations 50 \
--regularization-weights "0.1,1,10,100" \
--job-name "demo_photon_ml_logistic_regression"
或者,要使用 GAME 训练驱动程序运行完全相同的训练任务,可以使用以下命令:
spark-submit \
--class com.linkedin.photon.ml.cli.game.GameTrainingDriver \
--master local[*] \
--num-executors 4 \
--driver-memory 1G \
--executor-memory 1G \
"./build/photon-all_2.10/libs/photon-all_2.10-1.0.0.jar" \
--input-data-directories "./a1a/train/" \
--validation-data-directories "./a1a/test/" \
--root-output-directory "out" \
--feature-shard-configurations "name=globalShard,feature.bags=features" \
--coordinate-configurations "name=global,feature.shard=globalShard,min.partitions=4,optimizer=LBFGS,tolerance=1.0E-6,max.iter=50,regularization=L2,reg.weights=0.1|1|10|100" \
--coordinate-update-sequence "global" \
--coordinate-descent-iterations 1 \
--training-task "LOGISTIC_REGRESSION"
当此命令执行完毕后,您应该会看到一个名为“out”的新文件夹,其中包含训练好的模型。
在集群模式下运行 Photon ML
一般来说,运行 Photon ML 并不不同于运行其他通用的 Spark 应用程序。因此,我们可以使用 Spark 的 bin 目录中的 spark-submit 脚本来在 不同的集群模式 上运行 Photon ML:
以下是使用 YARN 运行逻辑回归训练作业的最小化设置模板。对于使用其他集群模式运行 Photon ML,可以根据 http://spark.apache.org/docs/latest/submitting-applications.html 中的说明修改 spark-submit 的相关参数。
spark-submit \
--class com.linkedin.photon.ml.Driver \
--master yarn \
--deploy-mode cluster \
--num-executors $NUM_EXECUTORS \
--driver-memory $DRIVER_MEMORY \
--executor-memory $EXECUTOR_MEMORY \
"./build/photon-all_2.10/libs/photon-all_2.10-1.0.0.jar" \
--training-data-directory "path/to/training/data" \
--validating-data-directory "path/to/validating/data" \
--output-directory "path/to/output/dir" \
--task "LOGISTIC_REGRESSION" \
--num-iterations 50 \
--regularization-weights "0.1,1,10" \
--job-name "demo_photon_ml_logistic_regression"
TODO:此示例应更新为使用 GAME 训练驱动程序。 此外,还有一个更复杂的脚本,展示了使用 Photon ML 的高级选项和自定义功能,位于 example/run_photon_ml.driver.sh。
详细用法可通过以下命令查看:
./run_photon_ml.driver.sh [-h|--help]
注意:当前脚本中并非所有配置都作为选项公开。如有任何自定义需求,请直接修改配置。
模块和目录
源代码
- TODO:Photon ML 模块需要重构。完成后,本节将进行更新。
其他
build-scripts包含 Gradle 任务的脚本buildSrc包含 Gradle 插件的源代码dev-scripts包含各种可能对开发有用的脚本examples包含一个演示如何从命令行运行 Photon ML 的脚本gradle包含 Gradle Wrapper JAR 文件travis包含用于控制 Travis CI 测试执行的脚本
IntelliJ IDEA 设置
正确设置后,所有测试(单元测试和集成测试)都可以从 IntelliJ IDEA 中运行,这对于开发非常有帮助(IntelliJ IDEA 的调试器可用于所有测试)。
- 运行
./gradlew idea - 以“新建/从现有源代码导入项目”的方式打开项目,选择 Gradle 项目,并将 Gradle 设置为使用本地 Wrapper。
如何贡献
我们欢迎各位的贡献。以下是一些不错的入门方式:报告问题、修复现有问题或参与讨论。对于重大功能更改,强烈建议事先与评审人员交流想法和设计方案。沟通良好的更改最有可能被接受。
参考文献
- 张先兴、周一桐、马一鸣、陈必忠、张亮和迪帕克·阿加瓦尔。GLMix:用于大规模响应预测的广义线性混合模型。载于第22届SIGKDD知识发现与数据挖掘会议,2016年。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器