goml

1.6k 135 非常简单 1 次阅读 1周前MIT开发框架

AI 解读由 AI 自动生成，仅供参考

goml 是一个完全用 Go 语言编写的机器学习库，旨在让普通开发者也能轻松地将机器学习功能集成到自己的应用程序中。它主要解决了在 Go 生态中缺乏易用、原生机器学习工具的问题，无需依赖外部复杂环境即可实现模型训练与预测。

goml 特别适合 Go 语言开发者使用，无论是构建需要实时数据处理的后端服务，还是探索简单的数据分析场景，都能快速上手。除了支持传统的批量学习模式外，goml 最大的技术亮点在于其强大的“在线学习”能力：用户可以通过 Go 语言的通道（channels）将数据流式传输给模型，实现反应式、实时的模型更新，非常适用于处理动态数据流。

目前，goml 已实现了多种经典算法，涵盖广义线性模型（如逻辑回归、Softmax 回归）、感知机、聚类算法（如优化的 K-Means 和 KNN）以及文本分类（如朴素贝叶斯和 TF-IDF）。项目代码结构清晰、模块化程度高，并配有详尽的文档和全面的测试用例，方便用户查阅源码或直接复用。如果你希望在 Go 项目中尝试机器学习，goml 是一个轻量且实用的选择。

使用场景

某电商初创团队正在开发一个实时反欺诈系统，需要在用户下单的瞬间判断交易是否存在风险。

没有 goml 时

必须依赖 Python 等外部服务进行模型推理，导致 Go 语言编写的核心交易系统面临复杂的跨语言调用和网络延迟问题。
传统批量学习模式要求定期停机重新训练模型，无法即时捕捉新型欺诈手段，导致防御存在数小时甚至数天的滞后窗口。
引入重型机器学习框架显著增加了服务器内存占用和运维复杂度，对于资源有限的微服务架构显得过于笨重。
数据流转需要额外的消息队列缓冲，无法直接利用 Go 原生的 Channel 机制实现流式数据处理，增加了架构冗余。

使用 goml 后

直接在 Go 代码中集成在线感知机（Online Perceptron）模型，实现零延迟的本地实时推理，彻底消除跨语言通信开销。
利用 goml 的在线学习特性，将每笔新交易数据通过 Channel 流式输入模型，使系统能毫秒级自适应更新权重，即时拦截新型攻击。
凭借纯 Go 实现的轻量级优势，大幅降低内存 footprint，让反欺诈模块能作为标准库轻松嵌入现有的高并发微服务中。
天然契合 Go 的并发哲学，直接复用业务层的数据 Channel 进行训练与预测，简化了数据管道，无需维护额外的缓冲中间件。

goml 让 Go 开发者能够以原生、流式且极低延迟的方式，将实时机器学习能力无缝植入高并发生产环境。

运行环境要求

操作系统

未说明

GPU

不需要

内存

未说明

依赖

notes该工具完全使用 Go 语言编写，无需 Python 环境。安装需通过 'go get' 命令获取相关包。支持在线学习（online learning）和批量学习模式，利用 Go 语言的 channel 机制进行数据流处理。

python不适用

Go (Golang)

快速开始

`goml`

Golang 机器学习：数据传输层面

goml 是一款完全由 Golang 编写的机器学习库，它让普通开发者能够轻松将机器学习功能集成到自己的应用程序中。（发音类似于数据格式“toml”）

虽然该库支持传统的批量学习接口，但 goml 还提供了多种模型，使您能够通过将数据传递至通道中所持有的流式数据，以在线、反应式的方式进行学习。

该库包含全面的测试、详尽的文档，以及简洁、富有表现力、模块化清晰的源代码。我们强烈鼓励社区成员积极贡献代码。

每个包（如下文所述）都附有单独的 README 文件，帮助您深入了解各模型的功能与用途。最重要的是，如果您想了解某个模型，请务必阅读该包的 GoDoc 参考文档。正如上文所述，所有模型均经过了详尽的文档化处理。

安装

go get github.com/cdipaolo/goml/base

# 如果您有其他需求，也可以使用任意其他模型包
#
# 此外，base 包早已被许多其他包所引入，因此您甚至无需显式地执行 `go get` 操作
go get github.com/cdipaolo/goml/perceptron

文档

所有代码均已充分注释，并且其源码如果想要彻底理解其中的逻辑，应该会非常易于阅读！只需查看各个包（例如当前在 GitHub 上的这些包），您就会看到指向 GoDoc 的链接，以及该包的说明和示例用法。您甚至可以点击下方的主要要点，直接跳转到相应的包页面。此外，您也可以直接使用本 README 顶部的 GoDoc 链接，快速导航至您想要深入了解的特定包。

下方的子要点则可直接带您前往相应模型的源代码。

目前已实现的模型

广义线性模型（全部支持随机生成算法、批量生成算法，以及在线学习选项，仅本地加权线性回归除外）
感知器仅提供在线学习选项
- 在线二分类感知器
- 在线二分类核感知器
聚类
- K-means 聚类
  - 使用 k-means++ 初始化方法，以获得更可靠的聚类结果（这篇论文讨论了该方法及其相较于常规随机初始化的优势）
  - 同时支持在线版本和批量版本
  - 还包含一个利用三角不等式的版本，通过大幅减少距离计算次数，同时牺牲部分辅助数据结构，具体细节请参阅这篇论文）
- K 近邻聚类
  - 可以使用任意距离度量，goml/base 包中已预定义了 L 范数、欧几里得距离以及曼哈顿距离等多种距离度量。
文本分类
- 多项式（多分类）基于文本的朴素贝叶斯
- 词频 - 逆文档频率
  - 该方法能够从文档中提取关键词或重要词汇
  - 由于其底层原理与贝叶斯算法极为相似，您可以将朴素贝叶斯模型转换为 TFIDF，从而构建出相应的模型。查看这些测试示例，即可一睹其应用效果

贡献！

请参阅 CONTRIBUTING。

如果您认为自己有意愿实现尚未收录的模型，或者对现有模型进行了优化改进，又或是希望协助完善文档（这一点真的非常值得感谢——相信我，撰写出色的文档需要耗费大量时间！ :+1:）

许可证 — MIT

请参阅 LICENSE。

goml 快速上手指南

goml 是一个完全用 Go 语言编写的机器学习库，旨在让普通开发者轻松将机器学习功能集成到应用中。它既支持传统的批量学习（Batch Learning），也支持基于 Channel 流的在线学习（Online Learning）。

环境准备

操作系统：Linux, macOS, Windows (支持 Go 运行的所有平台)
Go 版本：建议安装 Go 1.16 或更高版本
前置依赖：无第三方外部依赖，仅需标准 Go 环境

国内加速建议：在中国大陆地区，建议配置 Go 模块代理以加速下载：
export GOPROXY=https://goproxy.cn,direct
# 或者永久写入环境变量
go env -w GOPROXY=https://goproxy.cn,direct

安装步骤

使用 go get 命令安装基础包和你需要的具体模型包。以下以安装基础包和感知机（Perceptron）模型为例：

# 安装基础包（包含通用数据结构和接口）
go get github.com/cdipaolo/goml/base

# 安装具体的模型包（例如：感知机）
# 注意：许多模型包会自动导入 base 包，通常只需安装具体模型包即可
go get github.com/cdipaolo/goml/perceptron

如需使用其他模型（如线性回归、K-Means 等），将上述命令中的 perceptron 替换为对应的包名（如 linear, cluster, text）。

基本使用

goml 的核心设计理念是通过 Channel 进行数据流式处理。以下是一个最简单的在线二元感知机训练示例：

package main

import (
	"github.com/cdipaolo/goml/base"
	"github.com/cdipaolo/goml/perceptron"
)

func main() {
	// 1. 创建数据流通道
	// chan <- *base.DataPoint: 用于发送训练数据
	// <-chan error: 用于接收错误信息
	// <-chan *perceptron.Perceptron: 用于接收训练好的模型
	dataStream := make(chan *base.DataPoint)
	errStream := make(chan error)
	modelStream := make(chan *perceptron.Perceptron)

	// 2. 初始化模型
	// 参数说明：
	// - true: 开启在线学习模式
	// - 0.1: 学习率 (Learning Rate)
	// - dataStream, errStream, modelStream: 通信通道
	go perceptron.NewOnline(dataStream, errStream, modelStream, true, 0.1)

	// 3. 发送训练数据 (特征向量，标签)
	// 示例：发送一个二维特征 [1.0, 2.0]，标签为 1
	dataStream <- &base.DataPoint{
		X: []float64{1.0, 2.0},
		Y: 1,
	}
	
	// 发送更多数据...
	// dataStream <- &base.DataPoint{X: []float64{...}, Y: ...}

	// 4. 关闭数据通道以触发模型完成训练并输出
	close(dataStream)

	// 5. 接收结果或错误
	select {
	case err := <-errStream:
		if err != nil {
			panic(err)
		}
	case model := <-modelStream:
		// 获取训练好的模型
		// 使用 model.Predict() 进行预测
		println("模型训练完成！")
	}
}

关键点说明：

数据格式：训练数据通过 base.DataPoint 结构体传递，X 为特征切片，Y 为目标值。
并发模式：模型训练在独立的 Goroutine 中运行，通过 Channel 与主程序通信。
文档查阅：每个模型包（如 linear, cluster）都有详细的 Godoc 文档和示例代码，建议访问 Godoc 参考查看具体模型的用法。

常见问题

为什么 Naive Bayes 的 Predict 和 Probability 函数中使用 `+=` 而不是 `*=` 运算符？

如何禁止机器学习库在控制台输出日志信息？

在哪里可以找到该库的使用示例和学习资源？

文本分类模型中的类别数量是否被限制为 255（uint8）？如何突破这个限制？

从磁盘恢复（Restore）模型时，为什么分词器（Tokenizer）会丢失导致情感分析失败？

项目是否计划实现用于验证聚类结果的轮廓系数（Silhouette）方法？

运行测试时遇到 `fmt.Errorf` 参数数量不匹配的错误如何解决？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架