openai-kotlin

1.8k 235 简单 1 次阅读昨天MIT语言模型音频插件Agent开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

openai-kotlin 是一款专为 Kotlin 开发者打造的 OpenAI API 客户端库，旨在让 Kotlin 生态下的应用能够轻松、高效地集成人工智能能力。它解决了开发者在 Kotlin 项目中调用 OpenAI 服务时，需要手动处理底层 HTTP 请求、数据序列化及异步流程的繁琐问题，提供了类型安全且简洁的代码接口。

这款工具特别适合使用 Kotlin 进行后端开发、Android 应用构建或跨平台项目研发的工程师。无论是需要快速原型验证的研究人员，还是致力于生产环境落地的资深开发者，都能通过它轻松实现聊天机器人、图像生成、文本嵌入及语音处理等功能。

openai-kotlin 的核心亮点在于其原生支持 Kotlin 协程（Coroutines），让异步 API 调用写得像同步代码一样清晰流畅，极大提升了代码的可读性与维护性。同时，它具备强大的多平台（Multiplatform）特性，一套代码即可运行于 JVM、JavaScript、Native 等多种环境。此外，库中完整覆盖了 OpenAI 的主流功能，包括最新的 Assistants API 等测试特性，并贴心地提供了 BOM 依赖管理方案，帮助团队统一版本，减少配置冲突。如果你希望在 Kotlin 项目中优雅地接入大模型能力，openai-kotlin 是一个专业且可靠的选择。

使用场景

某安卓开发团队正在构建一款支持多端（Android、iOS、Web）的智能客服应用，需要深度集成 OpenAI 的对话与图像生成能力。

没有 openai-kotlin 时

重复造轮子成本高：团队需手动封装 HTTP 请求来处理复杂的 JSON 序列化，为每个平台单独编写网络层代码，导致开发周期延长。
协程支持缺失：原生网络库难以无缝对接 Kotlin 协程，回调地狱频发，主线程阻塞风险高，影响应用流畅度。
类型安全无保障：API 响应依赖动态解析，缺乏编译期检查，字段拼写错误或数据结构变更往往在运行时才暴露，引发崩溃。
多平台维护困难：无法共享核心逻辑，Android 和 iOS 端的 AI 功能实现不一致，测试与迭代工作量翻倍。

使用 openai-kotlin 后

开箱即用集成：通过简单的 Gradle 依赖引入，直接调用类型安全的 chat 或 images 接口，无需手写底层网络代码，开发效率提升 50%。
原生协程体验：完美支持 Kotlin 协程，开发者可使用标准的 suspend 函数异步调用 API，代码简洁且彻底避免主线程卡顿。
编译期错误拦截：所有请求参数与响应数据均为强类型模型，重构或升级 API 时编译器自动报错，显著降低线上故障率。
一次编写多端运行：利用 Multiplatform 特性，同一套 AI 业务逻辑可复用于 Android、iOS 及 Web 端，确保功能一致并大幅减少维护成本。

openai-kotlin 让 Kotlin 开发者能以 idiomatic（地道）的方式高效、安全地在多平台项目中落地先进的 AI 能力。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes这是一个用于 OpenAI API 的 Kotlin 客户端库，而非本地运行的 AI 模型，因此不需要 GPU、大内存或 Python 环境。它支持 Kotlin 多平台（JVM, JS, Native 等），但在 JVM 上使用时必须额外添加一个 Ktor HTTP 引擎依赖（如 ktor-client-okhttp）。构建工具推荐使用 Gradle（支持多平台），Maven 仅支持 JVM 且不支持 BOM 管理。运行时需要有效的 OpenAI API Key。

python不适用 (基于 Kotlin/JVM)

com.aallam.openai:openai-client:4.1.0

io.ktor:ktor-client-okhttp (或其他 Ktor 引擎)

快速开始

Kotlin 的 OpenAI API 客户端

适用于 OpenAI API 的 Kotlin 客户端，具备多平台和协程支持。

📦 设置

通过将以下依赖项添加到 build.gradle 文件中来安装 OpenAI API Kotlin 客户端：

repositories {
    mavenCentral()
}

dependencies {
    implementation "com.aallam.openai:openai-client:4.1.0"
}

从 Ktor 的引擎中选择一个并将其添加到您的依赖项中。

BOM

或者，您也可以使用 openai-client-bom，只需将以下依赖项添加到 build.gradle 文件中：

dependencies {
    // 导入 Kotlin API 客户端 BOM
    implementation platform('com.aallam.openai:openai-client-bom:4.1.0')

    // 定义不带版本号的依赖项
    implementation 'com.aallam.openai:openai-client'
    runtimeOnly 'io.ktor:ktor-client-okhttp'
}

多平台

在多平台项目中，将 openai 客户端依赖项添加到 commonMain，并为每个目标选择一个引擎。

Maven

Gradle 是支持多平台所必需的，但您仍然可以在 Maven 项目中使用 JVM 客户端。不过，您仍需将 Ktor 的引擎添加到您的依赖项中。

使用 Maven 设置客户端

<dependencies>
    <dependency>
        <groupId>com.aallam.openai</groupId>
        <artifactId>openai-client-jvm</artifactId>
        <version>4.1.0</version>
    </dependency>
            
    <dependency>
        <groupId>io.ktor</groupId>
        <artifactId>ktor-client-okhttp-jvm</artifactId>
        <version>3.0.0</version>
        <scope>runtime</scope>
    </dependency>
</dependencies>

BOM 不支持 Maven 项目。

⚡️ 入门

[!NOTE] OpenAI 建议使用环境变量来存储 API 密钥。了解更多。

创建一个 OpenAI 客户端实例：

val openai = OpenAI(
    token = "your-api-key",
    timeout = Timeout(socket = 60.seconds),
    // 其他配置...
)

或者，您也可以使用预先配置的 OpenAIConfig 创建 OpenAI 实例：

val config = OpenAIConfig(
    token = apiKey,
    timeout = Timeout(socket = 60.seconds),
    // 其他配置...
)

val openAI = OpenAI(config)

使用您的 OpenAI 实例发送 API 请求。了解更多。

支持的功能

测试版

已弃用

正在寻找分词器吗？试试 ktoken，一个用于文本分词的 Kotlin 库。

📚 指南

通过以下指南开始使用并深入了解如何使用 Kotlin 的 OpenAI API 客户端：

ℹ️ 示例应用

示例应用位于 sample 目录下，请查看 README 以获取运行说明。

🔒 ProGuard / R8

特定规则已打包到 Jar 文件中，R8 可以自动解析这些规则。

📸 快照

了解如何导入快照版本

要将快照版本导入您的项目，请将以下代码片段添加到您的 Gradle 文件中：

repositories {
   //...
   maven { url 'https://central.sonatype.com/repository/maven-snapshots/' }
}

🛠️ 故障排除

有关常见问题及其解决方案，请参阅故障排除指南。

🧪 测试

openai-client 的测试是实时集成测试，可能会产生需要付费的 API 流量。

默认设置（不计费）：禁用实时测试。
开启实时测试：设置 OPENAI_LIVE_TESTS=1 和 OPENAI_API_KEY。

示例：

# 免费/离线检查
./gradlew :openai-core:jvmTest :openai-core:jsTest :openai-core:wasmJsTest :openai-core:apiCheck :openai-client:apiCheck

# 实时冒烟测试（计费）
OPENAI_LIVE_TESTS=1 OPENAI_API_KEY=... ./gradlew :openai-client:jvmTest --tests "*.TestModels"

⭐️ 支持

喜欢这个项目吗？您可以这样帮助我们：

Star：在右上角给它点个赞吧！这对我们意义重大。
贡献：发现 bug 或有功能建议？提交 PR 吧。
反馈：有任何建议？开个 issue 或发起讨论吧。

📄 许可证

OpenAI Kotlin API 客户端是一个开源软件，采用 MIT 许可证授权。 这是一个非官方库，与 OpenAI 无关联，也未得到其认可。欢迎贡献。

openai-kotlin 快速上手指南

环境准备

运行环境：JDK 8+ 或 Kotlin Multiplatform 项目
构建工具：Gradle（推荐，支持多平台）或 Maven（仅支持 JVM）
前置依赖：需引入 Ktor HTTP Client 的任意引擎（如 ktor-client-okhttp）
API 密钥：请提前在 OpenAI 平台获取 API Key，建议通过环境变量管理

💡 提示：国内开发者若遇到网络延迟，可配置代理或在 Ktor 引擎中设置代理地址。

安装步骤

方式一：Gradle (推荐)

在 build.gradle 文件中添加以下配置：

repositories {
    mavenCentral()
}

dependencies {
    implementation "com.aallam.openai:openai-client:4.1.0"
    // 必须添加一个 Ktor 引擎，例如 OkHttp
    runtimeOnly 'io.ktor:ktor-client-okhttp:3.0.0'
}

或使用 BOM 管理版本：

dependencies {
    // 导入 BOM
    implementation platform('com.aallam.openai:openai-client-bom:4.1.0')

    // 定义依赖（无需指定版本）
    implementation 'com.aallam.openai:openai-client'
    runtimeOnly 'io.ktor:ktor-client-okhttp'
}

方式二：Maven (仅 JVM)

在 pom.xml 中添加：

<dependencies>
    <dependency>
        <groupId>com.aallam.openai</groupId>
        <artifactId>openai-client-jvm</artifactId>
        <version>4.1.0</version>
    </dependency>
            
    <dependency>
        <groupId>io.ktor</groupId>
        <artifactId>ktor-client-okhttp-jvm</artifactId>
        <version>3.0.0</version>
        <scope>runtime</scope>
    </dependency>
</dependencies>

基本使用

1. 初始化客户端

推荐使用环境变量存储密钥以确保安全。

import com.aallam.openai.api.OpenAI
import com.aallam.openai.api.logging.LogLevel
import kotlinx.coroutines.time.Timeout
import kotlin.time.Duration.Companion.seconds

// 方式 A：直接传入 Token
val openai = OpenAI(
    token = "your-api-key", 
    timeout = Timeout(socket = 60.seconds),
    logging = LogLevel.None // 生产环境建议关闭日志或设为 Body/Headers 以便调试
)

// 方式 B：使用配置对象
val config = OpenAIConfig(
    token = System.getenv("OPENAI_API_KEY"), // 从环境变量读取
    timeout = Timeout(socket = 60.seconds)
)
val openai = OpenAI(config)

2. 调用 Chat 接口示例

import com.aallam.openai.api.chat.ChatCompletionRequest
import com.aallam.openai.api.chat.ChatMessage
import com.aallam.openai.api.chat.ChatRole

suspend fun main() {
    val request = ChatCompletionRequest(
        model = "gpt-3.5-turbo",
        messages = listOf(
            ChatMessage(role = ChatRole.User, content = "你好，请用中文介绍你自己。")
        )
    )

    val response = openai.chatCompletion(request)
    println(response.choices.first().message.content)
    
    openai.close() // 使用完毕后关闭客户端
}

支持的核心功能

Chat: 对话补全 (chatCompletion)
Models: 模型列表 (models)
Images: 图像生成 (imageGeneration)
Embeddings: 向量嵌入 (embeddings)
Audio: 语音转文字/文字转语音 (audioTranscription, audioSpeech)
Assistants (Beta): 助手、线程与消息管理

版本历史

4.1.02026/02/07

4.0.12025/02/02

4.0.02025/02/02

4.0.0-beta012024/10/28

3.8.22024/07/20

3.8.12024/06/19

3.8.02024/06/18

3.7.22024/04/28

3.7.12024/04/01

3.7.02024/02/11

3.6.32024/01/13

3.6.22023/12/15

3.6.12023/11/26

3.6.02023/11/24

3.5.12023/11/05

3.5.02023/10/04

3.4.22023/09/28

3.4.12023/08/31

3.4.02023/08/24

3.3.22023/07/21

常见问题

在使用 Gemini OpenAI API 时遇到 'Field id is required' 错误怎么办？

Android 发布版本（Release Build）使用 R8 混淆时报错 'Serializer for class ChatCompletionRequest is not found' 如何解决？

该库是否支持 OpenAI 新发布的 Assistant API、JSON 模式和多模态功能？

如何在 Android 项目中正确引入最新的库修复或功能？

该库是否支持 OpenAI 的语音生成（Create Speech / TTS）功能？

使用低版本库调用 gpt-4o 模型时失败，是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent