aoai-realtime-audio-sdk

834 192 简单 1 次阅读 1周前MIT语言模型音频

AI 解读由 AI 自动生成，仅供参考

aoai-realtime-audio-sdk 是微软提供的一套代码资源，旨在帮助开发者在 Azure 平台上调用 GPT-4o 模型的实时音频交互能力。它核心解决了传统对话 AI 响应延迟较高的问题，通过全新的 /realtime API 端点，实现了“语音输入、语音输出”的低延迟双向流式对话，让机器与人的交流更加自然流畅。

这套工具特别适合需要构建高响应速度应用的开发者，例如智能客服系统、虚拟助手或实时翻译场景。其独特的技术亮点在于基于 WebSocket 协议构建，支持全异步通信，不仅能处理语音流，还兼容文本消息和函数调用等现有功能。需要注意的是，该 SDK 定位为参考实现，目前项目已不再积极维护，且处于公共预览阶段，官方建议在新项目中优先采用 OpenAI 各语言官方库的最新支持方案。对于希望探索实时语音交互架构的技术人员而言，它仍是一份宝贵的中间态参考资料，但需留意服务可能存在的变动与中断风险。

使用场景

某跨境电商平台正在开发一款嵌入网站的智能客服助手，旨在为海外用户提供即时的语音咨询与售后支持服务。

没有 aoai-realtime-audio-sdk 时

交互延迟高：传统方案需等待用户说完、录音上传、转文字、推理、合成语音再返回，导致对话停顿长达数秒，体验极不自然。
开发复杂度大：团队需自行拼接 WebSocket 连接、处理音频流的分片发送与接收，并手动管理会话状态，代码维护成本极高。
打断机制缺失：系统无法在模型回答过程中识别用户的插话（Barge-in），必须等机器说完才能响应新指令，显得笨拙。
多模态协同难：难以在同一低延迟通道中灵活切换文本日志记录、函数调用（如查询订单）与实时语音流。

使用 aoai-realtime-audio-sdk 后

实现毫秒级响应：借助 SDK 封装的 /realtime 接口，直接建立“语音进、语音出”的全双工通道，将对话延迟压缩至人类自然交流水平。
快速集成落地：利用 SDK 提供的参考实现和会话配置模板，开发者无需深究底层 WebSocket 协议细节，即可在 Azure 环境中快速跑通 Demo。
支持自然插话：基于 SDK 的流式架构，系统能实时感知用户中断行为并立即停止当前输出，转而处理新指令，交互更加拟人化。
统一会话管理：SDK 原生支持在同一连接中处理语音流、文本消息及工具调用，简化了订单查询等复杂业务逻辑的代码结构。

aoai-realtime-audio-sdk 通过标准化的实时音频流处理方案，帮助开发者以极低门槛构建出具备“真人般”反应速度的智能语音应用。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目并非本地运行的 AI 模型，而是一个用于连接 Azure OpenAI 或 OpenAI `/realtime` API 的客户端 SDK 示例库。运行环境仅需支持 WebSocket (wss://) 和网络请求的标准开发环境（如 Node.js、.NET、Python 等，具体取决于使用的示例代码）。无需本地 GPU、大显存或特定深度学习框架。核心需求是拥有 Azure OpenAI 资源（部署在 eastus2 或 swedencentral 区域）及有效的 API 密钥或 Entra ID 认证。注意：该项目目前不再积极维护，仅作为参考，官方建议使用 OpenAI 各语言官方库进行新开发。

python未说明

快速开始

[!WARNING] 该项目未处于积极维护状态，且与 OpenAI 实时 API 的最新正式发布版本不一致。此仓库中的代码仅作为官方库支持推出前的参考材料保留。有关新解决方案，请参阅适用于所有 OpenAI 库（Python、JS、Java、Go、.NET、Ruby）的官方库支持。

Azure OpenAI GPT-4o 音频和 /realtime：公开预览文档

欢迎使用基于 gpt-4o-realtime-preview 模型的 Azure OpenAI /realtime 公开预览版！本仓库提供了关于 /realtime 的文档、独立库以及示例代码——这些内容既适用于 Azure OpenAI，也适用于标准 OpenAI v1 端点的使用场景。

概述：什么是 /realtime？

本次预览引入了针对 gpt-4o-realtime-preview 模型系列的新 /realtime API 端点。/realtime 具有以下特点：

支持低延迟的“语音输入、语音输出”式对话交互
可处理文本消息、函数工具调用以及其他来自 /chat/completions 等端点的功能
非常适合客服代理、智能助手、翻译等需要与用户进行高效互动的应用场景

/realtime 基于 WebSockets API 构建，以实现终端用户与模型之间的完全异步流式通信。它被设计用于在受信任的中间服务环境中运行，该服务负责管理与终端用户的连接以及与模型端点的连接；/realtime 并非设计用于直接从不受信任的终端设备上使用，而诸如音频数据的捕获和渲染等设备相关细节也不在 /realtime API 的范围内。

从总体架构上看，基于 /realtime 构建的应用体验大致如下（请注意，如前所述，用户交互本身并不属于 API 的一部分）：

sequenceDiagram
  actor User as 终端用户
  participant MiddleTier as /realtime 主机
  participant AOAI as Azure OpenAI
  User->>MiddleTier: 开始交互
  MiddleTier->>MiddleTier: 认证/验证用户
  MiddleTier--)User: 音频信息
  User--)MiddleTier: 
  MiddleTier--)User: 文本信息
  User--)MiddleTier: 
  MiddleTier--)User: 控制信息
  User--)MiddleTier: 
  MiddleTier->>AOAI: 连接到 /realtime
  MiddleTier->>AOAI: 配置会话
  AOAI->>MiddleTier: 会话开始
  MiddleTier--)AOAI: 发送/接收 WS 命令
  AOAI--)MiddleTier: 
  AOAI--)MiddleTier: 创建/开始对话响应
  AOAI--)MiddleTier: （在响应中）创建/开始/添加/完成项目
  AOAI--)MiddleTier: （在项目中）创建/流式传输/完成内容部分

请注意，/realtime 处于 公开预览 阶段。API 变更、代码更新以及偶尔的服务中断均有可能发生。

如何开始使用

在 eastus2 或 swedencentral 区域创建一个 Azure OpenAI 资源
将 gpt-4o-realtime-preview 模型（版本为 2024-10-01）部署到上述支持的资源之一
使用附带的示例之一来体验 /realtime 的实际效果

连接与认证 /realtime

/realtime API 需要一个位于支持区域内的现有 Azure OpenAI 资源端点。完整的请求 URI 可通过以下步骤拼接而成：

安全的 WebSocket 协议 (wss://)
您的 Azure OpenAI 资源端点主机名，例如 my-aoai-resource.openai.azure.com
/openai/realtime API 路径
用于指定支持 API 版本的 api-version 查询字符串参数——初始版本为 2024-10-01-preview
包含您 gpt-4o-realtime-preview 模型部署名称的 deployment 查询字符串参数

综合以上步骤，一个完整的 /realtime 请求 URI 示例可能如下所示：

wss://my-eastus2-openai-resource.openai.azure.com/openai/realtime?api-version=2024-10-01-preview&deployment=gpt-4o-realtime-preview-1001

认证方式如下：

使用 Microsoft Entra：/realtime 支持基于令牌的身份验证，需配合已启用托管标识的适当配置的 Azure OpenAI 服务资源使用。请在 Authorization 头中使用 Bearer 令牌来应用获取到的认证令牌。
使用 API 密钥：可以通过两种方式提供 API 密钥：
1. 在握手前的连接中使用 api-key 连接头（注意：浏览器环境不支持此方法）
2. 在请求 URI 中使用 api-key 查询字符串参数（注意：使用 https/wss 时，查询字符串参数会被加密）

API 核心概念

调用者建立与 /realtime 的连接后，将启动一个新的 会话
可以对 会话 进行配置，以自定义输入和输出音频行为、语音活动检测行为以及其他共享设置
会话 会自动创建一个默认的 对话
- 注意：未来可能会支持同时进行多个对话——但目前尚不可用
对话 会持续积累输入信号，直到由调用者直接发出命令或根据语音活动自动检测轮次来启动一次 响应
每个 响应 由一个或多个 项目 组成，这些项目可以封装消息、函数调用和其他信息
消息 项目 包含 内容部分，允许在一个项目中同时表示多种模态（文本、音频等）
会话 负责管理调用者的输入处理（例如用户音频）以及通用的输出/生成处理
每次调用者发起的 response.create 操作都可以根据需要覆盖部分输出行为
由服务器创建的 项目 以及消息中的 内容部分 可以异步并行地填充，例如同时接收音频、文本和函数信息（轮询方式）

API 详情

一旦与 /realtime 的 WebSocket 连接会话建立并完成身份验证后，功能交互便通过发送和接收 WebSocket 消息来进行。为避免与用于推理的承载内容的“消息”概念产生歧义，这些消息在此被称为“命令”。每个命令都采用 JSON 对象的形式。命令可以并行发送和接收，应用程序通常应以并发和异步的方式处理它们。

有关请求和响应命令的完整、结构化描述，请参阅 realtime-openapi3.yml。与其他公测阶段的内容一样，请注意协议细节可能会发生变更。

会话配置与轮次处理模式

在新建立的 /realtime 会话中，调用方发送的第一个命令通常是 session.update 负载。该命令控制广泛的输入和输出行为，而后续的输出和响应生成部分则可以通过 response.create 属性进行覆盖（如果需要）。

其中一个关键的会话级设置是 turn_detection，它控制调用方与模型之间的数据流处理方式：

server_vad 会使用语音活动检测器 (VAD) 组件评估传入的用户音频（通过 input_audio_buffer.append 发送），并在检测到语音结束时自动利用该音频启动适用对话的响应生成。在指定 server_vad 检测模式时，可以配置 VAD 的静音检测。
none 则依赖于调用方发起的 input_audio_buffer.commit 和 response.create 命令来推进对话并生成输出。这对于按住说话的应用程序或具有外部音频流控制的情况（例如调用方侧的 VAD 组件）非常有用。请注意，在 server_vad 模式下，这些手动信号仍然可以用来补充由 VAD 触发的响应生成。

用户输入音频的转录可通过 input_audio_transcription 属性启用；在此配置中指定转录模型（whisper-1）将启用 conversation.item.audio_transcription.completed 事件的传递。

以下是一个配置了包括工具在内的多个会话方面的 session.update 示例。请注意，所有会话参数都是可选的；并非所有内容都需要配置！

{
  "type": "session.update",
  "session": {
    "voice": "alloy",
    "instructions": "根据用户的输入，必要时调用提供的工具。",
    "input_audio_format": "pcm16",
    "input_audio_transcription": {
      "model": "whisper-1"
    },
    "turn_detection": {
      "threshold": 0.4,
      "silence_duration_ms": 600,
      "type": "server_vad"
    },
    "tools": [
      {
        "type": "function",
        "name": "get_weather_for_location",
        "description": "获取某个地点的天气信息",
        "parameters": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "城市和州，例如旧金山, 加利福尼亚州"
            },
            "unit": {
              "type": "string",
              "enum": [
                "c",
                "f"
              ]
            }
          },
          "required": [
            "location",
            "unit"
          ]
        }
      }
    ]
  }
}

命令概览

完整的参数详情请参阅 realtime-openapi3.yml。

请求：从调用方发送到 `/realtime` 端点的命令

`type`	描述
会话配置
`session.update`	配置对话会话的连接级行为，例如共享音频输入的处理方式和通用的响应生成特性。此命令通常在连接后立即发送，但也可在会话中的任何时间点发送，以便在当前响应（如果正在进行中）完成后重新配置行为。
输入音频
`input_audio_buffer.append`	将音频数据追加到共享的用户输入缓冲区。在 `server_vad` 的 `turn_detection` 模式下，这些音频只有在检测到语音结束时才会被处理；而在其他 `turn_detection` 配置下，则需手动发送 `response.create` 命令才能触发处理。
`input_audio_buffer.clear`	清空当前的音频输入缓冲区。请注意，这不会影响正在处理中的响应。
`input_audio_buffer.commit`	将用户输入缓冲区的当前状态提交给已订阅的对话，作为下一次响应的信息。
项目管理	用于建立对话历史或将非音频项目信息纳入对话
`conversation.item.create`	在对话中插入一条新条目，可选择根据 `previous_item_id` 进行定位。这可以提供来自用户的新的非音频输入（如文本消息）、工具响应，或来自其他交互的历史信息，以形成生成之前的对话历史。
`conversation.item.delete`	从现有对话中移除一条条目。
`conversation.item.truncate`	手动缩短消息中的文本和/或音频内容，这在模型以超实时速度生成大量额外数据，随后因中断而被跳过的情况下可能很有用。
响应管理
`response.create`	启动对未处理对话输入的模型处理，标志着调用方逻辑轮次的结束。在 `server_vad` 的 `turn_detection` 模式下，语音结束时会自动触发响应生成；但在其他情况下（文本输入、工具响应、`none` 模式等），必须调用 `response.create` 命令来表明对话应继续。注意：在响应工具调用时，应在模型发出确认所有工具调用及其他消息均已提供的 `response.done` 命令之后，再调用 `response.create`。
`response.cancel`	取消正在进行中的响应。

响应：由 `/realtime` 端点发送给调用方的命令

`type`	描述
`session.created`	在连接成功建立后立即发送。提供一个特定于连接的 ID，可用于调试或日志记录。
`session.updated`	作为对 `session.update` 事件的响应发送，反映会话配置所做的更改。
调用方项目确认
`conversation.item.created`	确认一个新的对话项目已被插入到对话中。
`conversation.item.deleted`	确认一个现有的对话项目已从对话中移除。
`conversation.item.truncated`	确认对话中的一个现有项目已被截断。
响应流程
`response.created`	通知某个对话的新响应已开始。此命令会捕获输入状态，并开始生成新的项目。在 `response.done` 表示响应结束之前，响应可能会通过 `response.output_item.added` 创建项目，然后通过 `delta` 命令逐步填充内容。
`response.done`	通知某个对话的响应生成已完成。
`rate_limits.updated`	在 `response.done` 之后立即发送，提供当前的速率限制信息，反映刚刚完成的响应消耗后的更新状态。
响应中的项目流
`response.output_item.added`	通知一个新的、由服务器生成的对话项目正在创建中；随后将通过增量的 `add_content` 消息逐步填充内容，最后以 `response.output_item.done` 命令表示该项目的创建已完成。
`response.output_item.done`	通知一个新的对话项目已成功添加到对话中。对于模型生成的消息，这之前会有 `response.output_item.added` 和 `delta` 命令，分别用于开始和填充新项目。
响应项目内的内容流
`response.content_part.added`	通知在正在进行的响应中，对话项目内正在创建一个新的内容部分。在 `response_content_part_done` 到达之前，内容将通过相应的 `delta` 命令逐步提供。
`response.content_part.done`	表示新创建的内容部分已完成，不再接收进一步的增量更新。
`response.audio.delta`	提供模型生成的二进制音频数据内容部分的增量更新。
`response.audio.done`	表示音频内容部分的增量更新已完成。
`response.audio_transcript.delta`	提供与模型生成的输出音频相关的音频转录的增量更新。
`response.audio_transcript.done`	表示输出音频的音频转录的增量更新已完成。
`response.text.delta`	提供对话消息项目中文本内容部分的增量更新。
`response.text.done`	表示文本内容部分的增量更新已完成。
`response.function_call_arguments.delta`	提供对话项目中表示的函数调用参数的增量更新。
`response.function_call_arguments.done`	表示函数调用参数的增量更新已完成，累积的参数现在可以完全使用。
用户输入音频
`input_audio_buffer.speech_started`	当使用配置的语音活动检测时，此命令通知在输入音频缓冲区中已检测到用户语音的开始，具体位置为某个音频采样索引。
`input_audio_buffer.speech_stopped`	当使用配置的语音活动检测时，此命令通知在输入音频缓冲区中已检测到用户语音的结束，具体位置为某个音频采样索引。如果已配置，则会自动触发响应生成。
`conversation.item.input_audio_transcription.completed`	通知用户输入音频缓冲区的补充转录现已可用。此行为必须通过 `session.update` 中的 `input_audio_transcription` 属性进行启用。
`conversation.item_input_audio_transcription.failed`	通知输入音频转录失败。
`input_audio_buffer_committed`	确认当前用户音频输入缓冲区的状态已提交至已订阅的对话。
`input_audio_buffer_cleared`	确认待处理的用户音频输入缓冲区已被清空。
其他
`error`	表示在处理会话数据时出现了问题。包含一个提供详细信息的 `error` 消息。

故障排除与常见问题解答

最佳实践和预期模式正在迅速发展，本节中涉及的主题可能会很快过时。

我发送了音频，但没有收到服务返回的任何命令

确保输入音频格式与 session.update 命令中提供的格式一致（默认为 24KHz、16 位单声道 PCM）；如果格式不匹配，音频将被解码为“噪声”，而不会被解释为输入。
如果使用 none 的 turn_detection 模式（较新协议版本中为 null），请确保根据需要发送 input_audio_buffer.commit 和/或 response.create 命令。

工具调用无法正常工作或无响应

由于单个响应可能包含多个工具调用，因此工具调用与响应之间引入了一定的状态性：

调用方可以在收到该工具调用的 item_added 消息之后的任何时间添加工具调用输出项目 tool_call。
一旦当前响应的所有项目都已生成，模型的 response.done 命令将会到达，其中 output 字段会引用所有工具调用及其他属于该响应的项目。
此时（即所有传入的工具调用均已解决之后），调用方可以发送一个新的 response.create 命令。
在前一响应的配对 response.done 命令到达之前就发送 response.create 命令（例如，在 response.function_call_arguments.done 或 response.output_item.done 之后立即发送），可能会导致意外行为和竞态条件。
如果不发送任何 response.create 命令，对话可能无法继续推进。

使用音频文件作为输入时，我看到许多响应，或者我的响应会卡住

当使用比实时快得多的长音频输入时——例如来自带有自然停顿的音频文件——服务器的语音活动检测可能会连续触发大量响应，从而导致响应变得不可靠。在这种情况下，强烈建议在 session.update 中禁用语音活动检测（"turn_detection": { "type": "none" }，在较新协议版本中为 "turn_detection": null），并在所有音频传输完毕后手动调用 response.create。

关于库支持的长期计划是什么？

最简短的回答是：许多细节仍有待确定。

.NET（https://github.com/openai/openai-dotnet）：现已提供对 /realtime 的预览支持，自 2.1.0-beta.1 版本开始。该预览版 SDK 的实现仍将持续开发、优化和调整——预计在各个预览版本之间会出现一定数量的破坏性变更。
Python 和 JavaScript：正如 Realtime 公告中的“接下来的计划”部分所述，官方库支持（通过 https://github.com/openai/openai-python 和 https://github.com/openai/openai-node）将在稍后推出。具体的时间表和细节将在后续进一步公布，但我们预计未来将实现对 /realtime 与其他客户端功能，如 /chat/completions 的统一支持。在此期间，本仓库提供了独立的库（兼容标准 OpenAI 和 Azure OpenAI），并附有示例，未来将继续扩展和改进。
Java 和 Go：关于客户端库支持的讨论正在进行中，我们希望很快能分享更多进展。

aoai-realtime-audio-sdk 快速上手指南

⚠️ 重要提示：本项目目前不再积极维护，其代码状态与 OpenAI Realtime API 的最新通用版本不完全匹配。本仓库代码仅作为官方库支持到位之前的参考材料。对于新的解决方案，请使用 OpenAI 官方支持的库（Python, JS, Java, Go, .NET, Ruby）。以下指南基于 Azure OpenAI GPT-4o Audio /realtime 公共预览版文档整理。

环境准备

在开始之前，请确保满足以下系统和资源要求：

Azure 区域：必须创建位于 eastus2 (美国东部 2) 或 swedencentral (瑞典中部) 区域的 Azure OpenAI 资源。
模型部署：在上述资源中部署 gpt-4o-realtime-preview 模型，版本需为 2024-10-01。
网络协议：支持 WebSocket (wss://) 连接。
开发环境：任意支持 HTTP/WebSocket 请求的编程语言或工具（如 Node.js, Python, Postman 等）。
认证方式：
- Microsoft Entra ID (Bearer Token)
- 或者 API Key

安装步骤

由于这是一个参考性质的 SDK 仓库，通常不需要通过包管理器安装特定的 "aoai-realtime-audio-sdk" 包。你可以通过克隆仓库获取示例代码，或直接根据 API 规范在你的项目中实现 WebSocket 连接。

获取示例代码：

git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
cd aoai-realtime-audio-sdk

注：如果你使用官方 OpenAI 库进行新开发，请运行对应语言的安装命令，例如：

# Python 示例
pip install openai
# Node.js 示例
npm install openai

基本使用

1. 构建连接 URI

/realtime API 通过 WebSocket 连接。你需要构造如下格式的 URI：

wss://<你的资源名称>.openai.azure.com/openai/realtime?api-version=2024-10-01-preview&deployment=<你的部署名称>

示例 URI：

wss://my-eastus2-openai-resource.openai.azure.com/openai/realtime?api-version=2024-10-01-preview&deployment=gpt-4o-realtime-preview-1001

2. 认证连接

在建立 WebSocket 握手时，需选择以下一种认证方式：

方式 A：API Key (推荐用于测试) 在 URI 后追加 &api-key=<你的密钥> (WSS 加密传输是安全的)，或在非浏览器环境的预握手连接头中添加 api-key。
方式 B：Microsoft Entra Token 在 WebSocket 请求头中添加 Authorization: Bearer <你的访问令牌>。

3. 配置会话 (Session Update)

连接成功后，首先发送一个 session.update 命令来配置语音、指令和交互模式。

示例命令 (JSON)：

{
  "type": "session.update",
  "session": {
    "voice": "alloy",
    "instructions": "Call provided tools if appropriate for the user's input.",
    "input_audio_format": "pcm16",
    "input_audio_transcription": {
      "model": "whisper-1"
    },
    "turn_detection": {
      "threshold": 0.4,
      "silence_duration_ms": 600,
      "type": "server_vad"
    },
    "tools": [
      {
        "type": "function",
        "name": "get_weather_for_location",
        "description": "gets the weather for a location",
        "parameters": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["c", "f"]
            }
          },
          "required": ["location", "unit"]
        }
      }
    ]
  }
}

4. 发送音频与获取响应

发送音频：将用户音频数据分块发送，命令类型为 input_audio_buffer.append。
触发响应：
- 如果配置了 server_vad (语音活动检测)，检测到说话结束时会自动触发响应。
- 如果配置为 none 或发送文本，需手动发送 response.create 命令来触发模型生成。

手动触发响应示例：

{
  "type": "response.create"
}

5. 处理流式返回

服务端会通过 WebSocket 推送各种事件（Commands），你需要异步监听并处理：

response.audio.delta: 包含生成的音频片段。
response.text.delta: 包含生成的文本片段。
conversation.item.audio_transcription.completed: 用户语音转写完成事件。

注意：由于处于公共预览阶段 (Public Preview)，API 细节、命令格式及服务稳定性可能会发生变化。生产环境请务必关注官方最新文档。

版本历史

js/v0.5.52025/08/26

py/v0.5.42025/06/16

js/v0.5.22024/12/17

py/v0.5.32024/12/05

js/v0.5.12024/12/05

js/v0.5.02024/10/28

py/v0.5.22024/10/25

js/v0.4.72024/10/16

py/v0.5.12024/10/15

py/v0.5.02024/10/14

py/v0.4.42024/10/04

py/v0.4.32024/10/03

py/v0.4.22024/10/03

py/v0.4.12024/10/02

v0.1.0-beta.12024/10/01

常见问题

是否有 React JS 的示例代码？

Python client_sample.py 无法工作，只有 no_vad 版本能运行，如何解决？

运行 npm install 时提示 rt-client tarball 损坏或找不到依赖，如何解决？

Python 示例目录中的 download-pkg.sh 脚本不存在，应该如何下载依赖包？

此实时 WebSocket SDK 未来是否会与非实时 API（如 Assistants API）统一？

如何处理函数调用结果并将其返回给大模型进行语音输出重构？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|今天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

使用场景

没有 aoai-realtime-audio-sdk 时

使用 aoai-realtime-audio-sdk 后

运行环境要求

快速开始

Azure OpenAI GPT-4o 音频和 /realtime：公开预览文档

概述：什么是 /realtime？

如何开始使用

连接与认证 /realtime

API 核心概念

API 详情

命令概览

请求：从调用方发送到 /realtime 端点的命令

响应：由 /realtime 端点发送给调用方的命令

故障排除与常见问题解答

我发送了音频，但没有收到服务返回的任何命令

工具调用无法正常工作或无响应

使用音频文件作为输入时，我看到许多响应，或者我的响应会卡住

关于库支持的长期计划是什么？

aoai-realtime-audio-sdk 快速上手指南

环境准备

安装步骤

基本使用

1. 构建连接 URI

2. 认证连接

3. 配置会话 (Session Update)

4. 发送音频与获取响应

5. 处理流式返回

版本历史

常见问题

相似工具推荐

everything-claude-code

LLMs-from-scratch

spec-kit

NextChat

ML-For-Beginners

funNLP

请求：从调用方发送到 `/realtime` 端点的命令

响应：由 `/realtime` 端点发送给调用方的命令