openai-gpt-dev-notes-for-cn-developer

GitHub
1.5k 104 非常简单 1 次阅读 5天前语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

openai-gpt-dev-notes-for-cn-developer 是一份专为国内开发者编写的实战指南,旨在帮助大家快速上手并构建基于 OpenAI/GPT 的应用。针对国内网络环境无法直接访问 OpenAI 官网、注册账号困难以及 API 调用受阻等痛点,该笔记详细梳理了从基础概念到落地运营的全流程解决方案。

内容涵盖 ChatGPT 与 OpenAI 模型的关系解析、核心接口(chat completions)的调用方法、流式输出(Stream)的技术细节、计费策略分析,以及如何合规地在国内上线 GPT 相关业务。特别值得一提的是,它提供了通过第三方接口绕过网络限制、避免账号封禁等实用技巧,并分享了将免费应用转化为商业产品的思路。

这份资料非常适合希望利用大模型能力进行产品创新的软件工程师、独立开发者及创业团队。无论是想快速验证想法的原型开发,还是设计拥有独特提示词与工作流的商业化应用,都能从中获得清晰的技术路径和本土化实操建议,帮助开发者在看似红海的市场中打造出差异化的 AI 体验。

使用场景

一位国内独立开发者试图快速构建一款基于 GPT-3.5 的垂直领域智能客服 SaaS,却因网络环境和文档缺失而举步维艰。

没有 openai-gpt-dev-notes-for-cn-developer 时

  • 网络访问受阻:开发者无法直接访问 OpenAI 官方文档和 API 接口,反复尝试注册账号和调用服务均因 IP 限制失败,项目启动即卡壳。
  • 技术选型迷茫:分不清 ChatGPT 网页版与 OpenAI API 的区别,误以为必须使用不稳定的“无头浏览器”方案,导致开发架构复杂且易崩。
  • 核心参数困惑:对 stream 流式输出、system 角色设定等关键参数理解模糊,调试耗时极长,甚至因不懂计费规则导致预算失控。
  • 合规风险未知:不清楚国内上线运营 GPT 业务的红线与规避封号的具体策略,担心投入开发后账号被封或业务违规。

使用 openai-gpt-dev-notes-for-cn-developer 后

  • 打通连接路径:直接参考笔记中提供的第三方接口代理方案和注册指南,几分钟内成功调通 API,解决了“最后一公里”的网络难题。
  • 明确技术路线:清晰认知到只需通过简单的 HTTP 请求调用 gpt-3.5-turbo 模型即可实现核心功能,摒弃了复杂的爬虫方案,大幅降低开发门槛。
  • 精准掌控细节:依据笔记中的代码示例和参数详解,快速实现了流式回复效果,并掌握了通过 system 提示词定制专属客服人设的技巧。
  • 规避运营风险:根据文中关于国内合规运营及防封号策略的指导,设计了安全的业务架构,确保应用能稳定上线并长期运行。

openai-gpt-dev-notes-for-cn-developer 将原本需要数周摸索的跨境开发难题,浓缩为一份可立即执行的实战指南,让国内开发者能专注于业务逻辑而非基础设施搭建。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该工具并非本地运行的 AI 模型,而是一份关于如何调用 OpenAI API 的开发笔记。运行环境仅需能发起 HTTP 请求的任何操作系统或设备。核心依赖为有效的 OpenAI API Key(或第三方代理如 API2D 的 Key)。由于国内网络限制,直接访问 OpenAI 接口可能需要配置代理服务器或使用支持国内访问的第三方中转服务。开发语言不限,示例中使用 curl 命令,也可使用任意支持 HTTP 请求的编程语言(如 Python, Node.js 等)。
python未说明
openai-gpt-dev-notes-for-cn-developer hero image

快速开始

在写了一堆应用以后,我们打算众筹一个GPT课程。之前我以为现在GPT应用已经是红海了,但实际测试下来发现,GPT应用其实可以是非标准品。独有的提示词、独有的知识库、独有的工作流都可以做出独一无二的GPT体验。

在课程中我们将讲解如何设计、搭建和开发一个与众不同的商业GPT应用。https://subdeer.cn/product/3

如何快速开发一个OpenAI/GPT应用

一个国内开发者的OpenAI/GPT的笔记

最近都在问,于是写个文档。本文希望用尽可能少的内容,讲清楚开发一个OpenAI/GPT应用必然用到的知识,内容主要聚焦在免费应用开发,商业化方案可以看看这篇文章:《十分钟,给你开发的免费GPT应用加上收费功能》

欢迎PR补充。

AI/Automation开发交流群

  1. 电报群 https://t.me/+s-5piM3koEphNDY1
  2. 微信群

目录

ChatGPT && OpenAI 的关系

ChatGPT 是 OpenAI 推出的应用,使用的是最新的模型;而 OpenAI 开放接口的模型是 gpt-3.5-turbo ,这个模型比 ChatGPT 应用要笨。但 ChatGPT 用的最新模型没有接口,只能通过无头浏览器等方式来使用(不稳定)。

更新:目前已经开放了 gpt-4 ,当前尚未提供图片输入接口,使用方式和 gpt-3.5-turbo 一致,只需要将 model 参数更换为 gpt-4 ,注意 gpt-4 的 max tokens 为 8k (gpt-4-32k 为 32k),Token 价格是 3.5 的 15~30 倍。

OpenAI API 接口能做什么

能做的事情很多,可以查看官方文档,但这个文档中国网络目前无法访问。

具体来讲,OpenAI 所有的可用的接口都在里边,包括语音识别和图片生成。但真正智能的其实只有 gpt-3.5-turbo,因此刚开始不用看其他内容。

目前大家看到的绝大部分GPT类应用都是由 gpt-3.5-turbo 模型的 chat completions 对话补全接口实现的。

chat completions 接口如何使用?

可以通过很多方式来使用,比如使用官方SDK,第三方项目,但其实只需要一个HTTP请求就可以。以下是官方文档给出的例子:

curl https://api.openai.com/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -d '{
  "model": "gpt-3.5-turbo",
  "messages": [{"role": "user", "content": "Hello!"}]
}'

从里边可以看到,需要的信息有:

① 请求地址: https://api.openai.com/v1/chat/completions 这个地址目前在国内大部分地区已经无法访问了,后边会讲解决办法

② 最常用的接口参数包括:

  1. model: 必填,建议使用 gpt-3.5-turbo,便宜。计费后边会讲。
  2. messages: AI 进行提问的问题或信息。
  3. max_tokens: 选填,指定生成回答的最大Token数。
  4. stream: 选填,是否按流的方式发送内容。

其中 messages的格式为:{"role","content"}。一般用 user 发送用户问题;system 发送给模型提示信息。

例如:

[
  {"role": "system", "content": "You are a helpful assistant that translates English to French."},
  {"role": "user", "content": "Translate the following English text to French: {text}"}
]

知道了这些基本就可以跑通GPT流程了,其他role可以稍后优化时来做。

Stream 参数

这里单独说一下 stream 参数,当它设置为 true 时,API 会以 SSE( Server Side Event )方式返回内容。

SSE 本质上还是 HTTP 协议,只不过它是一个长链接,先输出一个 header("Content-Type: text/event-stream") , 然后持续不断地输出内容直到完成。如果不是做实时聊天,建议直接false掉。

需要注意的是,开启stream 后,将不会返回 usage 信息,这对精准计费有影响

{"id":"chatcmpl-6s3hNohxOliHi8zR7m5UTrLm4cWWc","object":"chat.completion.chunk","created":1678341949,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"我"},"index":0,"finish_reason":null}]}
{"id":"chatcmpl-6s3hNohxOliHi8zR7m5UTrLm4cWWc","object":"chat.completion.chunk","created":1678341949,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"没有"},"index":0,"finish_reason":null}]}
{"id":"chatcmpl-6s3hNohxOliHi8zR7m5UTrLm4cWWc","object":"chat.completion.chunk","created":1678341949,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"当前"},"index":0,"finish_reason":null}]}
{"id":"chatcmpl-6s3hNohxOliHi8zR7m5UTrLm4cWWc","object":"chat.completion.chunk","created":1678341949,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"日期"},"index":0,"finish_reason":null}]}
{"id":"chatcmpl-6s3hNohxOliHi8zR7m5UTrLm4cWWc","object":"chat.completion.chunk","created":1678341949,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"的"},"index":0,"finish_reason":null}]}
{"id":"chatcmpl-6s3hNohxOliHi8zR7m5UTrLm4cWWc","object":"chat.completion.chunk","created":1678341949,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"实"},"index":0,"finish_reason":null}]}
{"id":"chatcmpl-6s3hNohxOliHi8zR7m5UTrLm4cWWc","object":"chat.completion.chunk","created":1678341949,"model":"gpt-3.5-turbo-0301","choices":[{"delta":{"content":"信息"},"index":0,"finish_reason":null}]}

其他参数

接口的其他参数可以看官方文档,访问不了的同学可以看我做的截图。

Chat completions 接口如何计费?

chat completions 接口按 token 计费,有一个专门的算法来计算 token。输入和输出全部都会计入到 token 里边,在 chat completions 接口的 usage 里边会有具体消耗的 token 数。

如果你要自己计算,可以用这个在线表单,程序计算可以看看这两个项目:

  1. https://github.com/dqbd/tiktokenizer
  2. https://github.com/openai/tiktoken

除了 gpt-3.5-turbo 模型的 chat completions 接口,还有 text-davinci-003 模型的 text completions 接口可以用,但是价格更贵,效果更差 🤣

你可以在 https://openai.com/pricing 查询到价格,以下是3月中旬的定价

Model Usage
gpt-3.5-turbo (ChatGPT) $0.002 / 1K tokens
Davinci (InstructGPT) $0.0200 / 1K tokens
Ada (InstructGPT) $0.0004 / 1K tokens
Babbage (InstructGPT) $0.0005 / 1K tokens
Curie (InstructGPT) $0.0020 / 1K tokens

chat completions 接口能做什么 ①

虽然 chat completions 看起来像是一个聊天接口,但接口设计上并没有为聊天优化,因为这个接口是记不住上下文的。

为了让对话具有连续性,我们每次请求需要带上上次的聊天记录。有多种方式解决这个问题,一个是直接在messages参数中加上聊天记录。其中,GPT返回的内容用 assistant role。

[
     {"role": "system", "content": "You are a helpful assistant."},
     {"role": "user", "content": "Who won the world series in 2020?"},
     {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
     {"role": "user", "content": "Where was it played?"}
 ]

另一个方式是使用第三方库,比如chatgpt-api,它可以自动帮你发送聊天记录(通过指定对话的parentMessageId实现):

  1. https://github.com/transitive-bullshit/chatgpt-api

在加上对话记录后,chat completions 接口就可以制作一个看起来有智能的聊天应用了。

如果你要在国内运营聊天机器人之类的话,请记得将内容通过文本内容审核接口进行审核,否则很可能导致被封。

chat completions 接口能做什么 ②

其实除了对话,GPT有很强的内容总结归纳能力,另外由于它能理解内容结构,同时本身又是语言模型,因此对结构化翻译很擅长。

比如,我经常用它翻译JSON和Markdown,大部分情况下效果很好。在自用体验很好的情况下,我们可以将其制作为应用。

应用开发非常简单,我只用一天时间开发了AiBox,按基本的web应用开发就可以,重点说几个细节:

  1. 提示词:直接把提示词以 system 的 role 提交就可以。
  2. Key问题:开发者的Key肯定是不够用的,因此一般会让使用者填写自己的Key。但是国内用户没有海外手机号,无法申请key;申请下来API直接访问也不通,解决方案有几种,后边专门讲
  3. Token计算和限制问题:如果使用者用自己的Key,为了提升体验,我们可以提供一个Token计算,让用户知道自己的会花多少钱。另外如果你没有用第三方那个库来分拆,那么一次请求的内容不要超过 max_tokens 的限制。这个值一般是 4096。

国内是否可以上线运营GPT相关业务?

就目前而言,我了解到的情况是大部分企业没有收到明确禁止运营GPT相关业务的通知,但在国内运营要做好内容安全,比如对接口返回的内容再过一层内容审核。否则如果在应用中出现违规内容被举报,就会被封禁。

但这是一个随时可能变化的情况,我们准备了一个issue供大家反馈。

如何解决国内用户无法注册OpenAI账号、无法访问OpenAI接口的问题?

两个思路,一个是绕道海外去注册,通过代理使用服务;另一个是直接使用第三方代理API服务。前者可以暂时解决当前的问题;后者更方便省心。

注册OpenAI

  1. 准备一个海外的网络
  2. 准备一个海外手机号来接收验证短信,可以用海外虚拟号码

注册完成后,进入API页面 创建Key,然后就可以使用了。

这个方案目前可行,是因为OpenAI给每个新用户提供了18美金的免费额度。但是一旦不再提供,就会面临充值的问题。目前OpenAI不接受中国信用卡,因此还必须准备一个海外信用卡。也就是说,要长久稳定的使用,必须有海外信用卡。

以前有财付通的海外虚拟信用卡,后来服务下线了。最近看了下,很多500RMB起,还只支持电商网站,感觉不太靠谱 🤣

访问OpenAI API

3月3日开始,国内大部分网络不再能直接访问 OpenAI 接口。

因此你需要架设代理来访问OpenAI 接口。你可以将整个服务器代理到海外网络,或者只是简单的通过 Cloudflare 或者 腾讯云函数来部署API代理。

如果你准备使用腾讯云函数,教程可以看这里

需要注意的是,腾讯云API代理会将长连接内容一次性返回,因此流式体验不明显。当然,有同学说腾讯云的 ApiGateway 直接就能代理,但我测试了下没成功。

通过第三方接口访问

如果你搞不定海外手机号和信用卡,或者自己不想架设代理,那么可以考虑用像API2D这样的第三方代理API。

主要的优点:

  1. 基本兼容原有接口,只需要改下 API endpoint 和 Key
  2. 接口国内直接可以访问,无需架设代理
  3. 支持微信和国内卡充值,提供最小0.5美金/3.5人民币的测试档位,GitHub注册还有50点免费额度试用
  4. 添加 moderation 参数,可以返回内容审核结果,省事
  5. 推荐可以获得点数,这里是我的推荐链接

缺点:

  1. 不支持 stream 参数,已经支持 stream
  2. 目前只支持 chat 和 embeddings 接口
  3. 价格比官方略高,大概1.5倍,当然这个包含了流量中转的成本

利益相关:api2d这个产品是作者加拿大的朋友做的,而且作为早期用户一直在重度使用

如何避免 OpenAI 封禁账号 API权限

最近得到反馈,很多架设香港代理的账号收到了邮件被禁用了权限。经过群里大家的讨论,总结的经验如下:

  1. 不要使用 OpenAI 不服务地区的代理
  2. 虚拟海外手机号更可能导致账号被封
  3. 绑定信用卡可以大幅提升账号存活率

如何知道 OpenAI 接口状态

OpenAI官方提供了一个状态页,虽然小故障不怎么显示,但大面积宕机时能看到公告。

image

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|今天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架