learn-generative-ai

GitHub
792 286 非常简单 1 次阅读 昨天语言模型开发框架图像插件
AI 解读 由 AI 自动生成,仅供参考

learn-generative-ai 是一门专注于“云应用生成式 AI 工程(GenEng)”的实战课程,旨在帮助开发者掌握将生成式 AI 技术深度集成到现代应用程序中的核心能力。它解决了当前企业在 AI 落地过程中面临的挑战:即如何跨越从模型训练到实际业务应用的鸿沟,让开发者能够构建可扩展、符合企业需求且经济高效的 AI 解决方案。

这套内容特别适合具备传统应用开发经验的软件工程师、全栈开发者以及希望转型的 IT 专业人员。与普通用户或纯算法研究人员不同,这里的目标受众是那些需要负责系统架构、企业级集成以及根据业务场景选择合适大语言模型(LLM)的建设者。

其独特的技术亮点在于全面覆盖了现代 AI 应用开发的全栈工具链。课程内容不仅包含 OpenAI 和 Google Gemini 等主流模型的使用,还深入结合了 Streamlit 快速构建界面、LangChain 编排复杂逻辑、Pinecone 向量数据库检索、Next.js 前端框架,以及利用容器化和 Serverless 技术在 Microsoft Azure 和 Google Cloud 上进行云端部署。通过这一系列实践,学习者能真正掌握从提示词工程优化到最终产品上线的完整工程化流程,成为推动生成式 AI 大规模采用的关键力量。

使用场景

某中型电商企业的开发团队正试图构建一个能结合实时库存数据与用户历史行为的智能客服系统,以应对大促期间的高并发咨询。

没有 learn-generative-ai 时

  • 技术栈碎片化严重:开发人员需独自摸索如何将 OpenAI 模型、LangChain 框架与 Postgres 数据库连接,缺乏统一的架构指导,导致集成周期长达数周。
  • 云资源配置迷茫:团队不清楚如何在 Azure 或 Google Cloud 上正确申请和配置企业级 AI 服务账号,常因权限或配额问题阻塞开发进度。
  • 应用落地困难:仅能跑出简单的 Demo,无法将生成式 AI 逻辑封装为可扩展的 Streamlit 或 Next.js 生产级应用,难以处理高并发请求。
  • 角色定位模糊:开发者陷入提示词工程与模型微调的细节泥潭,忽略了与企业业务专家协作验证输出结果的关键流程。

使用 learn-generative-ai 后

  • 全链路架构清晰:直接复用课程中基于 LangChain、Pinecone 和 Serverless 的成熟架构模式,将系统集成时间从数周缩短至几天。
  • 云环境快速就绪:依照指南迅速完成微软 Azure 和谷歌云的账户注册及服务开通,确保企业级 API 调用的稳定性与合规性。
  • 生产级交付能力:利用学到的容器化与 Next.js 部署技能,快速将智能客服打包为可弹性伸缩的云端服务,轻松支撑大促流量。
  • 工程思维转型:团队明确“生成式工程师”定位,专注于业务逻辑编排与效果评估,高效协同领域专家优化提示词策略。

learn-generative-ai 通过提供从云平台配置到全栈部署的完整工程路径,帮助开发者跨越从“玩具 Demo"到“企业级应用”的鸿沟。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目主要是一个关于云应用生成式 AI 工程(GenEng)的课程指南和资源列表,而非一个可直接运行的单一软件工具。它侧重于指导用户注册和使用 Microsoft Azure 及 Google Cloud 云平台服务(如 Azure OpenAI Service),并学习 LangChain、Pinecone 等库的概念。具体的运行环境取决于用户在云端或本地开发时选择的具体技术栈和示例代码,README 文件中未提供统一的本地安装依赖、操作系统、GPU 或内存的具体硬件要求。
python未说明
learn-generative-ai hero image

快速开始

学习云端应用生成式AI工程(GenEng)

本课程是[认证云端应用生成式AI工程师(GenEng)](https://docs.google.com/document/d/15usu1hkrrRLRjcq_3nCTT-0ljEcgiC44iSdvdqrCprk/edit?usp=sharing)的一部分。

请全体教职员工及学生注册微软Azure和谷歌云账号:

  1. 微软Azure账号 https://azure.microsoft.com/en-us/free/ai-services/

注意:如有可能,请使用公司邮箱地址注册账户。

获得订阅ID后,请在此处申请Azure Open AI服务:

https://azure.microsoft.com/en-us/products/ai-services/openai-service

  1. 谷歌云账号 https://cloud.google.com/free

新时代

[从微软到麻省理工学院MBA,面向所有员工和高管的AI再教育训练营即将到来](https://www.cnbc.com/2023/12/15/from-microsoft-to-mit-mba-an-ai-boot-camp-for-every-worker-executive.html)

[AI时代已经开启](https://www.gatesnotes.com/The-Age-of-AI-Has-Begun)

[Nvidia表示,生成式AI将比互联网更大](https://www.theverge.com/2023/11/15/23962497/nvidia-says-generative-ai-will-be-bigger-than-the-internet)

[生成式AI及其经济影响:你需要了解的内容](https://www.investopedia.com/economic-impact-of-generative-ai-7976252)

[必读:OpenAI开发者日——AI领域的一个关键时刻](https://www.aitidbits.ai/p/openai-devday)

生成式工程(GenEng)

由那些在如何最佳利用和集成生成式AI技术于应用程序方面具备深厚专业能力的开发者引领的GenEng革命正在兴起。

目前,在创建和训练模型的人(数据科学家和工程师)与使用这些模型的人(开发者)之间存在明确的角色分工。这一趋势早已显现,而随着生成式AI革命的到来变得更加清晰——生成式AI的未来将取决于其普及程度,而这又将由开发者对其采用的速度所决定。

GenEng从业者需要掌握传统应用开发所需的多种技能,包括可扩展架构设计、企业系统集成以及理解业务用户的需求等。此外,他们还需掌握构建生成式AI应用的独特技巧,例如让业务领域的专家参与提示工程的验证工作,并根据性价比及预期成果选择合适的大型语言模型。

[GenEng的崛起:AI如何改变开发者角色](https://cloud.google.com/blog/products/ai-machine-learning/the-rise-of-geneng-how-ai-changes-the-developer-role)

[观看:GenEng的崛起](https://www.youtube.com/watch?v=RLUrvgfEeUc)

最新消息

[谷歌推出其最大且“最强大”的AI模型Gemini](https://www.cnbc.com/2023/12/06/google-launches-its-largest-and-most-capable-ai-model-gemini.html)

[Meta、IBM和英特尔加入开放AI开发联盟,而谷歌和微软则未参与](https://www.scmp.com/tech/big-tech/article/3244012/meta-ibm-and-intel-join-alliance-open-ai-development-while-google-and-microsoft-sit-out)

[埃隆·马斯克关于伊利亚·苏茨克维尔——OpenAI领导层动荡核心的首席科学家——的说法](https://finance.yahoo.com/news/elon-musk-said-ilya-sutskever-171726023.html)

[OpenAI首席科学家伊利亚·苏茨克维尔是谁?他对AI和ChatGPT的未来有何看法?](https://www.fastcompany.com/90985752/ilya-sutskever-openai-chief-scientist)

[山姆·奥特曼将重返OpenAI担任CEO](https://www.theverge.com/2023/11/22/23967223/sam-altman-returns-ceo-open-ai)

技术视角下的商业与高层管理

[2024年科技年度:哈佛商业评论所需洞察](https://www.hbsp.harvard.edu/product/10673-PDF-ENG)

《2024年科技年度:哈佛商业评论关于生成式AI和Web 3.0的必要洞察》将帮助您理解最新、最重要的技术创新对贵组织的意义,以及如何利用它们在当今动荡的商业环境中竞争并取胜。商业正在发生变化。您会选择适应还是被甩在后面?通过哈佛商业评论“所需洞察”系列,及时了解并深入理解塑造贵公司未来的关键议题。您无法忽视这些问题将如何重塑商业和社会格局。“所需洞察”系列将帮助您把握这些至关重要的理念,并为您和您的公司迎接未来做好准备。

[麦肯锡2023年技术趋势展望](https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-top-trends-in-tech#new-and-notable)

生成式AI简介

[观看生成式AI简介](https://www.youtube.com/watch?v=G2fqAlgmoPo)

![替代文本](genai_fit.jpeg “生成式AI的应用场景”)

生成式AI与经济

  1. [麦肯锡:生成式AI的经济潜力——下一片生产力前沿](https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-ai-the-next-productivity-frontier#introduction),麦肯锡数字报告,2023年6月

  2. [GPT就是GPT:大型语言模型对劳动力市场潜在影响的早期研究](https://arxiv.org/pdf/2303.10130.pdf),作者:Tyna Eloundou、Sam Manning、Pamela Miskin和Daniel Rock,2023年3月(arXiv:2303.10130)

  3. [高盛:人工智能对经济增长的潜在巨大影响](https://www.gspublishing.com/content/research/en/reports/2023/03/27/d64e052b-0f6e-45d7-967b-d7be35fabd16.html),作者:Joseph Briggs和Devesh Kodnani,2023年3月

“ChatGPT API”或更准确地说:OpenAI API

OpenAI API是一系列API的集合。

这些API提供了对各种大型语言模型(LLM)的访问权限。

LLM:经过训练以理解人类语言的程序。

ChatGPT是一个使用Chat completion API的网络服务。 其用途包括:

  1. gpt-3.5-turbo(免费层级)
  2. gpt-4.0(付费层级)

OpenAI API端点

  1. Chat completion: 给定一系列消息,生成回复。

  2. Function calling: 选择要调用的函数。

  3. Image generation: 根据文本描述生成图像。

  4. Speech to text: 给定音频文件和提示,生成文字稿。

  5. Fine tuning: 使用输入和输出示例训练模型。

OpenAI Assistants API

全新的Assistants API是Chat Completions API的有状态演进版,旨在简化类似助手体验的创建,并使开发者能够访问诸如Code Interpreter和Retrieval等强大工具。

![替代文本](assistants.png “助手”)

聊天补全 API 与助手 API

聊天补全 API 的基本元素是消息,您使用模型(如 gpt-3.5-turbo、gpt-4 等)对这些消息执行补全操作。它轻量且功能强大,但本质上是无状态的,这意味着您需要手动管理对话状态、工具定义、检索文档以及代码执行。

助手 API 的基本元素包括:

  1. 助手:封装了基础模型、指令、工具和(上下文)文档;
  2. 线程:代表对话的状态;
  3. 运行:驱动助手在特定线程上执行任务,包括生成文本回复和多步工具调用。

什么是 AI 领域的 OPL 技术栈?

OPL 技术栈指的是 OpenAI、Pinecone 和 LangChain。这是一组开源工具和库,能够极大简化大型语言模型的应用构建与部署流程。

Alt text

生成式 AI 的未来

“人工智能将成为历史上最伟大的财富创造者,因为人工智能并不关心你出生在哪里、是否有钱或是否拥有博士学位,”希金斯在接受 CNBC Make It 采访时表示。“它将打破那些阻碍人们向上流动、追求经济自由梦想的壁垒。”

目前,这一领域已估值近 1000 亿美元,预计到 2030 年将为全球经济贡献 15.7 万亿美元。

“并不是说你现在不抓住机会就永远没有机会了,”希金斯说,“而是现在正是你从中获益的最佳时机。”

人工智能将成为历史上最大的财富创造者

生成式 AI 每年可为全球经济增加高达 4.4 万亿美元

研究报告

硅谷见证由生成式 AI 驱动的新型移动设备

微软 CEO:AI“比个人电脑还大,比移动设备还大”——他说得对吗?

通用人工智能已经到来

构建生成式 AI“操作系统”的竞赛内幕

生成式商业智能

GenAI 时代的商业智能

生成式 AI 与 Web 3.0 的融合

AI 与 Web3 的融合:去中心化智能的新时代

生成式 AI 与 Web 3.0 结合后有哪些潜力?

Web3 如何释放生成式 AI 的力量

文本教材

  1. 使用 LangChain 构建生成式 AI:用 Python、ChatGPT 及其他 LLM 打造大型语言模型应用
  2. LangChain 入门速成课:构建基于 OpenAI LLM 的应用
  3. 动手学习:面向初学者的 AI 应用开发——利用 LangChain 和 Streamlit 解锁 ChatGPT API
  4. 医疗领域的生成式 AI——ChatGPT 革命
  5. 会计领域的生成式 AI 指南:探索生成式 AI 在会计中的可能性
  6. 商业中使用生成式 AI 白皮书
  7. 生成式 AI:2023 年会计师需要了解的内容
  8. 生成式 AI 的 100 种实用应用场景

学习 LangChain、Pinecone 和 LLM

13 分钟详解 LangChain | 初学者快速入门教程

LangChain 初学者速成课程

LangChain 初学者视频速成课程

LangChain 用于 LLM 应用开发

LangChain:与你的数据对话

通过 LangChain 轻松入门 LLM、代理和工具链

LangChain 烹饪书——初学者必知的 7 个核心概念指南

格雷格·卡姆拉特的 LangChain YouTube 播放列表

1littlecoder 的 LangChain YouTube 播放列表

Pinecone

https://docs.pinecone.io/docs/quickstart

https://python.langchain.com/docs/integrations/vectorstores/pinecone

LangChain - Vercel AI SDK

https://sdk.vercel.ai/docs/guides/providers/langchain

在 Next.js 13 API 中使用 Python 和 Flask

https://github.com/wpcodevo/nextjs-flask-framework

https://vercel.com/templates/python/flask-hello-world

https://vercel.com/docs/functions/serverless-functions/runtimes/python

https://codevoweb.com/how-to-integrate-flask-framework-with-nextjs/#google_vignette

https://github.com/vercel/examples/tree/main/python

https://github.com/orgs/vercel/discussions/2732

https://flask.palletsprojects.com/en/2.3.x/tutorial/

https://flask.palletsprojects.com/en/2.3.x/

参考资料: LangChain 官方文档

LangChain AI 手册

学习 LangChain 的前 5 个资源

LangChain 官方 YouTube 频道

项目

使用 LangChain 和 Pinecone 向量数据库构建自定义问答应用

使用 Langchain 的端到端大模型项目 | NLP 项目端到端

边构建边学习:面向初学者的 AI 应用开发——借助 LangChain 和 Streamlit 解锁 ChatGPT API

生成式 AI 基础知识测验

总题数:40 题

时长:60 分钟

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|6天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

151.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|2天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|2天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|6天前
插件开发框架