generative-ai-use-cases

1.3k 417 较难 1 次阅读今天MIT-0语言模型图像开发框架

AI 解读由 AI 自动生成，仅供参考

generative-ai-use-cases（简称 GenU）是由 AWS 提供的开源参考应用，旨在帮助企业安全、高效地将生成式 AI 融入日常业务运营。它不仅仅是一个技术演示，更是一套经过“良好架构”验证的解决方案，提供了多种开箱即用的业务场景模板。

GenU 有效解决了企业在引入大语言模型时面临的“落地难”问题。许多团队虽然拥有先进的模型，却缺乏将其转化为具体生产力的路径。通过预置聊天交互、智能文本生成、长文档摘要、会议纪要自动整理、写作润色及上下文感知翻译等实用功能，GenU 让用户能直观看到 AI 如何辅助工作，既可作为业务创新的灵感种子，也能直接部署使用。

这套工具非常适合希望快速构建企业级 AI 应用的开发者、解决方案架构师以及正在探索 AI 转型的业务技术人员。对于普通用户而言，它也是一个低门槛体验生成式 AI 强大能力的窗口。

其独特亮点在于对多语言的原生支持（包括中文、日文、韩文等）以及高度的可配置性。用户可以根据实际需求灵活隐藏或启用特定功能模块，无需复杂的提示词工程即可享受高质量的 AI 服务。此外，项目持续更新，致力于提供越来越完善的行业用例，是连接前沿 AI 技术与实际商业价值的可靠桥梁。

使用场景

某跨国企业的市场运营团队需要每周处理大量多语言会议录音、合同文档及营销文案，以快速产出会议纪要、关键条款摘要和本地化推广内容。

没有 generative-ai-use-cases 时

流程割裂效率低：团队成员需分别使用不同的转录工具、翻译软件和写作助手，数据在不同平台间手动搬运，耗时且易出错。
信息提取困难：面对长篇合同或会议记录，人工梳理关键条款（如赔偿金额、违约责任）如同大海捞针，容易遗漏重要细节。
内容质量不稳定：非母语员工撰写的营销文案缺乏地道表达，且缺乏客观的润色机制，导致对外发布内容风格不统一。
技术门槛高：业务人员想尝试大模型能力，但缺乏安全的测试环境和提示词工程基础，难以将 AI 真正融入日常业务流。
合规风险难控：直接使用公共 AI 服务处理敏感商业合同和内部会议录音，存在数据泄露隐患，缺乏企业级的安全防护。

使用 generative-ai-use-cases 后

一站式全流程整合：通过内置的"Meeting Minutes"和"Translation"用例，团队可在同一安全平台完成从录音转写、多语种翻译到格式输出的闭环，无需切换工具。
智能对话式提取：利用"Summarization"功能，用户可直接对上传的合同文档提问（如"XXX 条款的触发条件是什么？”），AI 即时精准定位并回答，大幅缩短审阅时间。
客观润色与标准化：借助"Writing"用例，系统能以第三方视角自动检查文案逻辑与拼写，提供优化建议，确保全球市场的宣传材料保持高质量和专业度。
零代码开箱即用：预置的多种业务场景模板让非技术人员无需编写提示词即可直接上手，快速验证 AI 在特定业务中的价值。
企业级安全落地：基于 AWS Well-Architected 架构构建，确保所有敏感数据在处理过程中符合企业合规要求，消除数据外泄顾虑。

generative-ai-use-cases 将分散的 AI 能力整合为安全、可控的业务流，帮助企业在零开发成本下实现生成式 AI 的高效落地与规模化应用。

运行环境要求

操作系统

未说明 (基于 AWS CDK 部署，通常支持 Linux/macOS/Windows)

GPU

不需要本地 GPU (基于 Amazon Bedrock 云端推理)

内存

未说明 (取决于本地运行 CDK 和 Node.js 的需求)

依赖

notes该工具是一个部署在 AWS 上的生成式 AI 应用示例，不依赖本地计算资源。核心运行环境要求是配置好 AWS CLI 和 AWS CDK (Cloud Development Kit) 的执行环境。需要在 AWS 控制台启用 Amazon Bedrock 模型访问权限。不支持本地离线运行，所有 AI 推理（文本、图像、视频）均通过调用 AWS 云端服务完成。

python未说明 (主要基于 Node.js/CDK)

AWS CDK

Node.js

Amazon Bedrock

AWS CloudFormation

快速开始

生成式AI用例（GenU）

英语 | 日语 | 韩语

利用生成式AI进行业务运营的架构良好应用实现与业务用例

[!IMPORTANT] GenU 自 v4 起已支持多语言。

GenU 从 v4 开始支持多语言。日文文档请见这里

GenU 使用模式

在这里，我们将根据使用模式介绍 GenU 的功能和选项。有关全面的部署选项，请参阅本文档。

[!TIP] 点击某个使用模式即可查看详细信息

我想体验生成式AI用例

GenU 提供了多种利用生成式AI的标准用例。这些用例既可以作为在业务运营中如何利用生成式AI的灵感来源，也可以直接应用于实际业务。我们计划在未来持续添加更多优化后的用例。如果不需要，您还可以通过选项隐藏特定用例。以下是默认提供的用例。

用例	描述
聊天	您可以以聊天形式与大型语言模型（LLM）互动。允许直接与 LLM 对话的平台能够快速响应特定及新兴用例。它也可作为提示工程的测试环境，十分有效。
文本生成	在任何情境下生成文本是 LLM 最擅长的任务之一。它可以生成各类文本，包括文章、报告和电子邮件。
摘要	LLM 非常擅长对大量文本进行摘要。除了简单的摘要外，它们还能在提供文本作为背景信息后，以对话形式提取所需信息。例如，在阅读合同后，您可以提问“XXX 的条件是什么？”或“YYY 的金额是多少？”
会议记录	自动从音频录音或实时转录中生成会议记录。无需任何提示工程，即可选择转录、新闻稿或常见问题解答风格。
写作	LLM 可以从更客观的角度提出改进建议，不仅考虑拼写错误，还会关注文本的流畅性和内容。在将作品展示给他人之前，让 LLM 客观地检查可能被忽略的要点，有望提升质量。
翻译	经过多语言训练的 LLM 可以执行翻译任务。除了简单翻译外，它们还能将各种指定的上下文信息，如口语化程度和目标受众等，融入翻译中。
网页内容提取	从博客、文档等网页内容中提取必要信息。LLM 会去除不必要的信息，并将其格式化为结构清晰的文本。提取的内容可用于其他用例，如摘要和翻译。
图像生成	图像生成 AI 可以根据文本或现有图像创建新图像。它能立即可视化创意，从而提高设计工作的效率。在此功能中，LLM 可协助生成提示词。
视频生成	视频生成 AI 可根据文本制作短视频。生成的视频可用作多种场景下的素材。
视频分析	借助多模态模型，现在不仅可以输入文本，还可以输入图像。在此功能中，您可以要求 LLM 分析视频帧和文本输入。
图表生成	图表生成功能可使用最佳图表将任何主题的文本和内容可视化。它允许轻松基于文本创建图表，即使是非程序员和非设计师也能高效制作流程图和其他图表。
语音聊天	在语音聊天中，您可以与生成式AI进行双向语音交流。类似于自然对话，您可以在 AI 讲话时随时打断并发言。此外，通过设置系统提示词，您还可以与具有特定角色的 AI 进行语音对话。

我想做 RAG

RAG 是一种技术，通过向 LLM 提供外部最新信息或其通常难以处理的专业领域知识，使其能够回答原本无法回答的问题。贵组织内部积累的 PDF、Word、Excel 等文件均可作为信息源。 RAG 还具有防止 LLM 提供“看似合理但不正确的信息”的作用，因为它只允许基于证据的回答。

GenU 提供了一个 RAG 聊天用例。 RAG 聊天支持两种类型的信息源：Amazon Kendra 和知识库。使用 Amazon Kendra 时，您可以直接使用手动创建的 S3 存储桶或 Kendra 索引。而使用知识库时，则可以启用高级 RAG 功能，例如高级解析、分块策略选择、查询分解以及重排序等。此外，知识库还支持元数据过滤设置。例如，您可以实现“按组织切换可访问的数据源”或“允许用户通过 UI 设置过滤条件”等需求。

另外，您还可以通过启用 MCP 聊天，并将外部服务的 MCP 服务器添加到packages/cdk/mcp-api/mcp.json，从而构建一个能够引用 AWS 外部数据的 RAG 系统。

我希望在组织内部使用自定义的 Bedrock Agent、AgentCore 或 Bedrock Flows

在 GenU 中启用代理功能后，系统会自动创建 Web 搜索代理和代码解释器代理。 Web 搜索代理会从网络上搜索信息来回答用户的问题。例如，它可以回答“AWS GenU 是什么？”这样的问题。代码解释器代理则可以通过执行代码来响应用户的请求。比如，它可以根据“绘制一些虚拟数据的散点图”这样的请求作出回应。

虽然 Web 搜索代理和代码解释器代理是基础代理，但您可能希望使用更贴近业务需求的实用型代理。 GenU 提供了导入代理的功能，允许您将自己或其他工具创建的代理导入到系统中。

通过将 GenU 作为代理使用的平台，您可以利用其丰富的安全选项和SAML 认证，在组织内推广实用型代理。此外，您还可以隐藏不必要的标准用例或以内联方式显示代理，使 GenU 更加专注于代理功能。

同样地，对于 AgentCore Runtime，也有导入功能，请充分利用。

对于 Bedrock Flows，也有导入功能，请一并使用。

此外，您还可以通过启用 MCP 聊天，并将外部 MCP 服务器添加到packages/cdk/mcp-api/mcp.json，从而创建能够在 AWS 外部服务上执行操作的代理。

我想创建自定义用例

GenU 提供了一项名为“用例构建器”的功能，允许您通过自然语言描述提示模板来创建自定义用例。只需提供提示模板，系统便会自动生成相应的自定义用例界面，无需对 GenU 本身进行任何代码修改。创建的用例不仅可以供个人使用，还可以与所有登录应用的用户共享。如果不需要该功能，可以用禁用用例构建器。此外，用例还可以导出为 .json 文件并与第三方共享。但在共享用例时，请务必注意不要在提示或使用示例中包含任何机密信息。第三方共享的用例可通过新用例创建界面上传 .json 文件进行导入。有关用例构建器的更多详细信息，请参阅这篇博客文章。

尽管用例构建器可以用于创建需要用户输入文本或上传文件的用例，但根据您的具体需求，聊天界面可能更为合适。在这种情况下，您可以利用“聊天”用例中的系统提示保存功能。通过保存系统提示，您只需点击一下即可创建满足业务需求的“机器人”。例如，您可以创建“在输入源代码时对其进行彻底审查的机器人”或“从输入内容中提取电子邮件地址的机器人”。此外，已登录的用户之间还可以共享聊天对话历史记录，并可以从共享的对话历史中导入系统提示。

由于 GenU 是开源软件，您也可以对其进行定制以添加自己的用例。不过，在这种情况下，请务必注意避免与 GenU 主分支发生冲突。

部署

[!IMPORTANT] 请在 /packages/cdk/cdk.json 中列出的 modelRegion 区域内启用 modelIds（文本生成）、imageGenerationModelIds（图像生成）和 videoGenerationModelIds（视频生成）。(Amazon Bedrock 模型访问页面)

GenU 的部署使用了 AWS Cloud Development Kit (CDK)。如果您无法准备 CDK 的运行环境，请参考以下部署方法：

使用 AWS CloudShell 的部署方法（当自行准备环境有困难时）
工作坊（英文 / 日文)

首先，请运行以下命令。所有命令都应在仓库根目录下执行。

npm ci

如果您之前从未使用过 CDK，则仅需首次进行引导。如果您的环境已经完成引导，则无需执行此步骤。

npx -w packages/cdk cdk bootstrap

接下来，使用以下命令部署 AWS 资源。请耐心等待部署完成（可能需要约 20 分钟）。

# 普通部署
npm run cdk:deploy

# 快速部署（快速部署，不进行已创建资源的预检查）
npm run cdk:deploy:quick

架构

arch.drawio.png

其他信息

成本估算

我们发布了使用 GenU 的配置和成本估算示例。（该服务采用按量付费模式，实际费用会根据您的使用情况而有所不同。）

客户案例研究

客户	推荐语
	Yasashiite株式会社得益于GenU，我们不仅为用户提供了附加价值，还提升了员工的工作效率。随着员工的‘以往工作’转变为令人愉悦的工作，我们正不断从‘平稳运营’迈向‘充满激情的工作’！・查看案例详情・查看案例页面
	TAKIHYO株式会社通过利用生成式AI，实现了内部业务效率提升，并减少了超过450小时的工作量。将Amazon Bedrock应用于服装设计等领域，同时推动了数字化人才的培养。・查看案例页面
	Salsonido公司借助作为解决方案提供的GenU，我们能够迅速启动基于生成式AI的业务流程优化工作。・查看案例详情・应用服务
	田村株式会社 AWS在Github上发布的应用示例拥有大量可立即测试的功能，我们直接使用这些示例，轻松选出了适合自身需求的功能，从而缩短了最终系统的开发周期。・查看案例详情
	JDSC公司 Amazon Bedrock使我们能够安全地将自己的数据与LLM结合使用。此外，我们还可以根据具体用途切换至最优模型，从而在降低成本的同时提升速度和准确性。・查看案例详情
	iret公司为了积累并系统化万代南梦宫游艺公司的内部知识，以支持其生成式AI的应用，我们基于AWS提供的Generative AI Use Cases JP开发了一个用例站点。iret公司负责该项目的设计、搭建及开发工作。・万代南梦宫游艺公司云应用案例
	IDEALOG公司我认为，相比传统的生成式AI工具，我们现在能够实现更高的工作效率。使用不会将输入输出数据用于模型训练的Amazon Bedrock，让我们在安全性方面更加安心。・查看案例详情・应用服务
	eStyle公司通过利用GenU，我们得以在短时间内构建起生成式AI环境，并促进了公司内部的知识共享。・查看案例详情
	明电舍株式会社借助Amazon Bedrock、Amazon Kendra等AWS服务，我们快速且安全地搭建起了生成式AI应用环境。该环境通过自动生成会议纪要和检索内部信息，有效提升了员工的工作效率。・查看案例详情
	三京立山公司借助Amazon Kendra，公司内部深埋的信息得以迅速被检索到。参考GenU提供的方案，我们及时实现了诸如会议纪要生成等功能。・查看案例详情
	Oisix ra daichi公司通过利用GenU开展的用例开发项目，我们掌握了所需的资源、项目架构、外部支持以及人才培养等方面的信息，这有助于我们明确内部部署生成式AI的具体规划。・查看案例页面
	SAN-A株式会社借助Amazon Bedrock，我们的工程师生产力得到了显著提升，从而加速了公司将此前自行搭建的专用环境迁移至云端的进程。・查看案例详情・查看案例页面
	ONE COMPATH株式会社通过利用GenU，我们迅速建立了全公司范围内的生成式AI基础架构。这使得企划部门能够独立开展PoC开发，从而加快了业务创新周期；同时，也让开发部门得以将资源集中于更重要的业务方向。・查看案例详情
	三菱电机工程株式会社在ServerWorks的指导下，团队中此前并无生成式AI开发经验的成员仅用3个月便成功构建了一套RAG系统。他们以GenU的架构为参考，不仅提升了帮助台手册查询工作的效率，还实现了内部自主开发能力的突破。・查看案例详情
	Orbitics公司我们能够在令人惊叹的短时间内完成开发。未来，我们将把所掌握的开发技术战略性地部署到各个业务领域，以全面提升整个组织的运营效率。・查看案例详情

如果您希望您的用例被展示，请通过 Issue 联系我们。

参考资料

安全性

更多信息请参阅 CONTRIBUTING。

许可证

本库采用 MIT-0 许可证。详情请参阅 LICENSE 文件。

Generative AI Use Cases (GenU) 快速上手指南

GenU 是一个基于 AWS Well-Architected 框架构建的生成式 AI 应用示例集合，旨在帮助企业在业务运营中快速落地生成式 AI 场景。它提供了聊天、文本生成、RAG（检索增强生成）、Agent 集成等多种开箱即用的功能。

环境准备

在开始部署之前，请确保满足以下系统要求和前置依赖：

系统要求

操作系统: Linux, macOS, 或 Windows (WSL2 推荐)
Node.js: v18.x 或更高版本
npm: v9.x 或更高版本
AWS CDK: v2.x 或更高版本
Docker: (可选，用于部分本地测试或容器化部署)

AWS 前置依赖

AWS 账户: 拥有有效且具备管理员权限的 AWS 账户。
AWS CLI: 已安装并配置好凭证 (aws configure)。
Amazon Bedrock 模型访问:
- 登录 Amazon Bedrock 控制台。
- 在 modelRegion (通常在 us-east-1 或其他支持区域) 中，务必手动请求访问以下模型类型：
  - modelIds (文本生成模型，如 Anthropic Claude, Amazon Titan)
  - imageGenerationModelIds (图像生成模型，如 Stable Diffusion)
  - videoGenerationModelIds (视频生成模型，如有需要)
CDK 引导: 确保目标 AWS 区域已完成 CDK 引导 (cdk bootstrap)。

注意: 目前该项目主要依托 AWS 全球基础设施，国内用户需确保网络能正常访问 AWS 服务及 npm 源。若使用国内开发机，建议配置 npm 镜像加速（如 npm config set registry https://registry.npmmirror.com）。

安装步骤

GenU 使用 AWS CDK 进行基础设施即代码 (IaC) 部署。请按照以下步骤进行安装：

1. 克隆项目代码

git clone https://github.com/aws-samples/generative-ai-use-cases.git
cd generative-ai-use-cases

2. 安装依赖

在项目根目录安装 Node.js 依赖：

npm install

(如果在国内遇到下载缓慢，请先执行 npm config set registry https://registry.npmmirror.com)

3. 配置部署参数

编辑 packages/cdk/cdk.json 文件，根据您的需求调整区域和模型配置。确保其中指定的 modelRegion 与您已在 Bedrock 控制台申请访问模型的区域一致。

4. 部署应用

使用 CDK 部署所有资源到 AWS 账户：

npx cdk deploy --all

系统会提示您确认变更，输入 y 确认。部署过程可能需要 10-20 分钟，具体取决于网络状况和资源创建速度。

部署完成后，终端将输出应用的访问 URL（CloudFront Distribution URL）以及初始管理员账号信息。

基本使用

部署成功后，您可以通过浏览器访问生成的 URL 开始体验。

1. 登录系统

打开部署输出的 URL。
使用部署时生成的临时凭证或通过配置的 SAML/SSO 进行登录。

2. 体验核心功能

GenU 左侧导航栏提供了多种预设用例，以下是几个最常用的快速入门场景：

场景 A：智能对话 (Chat)

点击 Chat。
直接在对话框输入问题，例如：“如何用 Python 读取 CSV 文件？”
系统会调用配置的 LLM 进行回答。您可以在设置中切换不同的基础模型（如 Claude 3, Titan 等）。

场景 B：文档问答与 RAG (RAG Chat)

点击 RAG Chat (需确保已启用 Knowledge Base 或 Kendra)。
上传公司内部 PDF、Word 或 Excel 文档作为知识库。
提问关于文档内容的问题，例如：“这份合同中的付款条件是什么？”
系统将基于上传的文档内容生成带引用的准确回答，避免幻觉。

场景 C：自定义业务助手 (Use Case Builder)

点击 Use Case Builder。
无需编写代码，仅通过自然语言描述提示词模板。
- 示例描述: “创建一个翻译助手，将输入的中文技术文档翻译成英文，语气要专业且简洁。”
点击生成，系统会自动创建一个专属的交互界面供所有授权用户使用。

场景 D：多模态生成

Image Generation: 输入文字描述（如“一只在太空行走的猫”），生成对应图片。
Diagram Generation: 输入流程描述，自动生成流程图或架构图。

3. 进阶配置 (可选)

如果您需要集成自定义的 Bedrock Agents 或连接外部数据源，请参考项目文档中的 DEPLOY_OPTION.md 进行高级配置，例如启用 MCP Chat 以连接非 AWS 服务。

版本历史

v5.4.02026/01/13

v5.3.02025/10/27

v5.2.02025/10/15

v5.1.22025/09/11

v5.1.12025/09/05

v5.1.02025/08/29

v5.0.12025/08/26

v5.0.02025/08/26

v4.3.42025/08/12

v4.3.32025/07/30

v4.3.22025/06/27

v4.3.12025/06/23

v4.3.02025/06/11

v4.2.82025/06/09

v4.2.72025/05/30

v4.2.62025/05/29

v4.2.52025/05/27

v4.2.42025/05/26

v4.2.32025/05/20

v4.2.22025/05/14

常见问题

如何配置 Cognito 以支持 Google 认证登录？

如何在 RAG 聊天中利用 Amazon Kendra 的 FAQ 功能？

如何将写作模式（執筆モード）的默认模板内容清空，使其启动时为空白状态？

部署时遇到 'ApplicationInferenceProfileStack' 更新失败，报错 'Exports cannot be updated... is in use by stack(s)' 如何解决？

GenU 是否支持私有化部署？如何在私有环境中使用？

在使用“网页内容提取”功能时，输出为什么会中途截断？

在封闭网络环境（闭域版）使用 GenU 时，如何避免修改全局 DNS 影响其他 AWS 服务？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|4天前

插件开发框架

客户	推荐语
	Yasashiite株式会社得益于GenU，我们不仅为用户提供了附加价值，还提升了员工的工作效率。随着员工的‘以往工作’转变为令人愉悦的工作，我们正不断从‘平稳运营’迈向‘充满激情的工作’！・查看案例详情・查看案例页面
	TAKIHYO株式会社通过利用生成式AI，实现了内部业务效率提升，并减少了超过450小时的工作量。将Amazon Bedrock应用于服装设计等领域，同时推动了数字化人才的培养。・查看案例页面
	Salsonido公司借助作为解决方案提供的GenU，我们能够迅速启动基于生成式AI的业务流程优化工作。・查看案例详情・应用服务
	田村株式会社 AWS在Github上发布的应用示例拥有大量可立即测试的功能，我们直接使用这些示例，轻松选出了适合自身需求的功能，从而缩短了最终系统的开发周期。・查看案例详情
	JDSC公司 Amazon Bedrock使我们能够安全地将自己的数据与LLM结合使用。此外，我们还可以根据具体用途切换至最优模型，从而在降低成本的同时提升速度和准确性。・查看案例详情
	iret公司为了积累并系统化万代南梦宫游艺公司的内部知识，以支持其生成式AI的应用，我们基于AWS提供的Generative AI Use Cases JP开发了一个用例站点。iret公司负责该项目的设计、搭建及开发工作。・万代南梦宫游艺公司云应用案例
	IDEALOG公司我认为，相比传统的生成式AI工具，我们现在能够实现更高的工作效率。使用不会将输入输出数据用于模型训练的Amazon Bedrock，让我们在安全性方面更加安心。・查看案例详情・应用服务
	eStyle公司通过利用GenU，我们得以在短时间内构建起生成式AI环境，并促进了公司内部的知识共享。・查看案例详情
	明电舍株式会社借助Amazon Bedrock、Amazon Kendra等AWS服务，我们快速且安全地搭建起了生成式AI应用环境。该环境通过自动生成会议纪要和检索内部信息，有效提升了员工的工作效率。・查看案例详情
	三京立山公司借助Amazon Kendra，公司内部深埋的信息得以迅速被检索到。参考GenU提供的方案，我们及时实现了诸如会议纪要生成等功能。・查看案例详情
	Oisix ra daichi公司通过利用GenU开展的用例开发项目，我们掌握了所需的资源、项目架构、外部支持以及人才培养等方面的信息，这有助于我们明确内部部署生成式AI的具体规划。・查看案例页面
	SAN-A株式会社借助Amazon Bedrock，我们的工程师生产力得到了显著提升，从而加速了公司将此前自行搭建的专用环境迁移至云端的进程。・查看案例详情・查看案例页面
	ONE COMPATH株式会社通过利用GenU，我们迅速建立了全公司范围内的生成式AI基础架构。这使得企划部门能够独立开展PoC开发，从而加快了业务创新周期；同时，也让开发部门得以将资源集中于更重要的业务方向。・查看案例详情
	三菱电机工程株式会社在ServerWorks的指导下，团队中此前并无生成式AI开发经验的成员仅用3个月便成功构建了一套RAG系统。他们以GenU的架构为参考，不仅提升了帮助台手册查询工作的效率，还实现了内部自主开发能力的突破。・查看案例详情
	Orbitics公司我们能够在令人惊叹的短时间内完成开发。未来，我们将把所掌握的开发技术战略性地部署到各个业务领域，以全面提升整个组织的运营效率。・查看案例详情