awesome-generative-ai-data-scientist

1.5k 247 非常简单 1 次阅读今天语言模型其他数据工具Agent开发框架图像

AI 解读由 AI 自动生成，仅供参考

awesome-generative-ai-data-scientist 是一个专为数据科学家打造的生成式 AI 资源宝库，精选了 100+ 个免费开源项目与学习材料。它旨在解决从业者在从传统数据分析向大语言模型（LLM）应用转型过程中，面临的资源分散、技术栈复杂以及落地部署困难等痛点。

无论是希望掌握 Agent 构建、RAG 检索增强生成，还是需要了解模型微调、LLMOps 监控及云端部署的开发者与研究人员，都能在这里找到清晰的学习路径。该资源库的独特亮点在于其极高的全面性与双语友好性：不仅涵盖了 LangChain、Hugging Face 等主流 Python 生态的核心工具链，还罕见地整理了 R 语言在 LLM 领域的应用资源（如 Ellmer-Verse），填补了市场空白。此外，它还提供了从真实商业案例到 AWS、Azure 等云平台部署的实战指南。如果你正计划构建自己的生成式 AI 应用，或希望系统性地提升在大模型时代的数据科学能力，这份 curated 清单将是极佳的起步伴侣。

使用场景

某金融科技公司的高级数据分析师李明，正负责构建一个基于大语言模型（LLM）的自动化财报分析系统，需要快速整合从数据处理到模型部署的全栈技术。

没有 awesome-generative-ai-data-scientist 时

资源筛选耗时巨大：面对 GitHub 上成千上万个零散的 AI 库，李明花费数天时间仍难以辨别哪些是适合生产环境的成熟框架，哪些只是过时的实验性代码。
技术栈割裂严重：在寻找向量数据库、RAG 架构和 Agent 工具时，需要在不同论坛和文档间反复跳转，难以形成连贯的技术实施路径。
缺乏实战指引：官方文档往往只讲原理，缺少针对金融场景的“端到端”部署案例（Cookbooks），导致在 AWS 或 Azure 上部署模型时频频踩坑。
前沿动态滞后：无法系统性获取最新的微调（Fine-tuning）技巧和监控方案，担心采用的技术方案在项目上线前就已落后。

使用 awesome-generative-ai-data-scientist 后

精准锁定核心资源：直接利用其精选的 100+ 资源列表，迅速锁定了 LangGraph 用于构建复杂代理流程，以及经过验证的向量数据库方案，将选型时间从几天缩短至几小时。
全链路技术地图：通过清晰的分类目录（从数据解析、预训练到 LLMOps 监控），李明快速构建了完整的技术架构图，确保了各环节工具的兼容性与协同性。
复用真实案例代码：参考"Examples and Cookbooks"板块中关于云部署和构建 AI 团队的具体代码示例，直接复用了适配金融数据的 RAG 模板，大幅降低了开发门槛。
持续同步前沿最佳实践：借助集成的通讯期刊和培训课程链接，团队能实时掌握最新的提示词优化和安全沙箱技术，确保系统始终具备行业竞争力。

awesome-generative-ai-data-scientist 不仅是一份资源清单，更是数据科学家从理论探索迈向生成式 AI 工程化落地的加速引擎。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个资源列表（Awesome List），整理了 100+ 个生成式 AI 相关的免费资源、工具库、教程和案例，本身不是一个可运行的软件或模型，因此没有特定的操作系统、GPU、内存或 Python 版本要求。具体的环境需求取决于用户选择使用的列表中提到的各个子项目（如 LangChain, Hugging Face, PyTorch 等）。

python未说明

awesome-generative-ai-data-scientist hero image

快速开始

面向数据科学家的100+项生成式AI免费资源

Awesome Generative AI Data Scientist

未来是人工智能与机器学习携手共进

🚀🚀 面向数据科学家的100+项生成式AI免费资源

这是一份精心整理的资源列表，包含100多项内容，旨在帮助您成为一名生成式AI数据科学家。本仓库涵盖了使用大型语言模型（LLMs）构建GenAI数据科学应用，以及通过云解决方案部署LLMs和生成式AI/ML的相关资源。

请在GitHub上为我们点个赞（只需2秒钟，却意义重大）。

贡献说明

欢迎各位贡献！如果您有新的资源建议或对现有资源的改进建议，请提交拉取请求或新建议题。感谢您的支持！

真实世界的人工智能用例

项目	描述	链接
🚀🚀 基于AI的Python数据科学团队	一个由协作助手组成的AI驱动的数据科学团队，利用代理帮助您以10倍的速度完成常见的数据科学任务。	应用 \| 示例 \| GitHub
🚀 Awesome LLM Apps	带有分步教程的LLM RAG AI应用。	GitHub
AI对冲基金	一个AI驱动的对冲基金的概念验证。	GitHub
AI金融代理	一款用于投资研究的金融代理。	GitHub
结构化报告生成（LangGraph）	如何构建一个能够协调报告规划、网络研究和撰写的端到端流程的代理？该代理可以生成格式多样且易于配置的报告。	视频 \| 博客 \| 代码
Uber QueryGPT	Uber的QueryGPT利用大型语言模型（LLM）、向量数据库和相似性搜索，将英语（自然语言）问题转化为复杂的查询，从而提升工程师、运营经理和数据科学家的工作效率。	博客
Nir Diamant GenAI Agents Hub	从基础到高级的各种生成式AI代理技术的教程和实现。这是一份全面的指南，用于构建智能、交互式的人工智能系统。	GitHub
AI工程中心	现实世界中的AI代理应用、LLM和RAG教程，并附有可实施的示例。	GitHub
StockChat	Perplexity Finance的开源替代方案。	GitHub

Python库

精选 Python 人工智能、数据科学和机器学习资源合集

项目	描述	链接
Awesome Generative AI Data Scientist	一份精选的100+资源列表，专门用于构建和部署生成式AI，重点帮助你成为一名生成式AI数据科学家	GitHub
LLM工程师工具包	按类别整理的120+个大语言模型库的精选列表。	GitHub
🚀🚀 最佳机器学习Python库	一个按排名列出的优秀机器学习Python库列表。每周更新。	GitHub
🚀🚀 Awesome Python Data Science	也许是目前最好的Python数据科学软件精选列表。	GitHub
Awesome Production Machine Learning	一份精选的优秀开源库列表，用于部署、监控、版本控制和扩展你的机器学习模型	GitHub
Awesome AI Agents	人工智能自主代理列表	GitHub

数据科学与人工智能代理

项目	描述	链接
🚀🚀 Python中的AI数据科学团队	帮助你以10倍速度完成常见数据科学任务的人工智能代理。	应用 \| 示例 \| GitHub
🚀 PandasAI	用于数据分析的开源人工智能代理。	文档 \| GitHub
微软数据格式化器	利用AI逐步转换数据并创建丰富的可视化效果🪄。	论文 \| GitHub
Jupyter Agent	让大语言模型代理在笔记本中编写并执行代码。	Hugging Face
Jupyter AI	JupyterLab的生成式AI扩展。	文档 \| GitHub
WrenAI	开源的GenBI人工智能代理。让Text2SQL变得简单！	文档 \| GitHub
谷歌GenAI数据库工具箱	GenAI数据库工具箱是一个开源服务器，使构建用于与数据库交互的生成式AI工具变得更加容易。	博客 \| 文档 \| GitHub
Vanna AI	仅通过提问即可从你的SQL数据库中快速获取可操作洞察的最高效方式。	文档 \| GitHub

编码代理

项目	描述	链接
Qwen-Agent	一个基于通义千问的指令遵循、工具使用、规划和记忆能力开发大语言模型应用的框架。它还附带浏览器助手、代码解释器和自定义助手等示例应用。	文档 \| 示例 \| GitHub

深度研究代理

项目	描述	链接
HuggingFace OpenDeepResearch	OpenAI深度研究代理的开源版本。	博客 \| 示例 \| GitHub
OpenDeepResearcher	一种根据用户查询持续搜索信息的人工智能研究人员，直到系统确信已收集到所有必要细节为止。	GitHub

AI 框架（自行构建）

项目	描述	链接
LangChain	一个用于开发由大型语言模型（LLMs）驱动的应用程序的框架。	文档 \| GitHub \| Cookbook
LangGraph	一个用于构建具有状态且多主体参与的 LLM 应用程序的库，可用于创建智能体和多智能体工作流。	文档 \| 教程
LangSmith	一个用于构建生产级 LLM 应用程序的平台。它允许您密切监控和评估您的应用程序，从而能够快速且自信地发布。	文档 \| GitHub
LlamaIndex	一个用于使用 LLM 构建上下文增强型生成式 AI 应用程序的框架。	文档 \| GitHub
LlamaIndex Workflows	一种用于编排日益复杂的 AI 应用程序中各项操作的机制。	博客
CrewAI	使用强大的 AI 智能体简化各行业的业务流程。	文档 \| GitHub
AutoGen	微软推出的面向智能体式 AI 的编程框架。	GitHub
Pydantic AI	一个旨在让开发者更轻松地构建生产级生成式 AI 应用程序的 Python 智能体框架。	GitHub
ControlFlow	Prefect 推出的用于构建智能体式 AI 工作流的 Python 框架。	文档 \| GitHub
FlatAI	无框架的 LLM 智能体。	GitHub
Llama Stack	Meta（Facebook）为将生成式 AI 应用程序推向市场所需的核心构建模块。	文档 \| GitHub
Haystack	Deepset AI 开源的 AI 编排框架，用于构建可定制且具备生产就绪性的 LLM 应用程序。	文档 \| GitHub
Pocket Flow	一个由 100 行代码组成的极简 LLM 框架，适用于智能体、任务分解、RAG 等场景。	文档 \| GitHub
Agency Swarm	一个基于最新 OpenAI Assistants API 构建的开源智能体编排框架。	文档 \| GitHub
Google GenAI	Google Gen AI Python SDK 为开发者提供了一个接口，以便将其生成式模型集成到自己的 Python 应用程序中。	文档 \| GitHub
AutoAgent	一个完全自动化且高度自发展的框架，使用户仅通过自然语言即可创建和部署 LLM 智能体。	GitHub
Legion	一个灵活且与提供商无关的框架，旨在简化复杂多智能体系统的构建。	文档 \| GitHub

AI 框架（拖放式）

项目	描述	链接
LangGraph Studio	一个支持可视化、交互和调试复杂智能体应用的 IDE。	GitHub
Langflow	一个低代码工具，使构建能够使用任何 API、模型或数据库的强大 AI 智能体和工作流变得更加容易。	文档 \| GitHub
Pyspur	基于图的 LLM 工作流编辑器。	文档 \| GitHub
LangWatch	一键监控、评估和优化您的 LLM 性能。LLMOps 平台的拖放式界面。	文档 \| GitHub
AutoGen Studio	一个低代码界面，可用于快速原型化 AI 智能体、为其添加工具、将它们组成团队，并与其交互以完成任务。基于 AutoGen AgentChat 构建。	文档
n8n	一个具有原生 AI 功能的公平开源工作流自动化平台。结合可视化搭建与自定义代码，支持自托管或云端部署，拥有 400 多种集成。	文档 \| GitHub

大语言模型提供商

提供商	描述	链接
OpenAI	OpenAI API 的官方 Python 库。	GitHub
OpenAI Agents	OpenAI Agents SDK 是一个轻量级但功能强大的框架，用于构建多智能体工作流。	GitHub
Hugging Face 模型	来自 Meta、Mistral 以及其他数百家提供商的开源大语言模型。	Hugging Face
Anthropic Claude	Anthropic API 的官方 Python 库。	GitHub
Meta Llama 模型	开源 AI 模型，可在任何地方进行微调、蒸馏和部署。	Meta
Google Gemini	Google Gemini API 的官方 Python 库。	GitHub
Ollama	在本地快速启动并运行大型语言模型。	GitHub
Grok	Groq API 的官方 Python 库。	GitHub

开源大语言模型

项目	描述	链接
DeepSeek-R1	第一代推理模型，可与 OpenAI o1 相媲美。	论文 \| GitHub
Qwen	阿里巴巴的 Qwen 系列模型。	GitHub
Llama	Meta 的基础模型系列。	GitHub

LangChain 生态系统

项目	描述	链接
LangChain	一个用于开发由大型语言模型驱动的应用程序的框架。	文档 \| GitHub \| 食谱
LangGraph	一个用于构建具有状态的多角色应用程序的库，适用于创建智能体及多智能体工作流。	文档 \| 教程
LangSmith	一个用于构建生产级大语言模型应用的平台。它允许您密切监控和评估您的应用，从而更快速、更有信心地发布产品。	文档 \| GitHub

LangGraph 扩展

项目	描述	链接
LangGraph 预建智能体	LangGraph 的预建智能体（包含第三方 LangGraph 扩展）。	文档
AI 数据科学团队	一支由智能体组成的 AI 驱动的数据科学团队，可帮助您以 10 倍的速度完成常见的数据科学任务。	GitHub
LangMem	LangMem 提供工具，用于从对话中提取重要信息、通过优化提示来改善智能体行为，并维护长期记忆。	GitHub
LangGraph 监督者	一个用于使用 LangGraph 构建分层多智能体系统的 Python 库。	GitHub
开放深度研究	一个开源助手，可自动化研究并生成关于任何主题的可定制报告。	GitHub
LangGraph 反思	这个预建图是一个采用反思式架构的智能体，用于检查和改进初始智能体的输出。	GitHub
LangGraph 大工具	创建能够访问大量工具的 LangGraph 智能体。	GitHub
LangGraph CodeAct	该库在 LangGraph 中实现了 CodeAct 架构。这种架构由 Manus.im 使用。	GitHub
LangGraph 蜂群	使用 LangGraph 创建蜂群式多智能体系统。智能体会根据各自的专长动态交接控制权。	GitHub
LangChain MCP 适配器	提供一个轻量级封装，使 Anthropic 模型上下文协议 (MCP) 工具与 LangChain 和 LangGraph 兼容。	GitHub

Hugging Face 生态系统

项目	描述	链接
Hugging Face	一个面向机器学习（ML）和人工智能（AI）工具及模型的开源平台。	文档
Transformers	Transformers 提供 API 和工具，方便下载与训练最先进的预训练模型。	文档
Tokenizers	Tokenizers 实现了当前最常用的分词器，专注于性能与多功能性。	文档 \| GitHub
Sentence Transformers	Sentence Transformers（简称 SBERT）是访问、使用和训练先进文本及图像嵌入模型的首选 Python 模块。	文档
smolagents	构建强大智能体的最简单框架。	文档 \| GitHub

向量数据库（RAG）

项目	描述	链接
ChromaDB	使用内存构建 Python 或 JavaScript LLM 应用程序的最快方式！	GitHub
FAISS	用于高效相似度搜索和稠密向量聚类的库。	GitHub
Qdrant	高性能大规模向量检索。	官网
Pinecone	官方 Pinecone Python SDK。	GitHub
Milvus	Milvus 是一个开源向量数据库，专为支持嵌入式相似度搜索和 AI 应用而设计。	GitHub
SQLite Vec	一款可在任何地方运行的向量搜索 SQLite 扩展。	GitHub

预训练

项目	描述	链接
PyTorch	PyTorch 是基于 Torch 库的开源机器学习库，广泛应用于计算机视觉和自然语言处理等领域。	官网
TensorFlow	TensorFlow 是由 Google 开发的开源机器学习库。	官网
JAX	Google 的高性能计算与自动微分库。	GitHub
tinygrad	由 George Hotz 创建的极简深度学习库，注重简洁性和教育用途。	GitHub
micrograd	由 Andrej Karpathy 创建的简单轻量级自动求导引擎，主要用于教学目的。	GitHub

微调

项目	描述	链接
Transformers	Hugging Face Transformers 是一个流行的自然语言处理（NLP）库，可用于大型语言模型的微调。	文档
Unsloth	使用 80% 更少的内存，以 5 倍速度微调 Llama 3.2、Mistral、Phi-3.5 和 Gemma 2！	GitHub
LitGPT	提供 20 多种高性能 LLM，并附带预训练、微调和规模化部署的指南。	GitHub
AutoTrain	无需代码即可对 LLM 及其他机器学习任务进行微调。	GitHub

测试与监控（可观测性）

项目	描述	链接
LangSmith	LangSmith 是一个用于构建生产级 LLM 应用的平台。它允许您密切监控和评估应用程序，从而快速且自信地发布产品。	文档 \| GitHub
LangWatch	一键监控、评估和优化您的 LLM 性能。提供拖放式界面的 LLMOps 平台。	文档 \| GitHub
Opik	Opik 是一个开源平台，用于评估、测试和监控 LLM 应用程序。	GitHub
MLflow 跟踪与评估	MLflow 提供针对 LLM 的一系列功能。	MLflow LLM 文档 \| 模型跟踪 \| 模型评估 \| GitHub
Langfuse	提供追踪、评估、提示管理和指标，帮助调试和改进您的 LLM 应用程序。	文档 \| GitHub

文档解析

项目	描述	链接
LangChain 文档加载器	LangChain 提供了数百种与各种数据源的集成，可从 Slack、Notion、Google Drive 等加载数据。	文档
Embedchain	在一分钟内基于您自己的数据创建 AI 应用程序。	文档 \| GitHub
IBM 的 Docling	轻松快速地解析文档并将其导出为所需格式。	GitHub
微软的 Markitdown	用于将文件和办公文档转换为 Markdown 的 Python 工具。	GitHub
DocETL	一个基于智能体的 LLM 驱动的数据处理与 ETL 系统。	文档 \| GitHub
Unstructured.io	Unstructured 提供了一个平台和工具，用于摄取和处理非结构化文档，以支持检索增强生成（RAG）和模型微调。	文档 \| GitHub \| 论文

网页解析（HTML）与网络爬虫

项目	描述	链接
Gitingest	将任何 Git 仓库转换为其代码库的简单文本输入。这对于将代码库输入到任何 LLM 中非常有用。	GitHub
Crawl4AI	开源、极速、面向 AI 的网络爬虫，专为 LLM、AI 代理和数据管道设计。	文档 \| GitHub
GPT Crawler	爬取网站以生成知识文件，从而根据 URL 创建您自己的自定义 GPT。	文档 \| GitHub
ScrapeGraphAI	一个使用 LLM 和直接图逻辑来构建针对网站及本地文档（XML、HTML、JSON、Markdown 等）的爬取管道的网页抓取 Python 库。	文档 \| GitHub
Scrapling	🕷️ 不可检测、闪电般快速且自适应的 Python 网页抓取工具。	GitHub
Firecrawl	🔥 将整个网站转换为适合 LLM 的 Markdown 或结构化数据。只需一个 API 即可完成抓取、爬取和提取。	文档 \| GitHub

智能体与工具（自建）

项目	描述	链接
LangChain 智能体	使用 LangChain 构建智能体。	文档
LangChain 工具	将工具（函数调用）与 LangChain 集成。	文档
smolagents	当前最简单的框架，用于构建强大的智能体。	文档 \| GitHub
Agentarium	一个开源框架，用于创建和管理由 AI 驱动的智能体组成的模拟环境。它提供了一个直观的平台，用于设计复杂的交互式环境，让智能体可以在其中行动、学习和进化。	GitHub
AutoGen AgentChat	使用预设智能体快速构建应用程序。	文档
谷歌智能体开发套件（ADK）	一个开源、以代码为中心的 Python 工具包，用于灵活且可控地构建、评估和部署复杂的 AI 智能体。	文档 \| GitHub

智能体与工具（预制）

项目	描述	链接
Agno（原 Phidata）	一个开源平台，用于构建、部署和监控智能体系统。	文档 \| GitHub
Composio	面向 AI 代理和 LLM 的集成平台（与 LangChain、CrewAI 等兼容）。	文档 \| GitHub

LLM 内存

项目	描述	链接
Mem0	Mem0 是一种用于 LLM 应用程序的自我改进型内存层，能够实现个性化的 AI 体验，同时降低成本并提升用户体验。	文档 \| GitHub
Memary	自主智能体的开源内存层。	GitHub
Memobase	首个基于用户档案的 GenAI 应用程序内存。	文档 \| GitHub

LLMOps

项目	描述	链接
LangWatch	一键监控、评估和优化您的大模型性能。LLMOps 平台提供拖放式界面。	文档 \| GitHub
MLflow	MLflow 跟踪用于大模型可观测性。	文档
Agenta	开源 LLMOps 平台：提示词游乐场、提示词管理、大模型评估和大模型可观测性，一站式解决方案。	文档
LLMOps	专为支持您的 LLMOps 计划而设计的最佳实践。	GitHub
Helicone	开源大模型可观测性平台，供开发者监控、调试并改进生产级应用。	文档 \| GitHub

代码沙盒（安全）

项目	描述	链接
E2B	E2B 是一个开源运行时，用于在安全的云沙盒中执行 AI 生成的代码。专为代理型和 AI 使用场景打造。	文档 \| GitHub
AutoGen Docker 代码执行器	通过 Docker 容器中的命令行环境执行代码。	文档

浏览器控制代理

项目	描述	链接
Browser-Use	让网站对 AI 代理更易访问。	文档 \| GitHub
WebUI	基于 Gradio 构建，支持 `browser-use` 的大部分功能。该 UI 设计友好，便于用户与浏览器代理交互。	GitHub
WebRover	WebRover 是一款由 AI 驱动的网络代理，结合了自主浏览与高级研究能力。	GitHub

提示词优化

项目	描述	链接
Microsoft PromptWizard	任务感知的提示词优化框架。	GitHub
Promptify	一个用于提示工程的库，利用 GPT 等大模型简化 NLP 任务（如 NER、分类）。	GitHub
AutoPrompt	一个基于意图的提示校准进行提示调优的框架。	GitHub

其他

项目	描述	链接
AI Suite	一个简单统一的界面，可连接多个生成式 AI 提供商。	GitHub
AdalFlow	SylphAI 提供的用于构建和自动优化 LLM 应用程序的库，涵盖聊天机器人、RAG 和代理等场景。	GitHub
dspy	DSPy：一个用于编程而非提示的基础模型框架。	GitHub
LiteLLM	Python SDK 和代理服务器（LLM 网关），可用于以 OpenAI 格式调用 100 多个 LLM API。	GitHub
AI 代理服务工具包	一个完整的工具包，用于运行基于 LangGraph、FastAPI 和 Streamlit 构建的 AI 代理服务。	应用 \| GitHub
Microsoft Tiny Troupe	基于 LLM 的多智能体角色模拟，用于增强想象力和获取商业洞察。	GitHub
Distributed Llama	将家用设备连接成强大的集群，以加速 LLM 推理。	GitHub

R 语言库

精选的 AI、机器学习和数据科学列表

项目	描述	链接
LLM 工具 for R	持续更新的 LLM/生成式 AI 领域有用开发汇总，特别关注 R 语言。	网站

Ellmer 生态系统

项目	描述	链接
ellmer	让 R 语言轻松使用大型语言模型（LLM）。它支持多种 LLM 提供商，并实现丰富的功能，包括流式输出、工具/函数调用、结构化数据提取等。	网站
hellmer	支持 ellmer 所兼容的聊天模型的顺序和并行批处理。	文档
chores	提供一系列符合人体工学的 LLM 助手，旨在帮助您快速完成重复性且难以自动化的任务。	文档
ggpal	专门针对 ggplot2 的 LLM 助手。	GitHub
gander	为 RStudio 和 Positron 中的数据科学家提供高性能、低摩擦的聊天体验——类似于 Copilot 的代码补全，但它能与您 R 环境中的对象进行对话。	文档

mlverse

项目	描述	链接
mall	对数据框执行多个大语言模型预测。预测按指定列逐行处理。	官网
lang	使用大语言模型实时翻译函数的帮助文档。	官网
chattr	大语言模型的接口。	官网

R 语言中其他流行的大语言模型接口

项目	描述	链接
chatgpt	与 OpenAI 的模型对接，以便在编码时获得帮助。	GitHub
groqR	将 GroqCloud 超快速的 LPU（语言处理单元）技术直接引入您的 R 工作流。	官网
gptstudio	轻松将大型语言模型（LLMs）集成到项目工作流中。	官网
llmR	R 语言对多种大型语言模型（LLMs）的接口，例如 OpenAI 的 GPT 模型、Azure 的语言模型、Google 的 Gemini 模型，或自定义本地服务器。	GitHub
tidychatmodels	一个简单的接口，用于从 R 中与您喜爱的 AI 聊天机器人对话，灵感来自 tidymodels，在那里您可以轻松地用另一个机器学习模型替换现有模型，同时保持工作流的其余部分不变。	官网
tidyllm	访问各种大型语言模型 API，包括 Anthropic Claude、OpenAI、Google Gemini、Perplexity、Groq、Mistral，以及通过 Ollama 或 OpenAI 兼容 API 的本地模型。	官网
gemini.R	R 包，用于在 R 中通过 API 使用 Google 的 Gemini。	官网
PerplexR	一个直观的界面，用于利用 Perplexity API Pro 订阅的功能。	GitHub
ollama-r	将 R 与 Ollama 集成的最简单方式，允许您在本地机器上运行语言模型。	官网
rollama	封装了 Ollama API，使您可以在本地运行不同的 LLM，并获得类似于 ChatGPT/OpenAI API 的体验。	官网

R 语言中的 RAG

项目	描述	链接
Ragnar	帮助实现检索增强生成（RAG）工作流。	官网

大语言模型部署（云服务）

服务	描述	链接
AWS Bedrock	Amazon Bedrock 是一项完全托管的服务，提供来自领先 AI 公司的高性能基础模型（FMs），如 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon。	AWS Bedrock
Microsoft Azure AI 服务	Azure AI 服务帮助开发者和组织快速构建智能、前沿、可上市且负责任的应用程序，提供开箱即用、预构建并可定制的 API 和模型。	Microsoft Azure AI 服务
Google Vertex AI	Vertex AI 是一个完全托管的统一 AI 开发平台，用于构建和使用生成式 AI。	Google Vertex AI
NVIDIA NIM	NVIDIA NIM™ 是 NVIDIA AI Enterprise 的一部分，提供容器以自我托管 GPU 加速的推理微服务，适用于跨云、数据中心和工作站的预训练及自定义 AI 模型。	NVIDIA NIM

示例与教程

构建 AI

项目	描述	链接
LangChain 教程	使用 LangChain 构建应用程序的示例代码，重点是更具应用性和端到端的示例。	GitHub
LangGraph 示例	使用 LangGraph 构建应用程序的示例代码。	GitHub
Llama Index 示例	使用 Llama Index 构建应用程序的示例代码。	GitHub
Streamlit LLM 示例	Streamlit LLM 应用程序示例，用于入门。	GitHub

部署 AI

亚马逊网络服务（AWS）

项目	描述	链接
Amazon Bedrock 研讨会	介绍如何通过 Amazon Bedrock 利用基础模型（FMs）。	GitHub

微软 Azure

项目	描述	链接
微软面向初学者的生成式 AI	21 节课，教授开始构建生成式 AI 应用程序所需的一切知识。	GitHub
微软生成式 AI 入门课程	对生成式 AI 概念和应用的全面介绍。	Microsoft Learn
Azure 生成式 AI 示例	用于 Microsoft Azure 云平台的 Prompt Flow 和 RAG 示例。	GitHub

Google Cloud Platform (GCP)

项目	描述	链接
Google Vertex AI 示例	笔记本、代码示例、示例应用及其他资源，展示如何使用 Google Cloud Vertex AI 构建、开发和管理机器学习与生成式 AI 工作流。	GitHub
Google 生成式 AI 示例	Google Cloud 上生成式 AI 的示例代码和笔记本，支持在 Vertex AI 上使用 Gemini。	GitHub

NVIDIA

项目	描述	链接
NVIDIA NIM Anywhere	用于基于 NIM 进行开发的入口点，可原生扩展至全规模实验室及生产环境。	GitHub
NVIDIA NIM Deploy	参考实现、示例文档和架构指南，可用作起点，将多个 NIM 及其他 NVIDIA 微服务部署到 Kubernetes 和其他生产部署环境中。	GitHub

新闻通讯

新闻通讯	描述	链接
Python AI/ML 技巧	关于生成式 AI 和数据科学的免费新闻通讯。	GitHub
unwind ai	面向 AI 开发者的最新 AI 新闻、工具和教程。	网站

课程与培训

免费培训

研讨会	描述	链接
生成式 AI 数据科学家研讨会	获得关于如何构建和部署生成式 AI/ML 解决方案的免费培训。	在此注册下一场免费研讨会。

支付费课程

课程	描述	链接
8 周生成式 AI 数据科学家训练营	专注于帮助你成为生成式 AI 数据科学家。学习如何使用 LangChain、LangGraph、Pandas、Scikit Learn、Streamlit、AWS、Bedrock 和 EC2 构建并部署由 AI 驱动的数据科学解决方案。	立即报名

awesome-generative-ai-data-scientist 快速上手指南

awesome-generative-ai-data-scientist 并非一个单一的 Python 包或可执行软件，而是一个精选资源列表（Awesome List）。它汇集了 100+ 个用于构建和部署生成式 AI（GenAI）应用的开源工具、库、框架和教程。

本指南将指导你如何利用该列表中的核心资源，快速搭建一个基础的生成式 AI 数据科学开发环境。

环境准备

在开始使用列表中的工具前，请确保你的开发环境满足以下基本要求：

操作系统: Windows, macOS 或 Linux
Python 版本: 推荐 Python 3.9 - 3.11 (部分最新库可能需要 3.12)
包管理器: pip 或 conda
开发工具: VS Code 或 Jupyter Lab
API Key: 准备至少一个大模型服务商的 API Key（如 OpenAI, Anthropic, 或国内的大模型平台），用于测试 LLM 功能。

提示：由于该仓库包含大量依赖，建议为每个具体项目创建独立的虚拟环境。

安装步骤

由于这是一个资源索引库，你不需要“安装”该列表本身，而是需要根据需求安装列表中推荐的具体库。以下是搭建通用 GenAI 开发环境的步骤：

1. 克隆资源列表（可选）

如果你希望本地浏览所有资源链接和示例代码：

git clone https://github.com/business-science/awesome-generative-ai-data-scientist.git
cd awesome-generative-ai-data-scientist

2. 安装核心基础库

根据列表推荐，安装最通用的编排框架和数据科学代理库。这里以 LangChain 和 PandasAI 为例：

# 创建虚拟环境
python -m venv genai-env
source genai-env/bin/activate  # Windows 用户请使用: genai-env\Scripts\activate

# 安装核心框架 (建议使用国内镜像源加速)
pip install langchain langchain-openai langchain-community -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装数据科学专用 Agent
pip install pandasai -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 安装特定领域工具（按需）

根据你在列表中看到的需求，安装相应模块。例如安装向量数据库客户端或 HuggingFace 生态工具：

# 向量数据库示例 (ChromaDB)
pip install chromadb -i https://pypi.tuna.tsinghua.edu.cn/simple

# HuggingFace 生态
pip install transformers torch accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下示例展示如何利用该列表推荐的工具，快速实现两个典型场景：自然语言查询数据 和 构建基础 LLM 应用。

场景一：使用 PandasAI 进行数据对话

无需编写复杂的 SQL 或 Pandas 代码，直接用自然语言分析数据。

import pandas as pd
from pandasai import Agent

# 1. 准备数据
df = pd.DataFrame({
    "country": ["China", "USA", "Japan"],
    "sales": [5000, 3000, 2000],
    "profit": [1200, 800, 400]
})

# 2. 初始化 Agent (需替换为你的 API Key)
# 支持 OpenAI, Azure, 或本地模型
agent = Agent(df, config={"llm": "openai", "api_key": "YOUR_API_KEY"})

# 3. 自然语言提问
response = agent.chat("哪个国家的利润率最高？请计算并绘图。")

print(response)
# 输出将包含分析结果和生成的图表路径

场景二：使用 LangChain 构建简单 RAG 应用

利用列表中的 LangChain 生态构建一个简单的问答链。

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 1. 初始化模型
llm = ChatOpenAI(model="gpt-3.5-turbo", api_key="YOUR_API_KEY")

# 2. 定义提示词模板
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是一个专业的数据科学助手。"),
    ("user", "{input}")
])

# 3. 构建链并运行
chain = prompt | llm | StrOutputParser()

result = chain.invoke({"input": "如何用 Python 进行时间序列预测？"})

print(result)

下一步探索

访问该仓库的 Table of Contents，根据你的具体需求（如 Deep Research Agents, LLM Deployment, R Libraries 等）查找对应的 GitHub 项目链接，进入相应项目的文档进行深入学习和部署。

版本历史

v0.1.02025/04/02

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 awesome-generative-ai-data-scientist 时

使用 awesome-generative-ai-data-scientist 后

运行环境要求

快速开始

Awesome Generative AI Data Scientist

🚀🚀 面向数据科学家的100+项生成式AI免费资源

贡献说明

目录

真实世界的人工智能用例

Python库

精选 Python 人工智能、数据科学和机器学习资源合集

数据科学与人工智能代理

编码代理

深度研究代理

AI 框架（自行构建）

AI 框架（拖放式）

大语言模型提供商

开源大语言模型

LangChain 生态系统

LangGraph 扩展

Hugging Face 生态系统

向量数据库（RAG）

预训练

微调

测试与监控（可观测性）

文档解析

网页解析（HTML）与网络爬虫

智能体与工具（自建）

智能体与工具（预制）

LLM 内存

LLMOps

代码沙盒（安全）

浏览器控制代理

提示词优化

其他

R 语言库

精选的 AI、机器学习和数据科学列表

Ellmer 生态系统

mlverse

R 语言中其他流行的大语言模型接口

R 语言中的 RAG

大语言模型部署（云服务）

示例与教程

构建 AI

部署 AI

亚马逊网络服务（AWS）

微软 Azure

Google Cloud Platform (GCP)

NVIDIA

新闻通讯

课程与培训

免费培训

支付费课程

awesome-generative-ai-data-scientist 快速上手指南

环境准备

安装步骤

1. 克隆资源列表（可选）

2. 安装核心基础库

3. 安装特定领域工具（按需）

基本使用

场景一：使用 PandasAI 进行数据对话

场景二：使用 LangChain 构建简单 RAG 应用

下一步探索

版本历史

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow