podcastfy

6.2k 717 简单 1 次阅读今天Apache-2.0语言模型音频其他

AI 解读由 AI 自动生成，仅供参考

Podcastfy 是一款开源的 Python 工具，旨在将多模态内容（如文本、图片、PDF、网站链接及 YouTube 视频）转化为生动有趣的多语言音频对话。它被视为 Google NotebookLM 播客功能的开源替代方案，核心解决了用户希望将复杂资料轻松转化为可听内容，同时需要更高定制自由度和程序化控制的需求。

与主要面向研究合成且封闭的商业工具不同，Podcastfy 专注于通过代码实现个性化和规模化生成。用户不仅可以输入特定主题让 AI 自动构思对话，还能深度调整语音风格、语言种类及对话逻辑，非常适合开发者、研究人员以及希望构建自动化内容工作流的技术爱好者。当然，其提供的 Web 应用和命令行界面也让非技术背景的用户能够便捷体验。

技术亮点方面，Podcastfy 利用生成式 AI 深入理解图文信息，模拟自然的双人交谈场景，支持多种语言输出，并提供了从 Python 包、CLI 到 Docker 部署的完整生态。无论是想为艺术画作生成解说播客，还是将长篇论文转化为听力素材，Podcastfy 都能以开放、灵活的方式帮助用户高效完成创作。

使用场景

一位独立教育博主希望将复杂的学术论文和博物馆艺术品图片转化为生动的多语言播客，以吸引全球听众。

没有 podcastfy 时

内容转化门槛高：手动阅读长篇 PDF 论文或分析画作背景耗时数小时，难以快速提取核心观点并编写口语化脚本。
多语言本地化困难：若要覆盖非英语受众，需额外聘请翻译和配音员，成本高昂且沟通周期长，无法实现即时多语种发布。
形式单一缺乏吸引力：仅靠文字博客或静态图片难以在通勤等碎片化场景中留住用户，导致优质深度内容传播范围受限。
定制化程度低：依赖封闭平台的生成工具（如 NotebookLM）无法通过代码调整对话风格、语速或角色设定，难以打造独特的品牌声音。

使用 podcastfy 后

自动化内容重塑：直接输入论文 URL 或艺术品图片，podcastfy 利用 GenAI 自动解析多模态内容，瞬间生成自然流畅的双人对话脚本。
原生多语言支持：一键配置目标语言，podcastfy 即可生成地道的法语、西班牙语等音频版本，无需额外翻译流程，轻松拓展全球市场。
沉浸式听觉体验：将枯燥的学术文本转化为引人入胜的音频故事，让听众在通勤或运动时也能轻松消化深度知识，显著提升用户粘性。
高度可编程定制：作为开源 Python 库，podcastfy 允许开发者通过代码精细控制主持人性格、对话节奏及音频参数，完美契合个人品牌调性。

podcastfy 通过将多模态信息转化为可定制的多语言音频对话，彻底打破了深度内容创作的语言与形式壁垒。

运行环境要求

操作系统

未说明

GPU

非必需（支持本地运行 LLM，也支持调用 OpenAI、Anthropic 等云端 API）

内存

未说明

依赖

notes该工具主要依赖外部 API（如 OpenAI、Google、ElevenLabs 等）或本地部署的 LLM（支持 156+ HuggingFace 模型）。若选择本地运行大模型，需自行配置相应的 GPU 和显存环境；若使用云端 API，则对本地硬件无特殊要求。必须安装 ffmpeg 用于音频处理。支持通过 Docker 容器化部署。

python3.11+

ffmpeg

快速开始

Podcastfy.ai 🎙️🤖

一个开源的API，可替代NotebookLM的播客功能：利用生成式AI将多模态内容转化为引人入胜的多语言音频对话

https://github.com/user-attachments/assets/5d42c106-aabe-44c1-8498-e9c53545ba40

论文 | Python包 | 命令行工具 | Web应用 | 反馈

PyPI下载量 GitHub仓库星标数

Podcastfy是一个开源的Python库，它利用生成式AI将多模态内容（文本、图片）转化为引人入胜的多语言音频对话。输入内容包括网站、PDF文件、图片、YouTube视频以及用户提供的主题。

与主要专注于研究综述的闭源UI工具不同（例如NotebookLM ❤️），Podcastfy专注于从多种多模态来源以开源、程序化和定制化的方式生成引人入胜的对话内容，从而实现高度的灵活性和规模化生产。

用户评价 💬

“太喜欢了！你竟然随手就做了一个开源版本，而这个产品可是谷歌过去十年中最受欢迎的产品之一。”

“非常喜欢这项计划，对于非技术背景的用户来说，这绝对是目前为止最好的选择。”

“你的库非常容易上手。兄弟，你做得太棒了 🙏”

“我觉得你受到启发并意识到要超越NotebookLM的质量有多么困难，但你在这个项目上做得实在太出色了！声音效果惊人，而且还是开源的！谢谢你这么厉害！”

音频示例 🔊

本示例集是使用此Python笔记本生成的。

图片

示例1：《Senecio》，1922年（保罗·克利）和《文明的连接》，2017年（格奥尔基·维尔托苏）

Senecio, 1922 (Paul Klee) Connection of Civilizations (2017) by Gheorghe Virtosu

示例2：《神奈川冲浪里》，1831年（葛饰北斋）和《女巫泷屋与骷髅幽灵》，约1844年（歌川国芳）

The Great Wave off Kanagawa, 1831 (Hokusai) Takiyasha the Witch and the Skeleton Spectre, c. 1844 (Kuniyoshi)

示例3：流行文化偶像泰勒·斯威夫特和《蒙娜丽莎》，1503年（列奥纳多·达·芬奇）

Taylor Swift Mona Lisa

文本

音频	描述	来源
	个人网站	网站
音频 (`longform=True`)	Lex Fridman播客：与Anthropic公司CEO达里奥·阿莫迪的5小时访谈	YouTube
音频 (`longform=True`)	本杰明·富兰克林自传	书籍

多语言文本

语言	内容类型	描述	音频	来源
法语	网站	农业气候研究信息	音频	网站
葡萄牙语-巴西	新闻文章	圣保罗市选举民调	音频	网站

快速入门 💻

前置条件

Python 3.11或更高版本
$ pip install ffmpeg（用于音频处理）

安装

从PyPI安装 $ pip install podcastfy
设置您的API密钥

Python

from podcastfy.client import generate_podcast

audio_file = generate_podcast(urls=["<url1>", "<url2>"])

命令行

python -m podcastfy.client --url <url1> --url <url2>

Fastapi（针对URL的测试版）

将Podcastfy容器化并启动API
Dockerfile_api

向API发送请求，参考笔记本中的示例获取清晰的操作指南
fetch_audio(request_data, ENDPOINT, BASE_URL)

使用方法 💻

自定义 🔧

Podcastfy 提供了丰富的自定义选项，帮助您打造个性化的 AI 生成播客：

自定义播客的对话（例如格式、风格、语音等）
选择运行本地大模型（支持 156+ 种 HuggingFace 模型）
设置其他配置选项

功能 ✨

支持从多种来源和格式生成对话式内容，包括图片、文本、网站、YouTube 和 PDF。
可生成短视频（2–5 分钟）或长视频（30 分钟以上）播客。
支持自定义字幕和音频生成（如风格、语言、结构等）。
使用 100 多种大模型生成字幕（OpenAI、Anthropic、Google 等）。
利用本地大模型生成字幕，以提升隐私性和可控性。
集成先进的文本转语音模型（OpenAI、Google、ElevenLabs 和 Microsoft Edge）。
提供多语言支持，助力全球内容创作。
与命令行工具和 Python 包无缝集成，实现自动化工作流。

使用 Podcastfy 打造的应用 🚀

更新 🚀🚀

v0.4.0+ 版本

引入自然流畅的多角色 TTS 模型
支持生成短篇或长篇播客
基于输入主题，结合实时网络搜索生成播客内容
集成 100 多种大模型（OpenAI、Anthropic、Google 等）用于字幕生成

更多详情请参阅 CHANGELOG。

许可证

本软件采用 Apache 2.0 许可证授权。如果您希望在自己的软件中使用 Podcastfy，请参阅使用指南。

贡献 🤝

我们欢迎各类贡献！更多详情请参阅贡献指南。

典型应用场景 🎧🎶

内容创作者可以使用 Podcastfy 将博客文章、新闻稿或多媒体内容转换为播客形式的音频，从而触达更广泛的受众。通过将内容转化为音频形式，创作者能够满足那些更倾向于听觉而非阅读的用户需求。
教育工作者可以将讲义、演示文稿和视觉材料转化为音频对话，使教学内容更容易被不同学习方式的学生所接受。这对于视力障碍学生或难以处理书面信息的学生尤为有益。
研究人员可以将研究论文、可视化数据和技术性内容转换为对话式音频，以便更广泛的受众（包括残障人士）理解和吸收复杂的科学信息。研究人员还可以为自己的研究成果制作音频摘要，以提升内容的可访问性。
无障碍倡导者可以利用 Podcastfy 推动数字无障碍建设，提供一款将多模态内容转换为听觉形式的工具，帮助视力障碍、诵读困难或其他难以处理文字或视觉内容的人群更好地获取信息。

贡献者

↑ 返回顶部 ↑

Podcastfy 快速上手指南

Podcastfy 是一个开源 Python 工具，可利用生成式 AI 将多模态内容（文本、图片、网站、YouTube 视频、PDF 等）转换为引人入胜的多语言音频对话。它是 NotebookLM 播客功能的开源替代方案。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows
Python 版本：Python 3.11 或更高版本
前置依赖：需要安装 ffmpeg 用于音频处理。

安装 ffmpeg

Ubuntu/Debian:

sudo apt update && sudo apt install ffmpeg

macOS (使用 Homebrew):
```
brew install ffmpeg
```
Windows: 请下载并安装 ffmpeg 构建版，或将 ffmpeg 添加到系统环境变量 PATH 中。

安装步骤

推荐使用 pip 进行安装。国内用户可使用清华或阿里镜像源加速下载。

标准安装

pip install podcastfy

使用国内镜像源安装（推荐）

pip install podcastfy -i https://pypi.tuna.tsinghua.edu.cn/simple

配置 API Keys

使用前需配置大模型（LLM）和语音合成（TTS）的 API Key。您可以创建配置文件或设置环境变量。详细配置方法请参考官方文档 usage/config.md。

通常需要在项目根目录创建 .env 文件或直接在代码中传入密钥。

基本使用

Podcastfy 支持通过 Python 代码或命令行（CLI）快速生成播客。

方式一：Python 脚本

创建一个 Python 文件（例如 main.py），输入以下内容：

from podcastfy.client import generate_podcast

# 替换为您想要转换的网址列表（支持网站、YouTube 链接、PDF 链接等）
urls = ["https://www.example.com", "https://www.youtube.com/watch?v=example"]

# 生成播客音频
audio_file = generate_podcast(urls=urls)

print(f"播客已生成并保存至：{audio_file}")

运行脚本：

python main.py

方式二：命令行 (CLI)

直接在终端中使用以下命令，无需编写代码：

python -m podcastfy.client --url <url1> --url <url2>

示例：

python -m podcastfy.client --url https://github.com/souzatharsis/podcastfy --url https://www.youtube.com/watch?v=ugvHCXCOmm4

执行完成后，生成的音频文件将保存在当前目录下。

更多高级用法（如自定义对话风格、选择本地大模型、多语言设置等）请参阅官方文档中的 How-to Guide。

版本历史

v0.4.02024/11/16

v0.3.62024/11/13

v0.3.22024/11/07

v0.3.02024/11/06

v0.2.192024/11/06

v0.2.172024/10/31

v0.2.162024/10/31

v0.2.152024/10/27

v0.2.122024/10/27

v0.2.112024/10/26

v0.2.102024/10/25

v0.2.92024/10/25

v0.2.82024/10/25

v0.2.72024/10/24

v0.2.62024/10/16

v0.2.52024/10/16

v0.2.32024/10/15

v0.2.22024/10/13

v0.2.12024/10/12

v0.2.02024/10/10

常见问题

遇到 '404 models/gemini-1.5-pro-latest is not found' 错误怎么办？

如何生成超过常规时长的长篇幅播客（Long-form Podcasts）？

GPT-4o、Claude Sonnet 和 Gemini 等不同模型在生成播客时的表现有何区别？

为什么配置了 Edge TTS 的特定语音（如挪威语），生成的音频仍然是默认的美式英语？

在使用 Gemini TTS 生成长音频时遇到 'input.text is longer than the limit of 5000 bytes' 错误如何解决？

如何在配置中自定义 OpenAI 或 Edge 的默认语音角色？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|3天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|5天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|5天前

其他图像数据工具