CogVideo
CogVideo 是由智谱 AI 与清华大学联合开源的视频生成模型系列,涵盖早期的 CogVideo 及最新的 CogVideoX 和 CogVideoX1.5。它核心解决了从文本描述或静态图片高质量生成动态视频的技术难题,支持文生视频、图生视频及视频续写等多种任务,让创意内容制作变得更加直观高效。
无论是希望快速验证想法的普通用户、需要定制视觉素材的设计师,还是致力于多模态研究的开发者与科研人员,都能从中获益。普通用户可通过 Hugging Face 等平台在线体验;开发者和研究人员则能利用其开放的代码库,在单张消费级显卡上进行微调,甚至探索更复杂的商业应用。
技术层面,CogVideoX1.5 显著提升了生成能力,支持长达 10 秒的高分辨率视频输出,并实现了任意分辨率的图生视频功能。项目不仅提供了基于 SAT 和 Diffusers 的多种推理框架,还持续更新如 LoRA 低显存微调、DDIM 逆向等先进特性。此外,配套开源的 CogVLM2-Caption 模型进一步优化了训练数据的质量。凭借灵活的架构设计与活跃的社区支持,CogVideo 正成为连接创意与动态视觉表现的重要桥梁。
使用场景
一家小型独立游戏工作室正在为新品宣传制作动态概念预告片,需要快速将静态原画转化为流畅的视频素材以验证视觉风格。
没有 CogVideo 时
- 美术团队必须手动逐帧绘制或使用昂贵的商业渲染农场,制作一段 5 秒的视频往往耗时数天甚至数周。
- 若需修改镜头运动或角色动作,必须重新调整复杂的 3D 绑定或重绘大量关键帧,迭代成本极高。
- 难以在保证分辨率的前提下实现“图生视频”的精准控制,静态原画动起来后常出现人物崩坏或背景扭曲。
- 缺乏低成本微调能力,无法让生成的视频风格与游戏独特的美术设定(如像素风或水墨风)保持高度一致。
使用 CogVideo 后
- 利用 CogVideoX1.5-5B-I2V 模型,直接上传静态原画并输入提示词,几分钟内即可生成高分辨率、长达 10 秒的流畅视频。
- 通过调整提示词或启用 DDIM Inverse 功能,可快速修正动作细节或延续视频片段,无需从头开始制作,大幅加速创意验证。
- 依托其强大的图像到视频生成能力,完美保留原画的角色特征与背景细节,显著减少了画面闪烁和结构变形问题。
- 借助基于 Diffusers 的 LoRA 微调框架,仅需单张 4090 显卡即可低成本训练专属风格模型,让输出内容完美契合游戏美术规范。
CogVideo 将视频创作门槛从专业动画制作降低至提示词工程,让小型团队也能以极低算力成本实现高质量的动态视觉表达。
运行环境要求
- 未说明
- 需要 NVIDIA GPU
- CogVideoX-2B 可在 GTX 1080TI 运行
- CogVideoX-5B 可在 RTX 3060 运行
- 单卡微调框架支持 RTX 4090
- 显存需求取决于模型和精度,量化推理可降低显存占用
未说明

快速开始
CogVideo & CogVideoX
在线体验 CogVideoX-5B 模型,请访问 🤗 Huggingface Space 或 🤖 ModelScope Space
📍 访问 QingYing 和 API 平台, 体验更大规模的商用视频生成模型。
项目更新
- 🔥🔥 新闻:
2025/03/24: 我们推出了 CogKit, 这是一个针对 CogView4 和 CogVideoX 系列的微调与推理框架。该工具包使您能够充分探索和利用我们的多模态生成模型。 - 🔥 新闻:
2025/02/28:CogVideoX-5B和CogVideoX1.5-5B现已支持 DDIM 反演。请查看 此处。 - 🔥 新闻:
2025/01/08: 我们基于diffusers版本的模型更新了Lora微调代码,该版本占用更少的显存。更多详情请参见 这里。 - 🔥 新闻:
2024/11/15: 我们发布了diffusers版本的CogVideoX1.5模型。只需对参数进行少量调整,即可继续使用之前的代码。 - 🔥 新闻:
2024/11/08: 我们发布了 CogVideoX1.5 模型。CogVideoX1.5 是开源模型 CogVideoX 的升级版。 CogVideoX1.5-5B 系列支持更高分辨率的 10 秒视频,而 CogVideoX1.5-5B-I2V 则支持任意分辨率的视频生成。 SAT 版本的代码已经更新,而 diffusers 版本仍在适配中。您可以从 这里 下载 SAT 版本的代码。 - 🔥 新闻:
2024/10/13: 针对CogVideoX-5B推出了一种更经济高效的微调框架cogvideox-factory(https://github.com/a-r-r-o-w/cogvideox-factory),仅需一张 4090 显卡即可运行。该框架支持多种分辨率的微调。欢迎试用! - 🔥 新闻:
2024/10/10: 我们更新了技术报告。请点击 这里 查看。报告中新增了更多训练细节和演示内容。如需观看演示,请访问 这里。 - 🔥 新闻:
2024/10/09: 我们在飞书上公开了 CogVideoX 微调的 技术文档,进一步提升了分发的灵活性。文档中的所有示例均可完全复现。 - 🔥 新闻:
2024/9/19: 我们开源了 CogVideoX 系列的图像转视频模型 CogVideoX-5B-I2V。该模型可以以图片作为背景输入,并结合提示词生成视频,具有更高的可控性。至此,CogVideoX 系列模型已支持三项任务:文本转视频、视频续写以及图像转视频。欢迎您前往 Experience 在线体验。 - 🔥
2024/9/19: 用于 CogVideoX 训练过程中将视频数据转换为文本描述的字幕模型 CogVLM2-Caption 已开源。欢迎下载并使用。 - 🔥
2024/8/27: 我们开源了 CogVideoX 系列中更大的模型 CogVideoX-5B。我们显著优化了模型的推理性能,大大降低了推理门槛。 您可以在较旧的 GPU 上运行 CogVideoX-2B(如 GTX 1080TI),而在桌面级 GPU 上运行 CogVideoX-5B(如 RTX 3060)。请严格按照 requirements.txt 中的要求更新和安装依赖项,并参考 cli_demo 获取推理代码。此外,CogVideoX-2B 模型的开源许可证已变更为 Apache 2.0 许可证。 - 🔥
2024/8/6: 我们开源了用于 CogVideoX-2B 的 3D 因果 VAE,该模型几乎无损地重建视频。 - 🔥
2024/8/6: 我们开源了 CogVideoX 系列视频生成模型中的首款模型 CogVideoX-2B。 - 🌱 来源:
2022/5/19: 我们开源了 CogVideo 视频生成模型(现在您可以在CogVideo分支中找到它)。这是首个开源的大规模基于 Transformer 的文本到视频生成模型。您可以通过 ICLR'23 论文 查阅相关技术细节。
目录
跳转至特定章节:
快速入门
提示优化
在运行模型之前,请参考 此指南 了解我们如何使用大型模型(如 GLM-4,或其他类似产品,例如 GPT-4)来优化提示。这一点至关重要,因为该模型是使用长提示进行训练的,优质的提示会直接影响视频生成的质量。
SAT
请确保您的 Python 版本介于 3.10 和 3.12 之间,包括 3.10 和 3.12。
请按照 sat_demo 中的说明操作:其中包含 SAT 权重的推理代码和微调代码。建议基于 CogVideoX 的模型结构进行改进。创新研究人员可使用此代码更高效地进行快速堆叠和开发。
扩散模型
请确保您的 Python 版本介于 3.10 和 3.12 之间,包括 3.10 和 3.12。
pip install -r requirements.txt
然后按照 diffusers_demo 的说明操作:其中对推理代码进行了更详细的解释,并提及了常见参数的重要意义。
如需了解更多关于量化推理的细节,请参阅 diffusers-torchao。借助 Diffusers 和 TorchAO,不仅可以实现量化推理以节省显存,而且在某些情况下经过编译后还能提升速度。关于 A100 和 H100 上不同设置下的完整内存和时间基准测试结果已发布在 diffusers-torchao 中。
作品集
CogVideoX-5B
CogVideoX-2B
如需查看作品集中每段视频对应的提示词,请点击 这里。
模型介绍
CogVideoX 是源自 QingYing 的视频生成模型的开源版本。下表展示了我们目前提供的视频生成模型列表及其基础信息。
| 模型名称 | CogVideoX1.5-5B(最新) | CogVideoX1.5-5B-I2V(最新) | CogVideoX-2B | CogVideoX-5B | CogVideoX-5B-I2V |
|---|---|---|---|---|---|
| 发布日期 | 2024年11月8日 | 2024年11月8日 | 2024年8月6日 | 2024年8月27日 | 2024年9月19日 |
| 视频分辨率 | 1360 * 768 | Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0 |
720 * 480 | ||
| 帧数 | 应为16N + 1,其中N ≤ 10(默认81) | 应为8N + 1,其中N ≤ 6(默认49) | |||
| 推理精度 | BF16(推荐), FP16、FP32、FP8*、INT8,不支持:INT4 | FP16*(推荐), BF16、FP32、FP8*、INT8,不支持:INT4 | BF16(推荐), FP16、FP32、FP8*、INT8,不支持:INT4 | ||
| 单GPU显存占用 |
SAT BF16:76GB diffusers BF16:从10GB*开始 diffusers INT8(torchao):从7GB*开始 |
SAT FP16:18GB diffusers FP16:最低4GB* diffusers INT8(torchao):最低3.6GB* |
SAT BF16:26GB diffusers BF16:最低5GB* diffusers INT8(torchao):最低4.4GB* |
||
| 多GPU显存占用 | BF16:使用diffusers时为24GB* |
FP16:使用diffusers时为10GB* |
BF16:使用diffusers时为15GB* |
||
| 推理速度 (步数=50,FP/BF16) |
单张A100:约1000秒(5秒视频) 单张H100:约550秒(5秒视频) |
单张A100:约90秒 单张H100:约45秒 |
单张A100:约180秒 单张H100:约90秒 |
||
| 提示语语言 | 英语* | ||||
| 提示语Token限制 | 224个Token | 226个Token | |||
| 视频长度 | 5秒或10秒 | 6秒 | |||
| 帧率 | 16帧/秒 | 8帧/秒 | |||
| 位置编码 | 3d_rope_pos_embed | 3d_sincos_pos_embed | 3d_rope_pos_embed | 3d_rope_pos_embed + learnable_pos_embed | |
| 下载链接(Diffusers) | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
| 下载链接(SAT) | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
SAT | |||
数据说明
- 在使用diffusers库进行测试时,已启用diffusers库中包含的所有优化。此方案尚未在NVIDIA A100 / H100架构以外的设备上测试实际显存占用情况。 通常,该方案可适配所有NVIDIA Ampere架构及以上设备。若禁用优化,显存消耗将显著增加,峰值显存占用约为表格中数值的3倍。 然而,推理速度将提升约3至4倍。您可以选择性地禁用部分优化,包括:
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
- 对于多GPU推理,需要禁用
enable_sequential_cpu_offload()优化。 - 使用INT8模型会降低推理速度,这是为了在保持视频质量损失最小的情况下,适应显存较小的GPU而采取的措施,尽管如此,推理速度会显著下降。
- CogVideoX-2B模型以
FP16精度训练,所有CogVideoX-5B模型则以BF16精度训练。我们建议在推理时使用与模型训练时相同的精度。 - 可以使用PytorchAO和Optimum-quanto将文本编码器、Transformer和VAE模块量化,从而降低CogVideoX的显存需求。这样可以让模型在免费的T4 Colab或显存较小的GPU上运行!此外,请注意,TorchAO量化与
torch.compile完全兼容,可以显著提升推理速度。在配备NVIDIA H100及以上显卡的设备上必须使用FP8精度,这需要从源码安装torch和torchaoPython包。推荐使用CUDA 12.4。 - 推理速度测试也采用了上述显存优化方案。如果不进行显存优化,推理速度大约会提高10%。只有
diffusers版本的模型支持量化。 - 该模型仅支持英文输入;其他语言可以通过大模型微调翻译成英文后使用。
友情链接
我们非常欢迎社区贡献,并积极回馈开源社区。以下项目已经适配了CogVideoX,欢迎大家使用:
- LeMiCa:由中国联通数据科学与人工智能研究院开发的扩散模型推理加速方案。通过基于缓存的技术和全局去噪路径优化,LeMiCa为CogVideoX提供了高效的推理支持,在保持视觉一致性和质量的同时,实现了近2.5倍的无损加速。
- RIFLEx-CogVideoX:RIFLEx只需一行代码即可扩展视频长度:
freq[k-1]=(2np.pi)/(Ls)。该框架不仅支持免训练推理,还提供了基于CogVideoX微调的模型。通过对原始长度视频仅进行1,000步微调,RIFLEx显著提升了长视频外推能力。 - CogVideoX-Fun:CogVideoX-Fun是在CogVideoX架构基础上修改的流水线,支持灵活的分辨率和多种启动方式。
- CogStudio:CogVideo的Gradio Web UI独立仓库,支持更多功能丰富的Web界面。
- Xorbits Inference:一个强大且全面的分布式推理框架,只需点击一下即可轻松部署您自己的模型或最新的前沿开源模型。
- ComfyUI-CogVideoXWrapper:使用ComfyUI框架将CogVideoX集成到您的工作流中。
- VideoSys:VideoSys为视频生成提供了一个用户友好、高性能的基础设施,支持完整的流水线,并持续集成最新的模型和技术。
- AutoDL Space:由社区成员提供的Huggingface Space一键部署镜像。
- 室内设计微调模型:基于CogVideoX的微调模型,专为室内设计场景打造。
- xDiT:xDiT是一个可扩展的扩散Transformer(DiT)推理引擎,可在多个GPU集群上运行。xDiT支持实时图像和视频生成服务。
- cogvideox-factory:一个经济高效的CogVideoX微调框架,兼容
diffusers版本模型。支持更多分辨率,使用单张4090 GPU即可完成CogVideoX-5B的微调。 - CogVideoX-Interpolation:基于修改后的CogVideoX结构的流水线,旨在为关键帧插值生成提供更多灵活性。
- DiffSynth-Studio:DiffSynth Studio是一个扩散引擎,重新构建了包括文本编码器、UNet、VAE等在内的架构,在保持与开源社区模型兼容性的同时提升了计算性能。该框架已适配CogVideoX。
- CogVideoX-Controlnet:一个简单的包含CogVideoX模型的ControlNet模块代码。
- VideoTuna:VideoTuna是首个整合多种AI视频生成模型的仓库,支持文生视频、图生视频及文生图等功能。
- ConsisID:一种保留身份特征的文生视频生成模型,基于CogVideoX-5B,通过频率分解技术在生成的视频中保持面部一致性。
- 逐步教程:关于在Windows和云环境中安装并优化CogVideoX1.5-5B-I2V模型的分步指南。特别感谢FurkanGozukara的付出与支持!
项目结构
本开源仓库将引导开发者快速上手CogVideoX开源模型的基本用法及微调示例。
Colab快速入门
这里提供三个可以直接在免费Colab T4实例上运行的项目:
- CogVideoX-5B-T2V-Colab.ipynb:CogVideoX-5B文生视频Colab代码。
- CogVideoX-5B-T2V-Int8-Colab.ipynb:CogVideoX-5B量化文生视频推理Colab代码,每次运行大约需要30分钟。
- CogVideoX-5B-I2V-Colab.ipynb:CogVideoX-5B图生视频Colab代码。
- CogVideoX-5B-V2V-Colab.ipynb:CogVideoX-5B视频转视频Colab代码。
推理
- dcli_demo:更详细的推理代码说明,包括常见参数的意义。所有内容均在此处介绍。
- cli_demo_quantization: 量化模型推理代码,可在内存较低的设备上运行。您也可以修改此代码以支持以 FP8 精度运行 CogVideoX 模型。
- diffusers_vae_demo:用于单独运行 VAE 推理的代码。
- space demo:与 Huggingface Space 中使用的相同 GUI 代码,集成了帧插值和超分辨率工具。
- convert_demo:如何将用户输入转换为适合 CogVideoX 的长文本输入。由于 CogVideoX 是基于长文本训练的,我们需要使用大语言模型将输入文本分布调整为与训练数据一致。该脚本默认使用 GLM-4,但也可以替换为 GPT、Gemini 或其他大型语言模型。
- gradio_web_demo:一个简单的 Gradio Web 应用程序,演示如何使用 CogVideoX-2B / 5B 模型生成视频。与我们的 Huggingface Space 类似,您可以使用此脚本运行一个简单的视频生成 Web 应用程序。
微调
- finetune_demo:CogVideoX 模型 diffusers 版本的微调方案及详细信息。
SAT
- sat_demo:包含 SAT 权重的推理代码和微调代码。建议在 CogVideoX 模型结构的基础上进行改进。创新研究人员可利用此代码更好地进行快速堆叠和开发。
工具
该文件夹包含一些用于模型转换、字幕生成等的工具。
- convert_weight_sat2hf:将 SAT 模型权重转换为 Huggingface 模型权重。
- caption_demo:字幕工具,一种能够理解视频并输出文字描述的模型。
- export_sat_lora_weight:SAT 微调模型导出工具,以 diffusers 格式导出 SAT Lora Adapter。
- load_cogvideox_lora:用于加载微调后的 diffusers 版本 Lora Adapter 的工具代码。
- llm_flux_cogvideox:使用开源本地大语言模型 + Flux + CogVideoX 自动生成视频。
- parallel_inference_xdit: 基于 xDiT,可在多块 GPU 上并行化视频生成过程。
CogVideo(ICLR'23)
论文的官方仓库:CogVideo:通过 Transformer 进行文本到视频生成的大规模预训练 位于 CogVideo 分支
CogVideo 能够生成相对高帧率的视频。 下面展示了一段 4 秒、32 帧的视频片段。


CogVideo 的演示地址为 https://models.aminer.cn/cogvideo,您可以在那里亲身体验文本到视频的生成。原始输入为中文。
引用
🌟 如果您觉得我们的工作有帮助,请为我们点亮星标并引用我们的论文。
@article{yang2024cogvideox,
title={CogVideoX:具有专家级 Transformer 的文本到视频扩散模型},
author={Yang, Zhuoyi 和 Teng, Jiayan 和 Zheng, Wendi 和 Ding, Ming 和 Huang, Shiyu 和 Xu, Jiazheng 和 Yang, Yuanming 和 Hong, Wenyi 和 Zhang, Xiaohan 和 Feng, Guanyu 等},
journal={arXiv 预印本 arXiv:2408.06072},
year={2024}
}
@article{hong2022cogvideo,
title={CogVideo:通过 Transformer 进行文本到视频生成的大规模预训练},
author={Hong, Wenyi 和 Ding, Ming 和 Zheng, Wendi 和 Liu, Xinghan 和 Tang, Jie},
journal={arXiv 预印本 arXiv:2205.15868},
year={2022}
}
模型许可
本仓库中的代码采用 Apache 2.0 许可证 发布。
CogVideoX-2B 模型(包括其对应的 Transformer 模块和 VAE 模块)采用 Apache 2.0 许可证 发布。
CogVideoX-5B 模型(Transformer 模块,包括 I2V 和 T2V)采用 CogVideoX 许可证 发布。
版本历史
v1.02024/11/08常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备