generative-models
Generative Models 是 Stability AI 推出的开源项目,核心亮点在于最新发布的 Stable Video 4D 2.0(SV4D 2.0)。这是一个先进的视频转 4D 扩散模型,旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况,且生成的动态细节容易模糊,而 SV4D 2.0 通过改进的架构,显著提升了运动中的画面锐度与时空一致性,无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。
该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者,它提供了探索 4D 生成前沿的完整代码与训练权重;对于开发者,其支持自动回归生成长视频及低显存优化选项,便于集成与调试;对于设计师,它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面,SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角(或 5 帧对应 8 视角),分辨率达 576x576,并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频,即可通过命令行轻松启动推理,体验高质量的 4D 内容生成。
使用场景
一家电商视觉团队需要为新款运动相机制作 360 度产品展示视频,但仅有单角度拍摄的 12 帧素材。
没有 generative-models 时
- 多视角拍摄成本高昂:必须搭建专业转盘或动用多台摄像机同步拍摄,耗时耗力且难以捕捉高速运动细节。
- 手动建模效率低下:若尝试通过 3D 建模软件重建物体,不仅对美术人员技术要求极高,且无法还原真实光影与材质纹理。
- 动态一致性差:使用传统插值算法生成的新视角视频,在物体快速转动时容易出现画面撕裂、模糊或时空闪烁。
- 背景处理繁琐:真实拍摄环境中的杂乱背景难以自动剥离,导致合成视频需逐帧进行复杂的后期抠图处理。
使用 generative-models 后
- 单视频生成 4D 资产:直接输入一段白底单视角运动视频,SV4D 2.0 即可自动推理出包含 4 个不同相机视角的高保真 48 帧序列。
- 细节与动态更锐利:模型显著提升了运动过程中的清晰度,解决了以往生成视频中常见的模糊问题,确保时空高度一致。
- 抗遮挡能力增强:不再依赖首帧的多视角参考图,即使物体存在自遮挡,也能鲁棒地生成连贯的新视角画面。
- 流程自动化集成:支持结合 rembg 自动去除背景,并可通过自回归方式生成长视频,大幅简化了从素材到成品的链路。
generative-models 将原本需要数天专业制作的 4D 内容生产,缩减为分钟级的自动化推理过程,极大降低了高动态 3D 资产的创作门槛。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 官方示例指定 CUDA 11.8 (cu118)
- 显存需求取决于分辨率和模式:默认生成 576x576 分辨率视频
- 低显存环境可通过设置 `--encoding_t=1`、`--decoding_t=1` 或将分辨率降至 512 (`--img_size=512`) 来运行,建议显存 8GB 以上以获得最佳效果
未说明

快速开始
稳定人工智能的生成模型

新闻
2025年5月20日
- 我们发布了 Stable Video 4D 2.0 (SV4D 2.0),这是一款增强型视频转4D扩散模型,用于高保真新视角视频合成和4D资产生成。研究用途如下:
- SV4D 2.0 经过训练,可在给定12帧输入视频(分辨率同样为576x576)的情况下,生成48帧(12个视频帧 × 4个相机视角),理想情况下这些输入视频应由白色背景下的运动物体图像组成。
- 与我们之前的4D模型 SV4D 相比,SV4D 2.0 能够生成更高保真的视频,在运动过程中细节更加清晰,并且具有更好的时空一致性。此外,它对真实世界视频的泛化能力也显著提升。更重要的是,该模型不再依赖于SV3D生成的第一帧参考多视角信息,因此在自我遮挡情况下表现更为稳健。
- 为了生成更长的新视角视频,我们采用自回归方式每次生成12帧,并将前一次生成的帧作为后续帧的条件视图。
- 更多详情请查看我们的 项目页面、arXiv论文以及 视频摘要。
快速入门:
python scripts/sampling/simple_video_sample_4d2.py --input_path assets/sv4d_videos/camel.gif --output_folder outputs(需先从HuggingFace下载 sv4d2.safetensors 并放置于checkpoints/目录下)
要在单个21帧输入视频上运行 SV4D 2.0:
- 从 这里 下载 SV4D 2.0 模型文件 (
sv4d2.safetensors) 并存入checkpoints/:huggingface-cli download stabilityai/sv4d2.0 sv4d2.safetensors --local-dir checkpoints - 运行推理:
python scripts/sampling/simple_video_sample_4d2.py --input_path <path/to/video>input_path:输入视频<path/to/video>可以是- 单个
gif或mp4格式的视频文件,例如assets/sv4d_videos/camel.gif; - 包含视频帧图像的文件夹,格式为
.jpg、.jpeg或.png; - 或者匹配视频帧图像的文件名模式。
- 单个
num_steps:默认值为50,可适当减少以缩短采样时间。elevations_deg:指定相对于输入视角的仰角,默认为0.0(即与输入视角相同)。- 背景去除:对于背景较为简单的输入视频,可选择使用 rembg 工具去除背景并裁剪视频帧,只需设置
--remove_bg=True。若要获得高质量输出,针对背景较杂乱的真实世界视频,建议在运行SV4D之前先使用 Clipdrop 或 SAM2 对前景对象进行分割。 - 低显存环境:若GPU显存较低,可尝试将
--encoding_t=1(每次编码的帧数)和--decoding_t=1(每次解码的帧数)设置为1,或将视频分辨率降低至--img_size=512。
注:
- 我们还训练了一个8视角模型,该模型每次可生成5帧 × 8个视角(与SV4D相同)。
- 从HuggingFace下载该模型:
huggingface-cli download stabilityai/sv4d2.0 sv4d2_8views.safetensors --local-dir checkpoints - 运行推理:
python scripts/sampling/simple_video_sample_4d2.py --model_path checkpoints/sv4d2_8views.safetensors --input_path assets/sv4d_videos/chest.gif --output_folder outputs - 该5×8模型每次处理5帧输入。不过,两种模型的推理脚本默认都以21帧视频作为输入(与SV3D和SV4D一致),我们会通过自回归方式持续运行模型,直到生成21帧为止。
- 从HuggingFace下载该模型:
- 在运行前,请先安装依赖项:
python3.10 -m venv .generativemodels
source .generativemodels/bin/activate
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 检查CUDA版本
pip3 install -r requirements/pt2.txt
pip3 install .
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

2024年7月24日
- 我们发布了 Stable Video 4D (SV4D),这是一套用于新视角视频合成的视频转4D扩散模型。研究用途如下:
快速入门:python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --output_folder outputs/sv4d(需先从HuggingFace下载 sv4d.safetensors 和 sv3d_u.safetensors 并放置于 checkpoints/ 目录下)
要在单个包含 21 帧的输入视频上运行 SV4D:
从 这里 下载 SV3D 模型文件(
sv3d_u.safetensors和sv3d_p.safetensors),并从 这里 下载 SV4D 模型文件(sv4d.safetensors),存入checkpoints/目录。运行
python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video>input_path:输入视频<path/to/video>可以是- 单个
gif或mp4格式的视频文件,例如assets/sv4d_videos/test_video1.mp4,或 - 包含视频帧图像的文件夹,图像格式为
.jpg、.jpeg或.png,或 - 匹配视频帧图像的文件名模式。
- 单个
num_steps:默认值为 20,可增加至 50 以获得更高画质,但采样时间会更长。sv3d_version:要指定用于生成参考多视角的 SV3D 模型,请设置--sv3d_version=sv3d_u使用 SV3D_u,或--sv3d_version=sv3d_p使用 SV3D_p。elevations_deg:要使用 SV3D_p(默认为 SV3D_u)生成特定仰角的新视角视频,请运行python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --sv3d_version sv3d_p --elevations_deg 30.0。- 背景去除:对于背景简单的输入视频,(可选)使用 rembg 去除背景,并通过设置
--remove_bg=True裁剪视频帧。若要对带有杂乱背景的真实世界输入视频获得更高质量的输出,可在运行 SV4D 之前先使用 Clipdrop 或 SAM2 对前景对象进行分割。 - 低显存环境:若在显存较低的 GPU 上运行,可尝试将
--encoding_t=1(每次编码的帧数)和--decoding_t=1(每次解码的帧数)设置为 1,或将视频分辨率调低,例如设置为--img_size=512。

2024年3月18日
- 我们发布了用于新视角合成的研究级图像转视频模型 SV3D:
- SV3D 经过训练,可在给定一张相同尺寸的上下文帧的情况下生成 21 帧,分辨率为 576x576,理想情况下该上下文帧应为白色背景且仅包含一个物体。
- SV3D_u:此变体基于单张图像输入生成环绕式视频,无需相机条件控制。
- SV3D_p:作为 SVD3_u 的扩展,此变体既支持单张图像输入,也支持环绕视图输入,从而能够沿着指定的摄像机路径创建 3D 视频。
- 我们扩展了 Streamlit 演示程序
scripts/demo/video_sampling.py和独立 Python 脚本scripts/sampling/simple_video_sample.py以用于两种模型的推理。 - 更多详情请参阅我们的 项目页面、技术报告 和 视频摘要。
要在单张图片上运行 SV3D_u:
- 从 https://huggingface.co/stabilityai/sv3d 下载
sv3d_u.safetensors,存入checkpoints/sv3d_u.safetensors。 - 运行
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_u。
要在单张图片上运行 SV3D_p:
- 从 https://huggingface.co/stabilityai/sv3d 下载
sv3d_p.safetensors,存入checkpoints/sv3d_p.safetensors。
- 生成指定仰角的静态环绕视频,例如 10.0 度:
python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg 10.0。 - 生成指定仰角和方位角的动态环绕视频:将 21 个仰角(以度为单位)按顺序填入
elevations_deg(范围为 [-90, 90]),并将 21 个方位角(以度为单位)按顺序填入azimuths_deg(范围为 [0, 360])。例如:python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg [<21个仰角列表>] --azimuths_deg [<21个方位角列表>]。
要在 Streamlit 服务器上运行 SVD 或 SV3D:
streamlit run scripts/demo/video_sampling.py

2023年11月28日
我们发布了超快速文本转图像模型 SDXL-Turbo。 伴随该模型发布了一份 技术报告。
- 使用方法:
- 按照安装说明操作,或使用
pip install streamlit-keyup更新现有环境。 - 下载 权重,并将其放置在
checkpoints/目录中。 - 运行
streamlit run scripts/demo/turbo.py。
- 按照安装说明操作,或使用

- 使用方法:
2023年11月21日
我们发布了用于研究目的的图像转视频模型 Stable Video Diffusion:
- SVD:该模型经过训练,可在给定一张相同尺寸的上下文帧的情况下生成 14 帧,分辨率为 576x1024。 我们使用 SD 2.1 的标准图像编码器,但用具备时间感知能力的“防闪烁解码器”替换了原有的解码器。
- SVD-XT:与
SVD具有相同的架构,但经过微调后可生成 25 帧。 - 您可以通过运行
python -m scripts.demo.gradio_app在本地运行社区构建的 Gradio 演示。 - 我们提供了 Streamlit 演示
scripts/demo/video_sampling.py和独立 Python 脚本scripts/sampling/simple_video_sample.py用于两种模型的推理。 - 伴随该模型发布了一篇 技术报告。

2023年7月26日
- 我们发布了两款新的开放模型,采用宽松的
CreativeML Open RAIL++-M许可证(有关文件哈希值,请参阅 推理 部分):- SDXL-base-1.0:这是对
SDXL-base-0.9的改进版本。 - SDXL-refiner-1.0:这是对
SDXL-refiner-0.9的改进版本。
- SDXL-base-1.0:这是对

2023年7月4日
- 关于 SDXL 的技术报告现已发布 此处。
2023年6月22日
- 我们发布了两款用于研究的新扩散模型:
SDXL-base-0.9:基础模型在分辨率为1024^2、多种宽高比的图像上进行训练。该基础模型使用OpenCLIP-ViT/G 和CLIP-ViT/L进行文本编码,而精炼模型仅使用OpenCLIP模型。SDXL-refiner-0.9:精炼模型经过训练,能够去除高质量数据中的少量噪声,因此不建议将其用作文生图模型;相反,它应仅作为图生图模型使用。
如果您希望为研究目的访问这些模型,请通过以下链接之一申请: SDXL-0.9-基础模型, 以及 SDXL-0.9-精炼模型。 这意味着您可以申请其中任一链接,一旦获批,即可同时访问两个模型。 请使用您的组织邮箱登录Hugging Face账户以请求访问权限。 我们计划于近期(7月)进行全面发布。
代码库
总体理念
模块化至上。本仓库采用配置驱动的方法,通过调用yaml配置文件中定义的对象上的instantiate_from_config()来构建和组合子模块。详细示例请参见configs/目录。
与旧版ldm代码库的变更日志
在训练方面,我们使用PyTorch Lightning,但也可以轻松地将其他训练框架应用于基础模块。核心扩散模型类(原名为LatentDiffusion,现为DiffusionEngine)已得到优化:
- 不再进行复杂的子类化!我们现在在一个类中处理所有类型的条件输入(向量、序列和空间条件,以及它们的各种组合):
GeneralConditioner, 见sgm/modules/encoders/modules.py。 - 我们将引导器(如无分类器指导,见
sgm/modules/diffusionmodules/guiders.py)与采样器(sgm/modules/diffusionmodules/sampling.py)分离,且采样器与模型无关。 - 我们采用了“去噪器框架”(arXiv:2206.00364),用于训练和推理(最显著的变化可能是现在可以选择训练连续时间模型):
- 离散时间模型(去噪器)只是连续时间模型(去噪器)的一种特例;
见
sgm/modules/diffusionmodules/denoiser.py。 - 以下功能现已独立:扩散损失函数的加权(
sgm/modules/diffusionmodules/denoiser_weighting.py)、网络的预处理(sgm/modules/diffusionmodules/denoiser_scaling.py)以及训练过程中噪声水平的采样(sgm/modules/diffusionmodules/sigma_sampling.py)。
- 离散时间模型(去噪器)只是连续时间模型(去噪器)的一种特例;
见
- 自编码模型也得到了清理。
安装:
1. 克隆仓库
git clone https://github.com/Stability-AI/generative-models.git
cd generative-models
2. 设置虚拟环境
假设您已在克隆后导航到generative-models根目录。
注意: 本环境已在python3.10下测试通过。对于其他Python版本,可能会遇到版本冲突。
PyTorch 2.0
# 从pypi安装所需包
python3 -m venv .pt2
source .pt2/bin/activate
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip3 install -r requirements/pt2.txt
3. 安装sgm
pip3 install .
4. 安装sdata以用于训练
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata
打包
本仓库使用符合PEP 517标准的打包方式,并借助Hatch工具。
要构建可分发的wheel包,需先安装hatch,然后运行hatch build
(指定-t wheel会跳过sdist的构建,这并非必需)。
pip install hatch
hatch build -t wheel
构建好的包将位于dist/目录中。您可以使用pip install dist/*.whl来安装该wheel包。
请注意,当前该包并未指定依赖项;您需要根据具体用途及PyTorch版本,手动安装所需的软件包。
推理
我们在scripts/demo/sampling.py中提供了一个基于Streamlit的文生图和图生图采样演示。
我们提供了完整文件以及文件中保存张量部分的哈希值(有关评估脚本,请参阅Model Spec)。
目前支持以下模型:
- SDXL-base-1.0
文件哈希(sha256):31e35c80fc4829d14f90153f4c74cd59c90b779f6afe05a74cd6120b893f7e5b 张量数据哈希(sha256):0xd7a9105a900fd52748f20725fe52fe52b507fd36bee4fc107b1550a26e6ee1d7 - SDXL-refiner-1.0
文件哈希(sha256):7440042bbdc8a24813002c09b6b69b64dc90fded4472613437b7f55f9b7d9c5f 张量数据哈希(sha256):0x1a77d21bebc4b4de78c474a90cb74dc0d2217caf4061971dbfa75ad406b75d81 - SDXL-base-0.9
- SDXL-refiner-0.9
SDXL权重:
SDXL-1.0: SDXL-1.0的权重可通过CreativeML Open RAIL++-M许可协议获取,具体如下:
- 基础模型:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/
- 精炼模型:https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/
SDXL-0.9: SDXL-0.9的权重可通过研究许可协议获取。如果您希望为研究目的访问这些模型,请通过以下链接之一申请: SDXL-base-0.9模型, 以及 SDXL-refiner-0.9。 这意味着您可以申请任一链接,一旦获批,即可同时访问两个模型。请使用您的组织邮箱登录Hugging Face账户以请求访问权限。
获取权重后,请将其放置于checkpoints/目录中。随后,启动演示程序:
streamlit run scripts/demo/sampling.py --server.port <your_port>
无形水印检测
使用我们的代码生成的图像会利用 invisible-watermark 库,在模型输出中嵌入一个无形水印。我们还提供了一个脚本,可以方便地检测该水印。请注意,此水印与先前的 Stable Diffusion 1.x/2.x 版本中的水印并不相同。
要运行该脚本,您需要按照上述方式安装好相关依赖,或者尝试仅使用最少数量的包进行一项_实验性_导入:
python -m venv .detect
source .detect/bin/activate
pip install "numpy>=1.17" "PyWavelets>=1.1.1" "opencv-python>=4.1.0.25"
pip install --no-deps invisible-watermark
要运行脚本,您需要先按照上述方法完成安装。之后可以通过以下方式使用该脚本(请务必提前激活您的虚拟环境,例如 source .pt1/bin/activate):
# 测试单个文件
python scripts/demo/detect.py <您的文件名>
# 同时测试多个文件
python scripts/demo/detect.py <文件1> <文件2> ... <文件n>
# 测试特定文件夹中的所有文件
python scripts/demo/detect.py <您的文件夹名>/*
训练:
我们在 configs/example_training 中提供了示例训练配置。要启动训练,请运行以下命令:
python main.py --base configs/<config1.yaml> configs/<config2.yaml>
其中配置文件将从左到右依次合并(后面的配置会覆盖前面相同的值)。这可用于组合模型、训练和数据配置。不过,也可以将所有内容定义在一个单独的配置文件中。例如,要在 MNIST 数据集上运行基于像素的条件扩散模型训练,可执行以下命令:
python main.py --base configs/example_training/toy/mnist_cond.yaml
注1: 使用非玩具数据集的配置文件 configs/example_training/imagenet-f8_cond.yaml、configs/example_training/txt2img-clipl.yaml 和 configs/example_training/txt2img-clipl-legacy-ucg-training.yaml 进行训练时,需根据所用数据集进行相应修改(预计数据将以 tar 文件形式存储在 webdataset 格式 中)。要找到需要调整的部分,请在相应配置文件中搜索包含 USER: 的注释。
注2: 本仓库同时支持 pytorch1.13 和 pytorch2 用于生成模型的训练。然而,对于自编码器训练,例如在 configs/example_training/autoencoder/kl-f4/imagenet-attnfree-logvar.yaml 中所示,仅支持 pytorch1.13。
注3: 训练潜在空间生成模型(如 configs/example_training/imagenet-f8_cond.yaml 所示)需要从 Hugging Face 获取检查点,并替换 此行 中的 CKPT_PATH 占位符。文本到图像的相关配置也需要进行同样的操作。
构建新的扩散模型
条件器
GeneralConditioner 通过 conditioner_config 进行配置。其唯一属性是 emb_models,即一个由不同嵌入器组成的列表(均继承自 AbstractEmbModel),用于对生成模型进行条件化。所有嵌入器都应定义是否可训练(is_trainable,默认为 False)、是否使用无分类器指导的丢弃率(ucg_rate,默认为 0),以及输入键(input_key),例如用于文本条件化的 txt 或用于类别条件化的 cls。在计算条件时,嵌入器会以 batch[input_key] 作为输入。我们目前支持二维至四维的条件,并会适当地将不同嵌入器的条件拼接在一起。请注意,conditioner_config 中嵌入器的顺序非常重要。
网络
神经网络通过 network_config 进行设置。过去这一部分被称为 unet_config,但不够通用,因为我们计划尝试基于 Transformer 的扩散骨干网络。
损失
损失函数通过 loss_config 进行配置。对于标准的扩散模型训练,您需要设置 sigma_sampler_config。
采样器配置
如上所述,采样器与模型无关。在 sampler_config 中,我们会设置数值求解器类型、步数、离散化方式,以及例如用于无分类器指导的引导包装器等参数。
数据集处理
对于大规模训练,我们建议使用来自我们 datapipelines 项目的数据管道。该项目已包含在依赖项中,并在遵循安装部分步骤时自动引入。小型映射风格的数据集应在本仓库中定义(例如 MNIST、CIFAR-10 等),并返回一个包含数据键值的字典,例如:
example = {"jpg": x, # 这是一个 -1...1 范围内的 chw 格式张量
"txt": "一张美丽的图片"}
我们期望图像以 -1 到 1 的范围、通道优先的格式提供。
版本历史
0.1.02023/07/270.0.12023/06/22常见问题
相似工具推荐
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。