generative-models

GitHub
27.1k 3.1k 较难 3 次阅读 今天MIT视频其他
AI 解读 由 AI 自动生成,仅供参考

Generative Models 是 Stability AI 推出的开源项目,核心亮点在于最新发布的 Stable Video 4D 2.0(SV4D 2.0)。这是一个先进的视频转 4D 扩散模型,旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况,且生成的动态细节容易模糊,而 SV4D 2.0 通过改进的架构,显著提升了运动中的画面锐度与时空一致性,无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。

该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者,它提供了探索 4D 生成前沿的完整代码与训练权重;对于开发者,其支持自动回归生成长视频及低显存优化选项,便于集成与调试;对于设计师,它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面,SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角(或 5 帧对应 8 视角),分辨率达 576x576,并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频,即可通过命令行轻松启动推理,体验高质量的 4D 内容生成。

使用场景

一家电商视觉团队需要为新款运动相机制作 360 度产品展示视频,但仅有单角度拍摄的 12 帧素材。

没有 generative-models 时

  • 多视角拍摄成本高昂:必须搭建专业转盘或动用多台摄像机同步拍摄,耗时耗力且难以捕捉高速运动细节。
  • 手动建模效率低下:若尝试通过 3D 建模软件重建物体,不仅对美术人员技术要求极高,且无法还原真实光影与材质纹理。
  • 动态一致性差:使用传统插值算法生成的新视角视频,在物体快速转动时容易出现画面撕裂、模糊或时空闪烁。
  • 背景处理繁琐:真实拍摄环境中的杂乱背景难以自动剥离,导致合成视频需逐帧进行复杂的后期抠图处理。

使用 generative-models 后

  • 单视频生成 4D 资产:直接输入一段白底单视角运动视频,SV4D 2.0 即可自动推理出包含 4 个不同相机视角的高保真 48 帧序列。
  • 细节与动态更锐利:模型显著提升了运动过程中的清晰度,解决了以往生成视频中常见的模糊问题,确保时空高度一致。
  • 抗遮挡能力增强:不再依赖首帧的多视角参考图,即使物体存在自遮挡,也能鲁棒地生成连贯的新视角画面。
  • 流程自动化集成:支持结合 rembg 自动去除背景,并可通过自回归方式生成长视频,大幅简化了从素材到成品的链路。

generative-models 将原本需要数天专业制作的 4D 内容生产,缩减为分钟级的自动化推理过程,极大降低了高动态 3D 资产的创作门槛。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 官方示例指定 CUDA 11.8 (cu118)
  • 显存需求取决于分辨率和模式:默认生成 576x576 分辨率视频
  • 低显存环境可通过设置 `--encoding_t=1`、`--decoding_t=1` 或将分辨率降至 512 (`--img_size=512`) 来运行,建议显存 8GB 以上以获得最佳效果
内存

未说明

依赖
notes1. 安装需先创建 Python 3.10 虚拟环境。2. 必须手动从 HuggingFace 下载模型权重文件(如 sv4d2.safetensors, sv3d_u.safetensors 等)至 checkpoints 目录。3. 对于背景复杂的真实世界视频,建议预先使用 rembg、Clipdrop 或 SAM2 进行前景分割以提升生成质量。4. 项目依赖一个特定的外部数据管道库 (sdata),需通过 git 地址安装。
python3.10
torch
torchvision
torchaudio
sdata (Stability-AI/datapipelines)
generative-models hero image

快速开始

稳定人工智能的生成模型

sample1

新闻

2025年5月20日

  • 我们发布了 Stable Video 4D 2.0 (SV4D 2.0),这是一款增强型视频转4D扩散模型,用于高保真新视角视频合成和4D资产生成。研究用途如下:
    • SV4D 2.0 经过训练,可在给定12帧输入视频(分辨率同样为576x576)的情况下,生成48帧(12个视频帧 × 4个相机视角),理想情况下这些输入视频应由白色背景下的运动物体图像组成。
    • 与我们之前的4D模型 SV4D 相比,SV4D 2.0 能够生成更高保真的视频,在运动过程中细节更加清晰,并且具有更好的时空一致性。此外,它对真实世界视频的泛化能力也显著提升。更重要的是,该模型不再依赖于SV3D生成的第一帧参考多视角信息,因此在自我遮挡情况下表现更为稳健。
    • 为了生成更长的新视角视频,我们采用自回归方式每次生成12帧,并将前一次生成的帧作为后续帧的条件视图。
    • 更多详情请查看我们的 项目页面arXiv论文以及 视频摘要

快速入门

  • python scripts/sampling/simple_video_sample_4d2.py --input_path assets/sv4d_videos/camel.gif --output_folder outputs(需先从HuggingFace下载 sv4d2.safetensors 并放置于 checkpoints/ 目录下)

要在单个21帧输入视频上运行 SV4D 2.0

  • 这里 下载 SV4D 2.0 模型文件 (sv4d2.safetensors) 并存入 checkpoints/huggingface-cli download stabilityai/sv4d2.0 sv4d2.safetensors --local-dir checkpoints
  • 运行推理:python scripts/sampling/simple_video_sample_4d2.py --input_path <path/to/video>
    • input_path:输入视频 <path/to/video> 可以是
      • 单个 gifmp4 格式的视频文件,例如 assets/sv4d_videos/camel.gif
      • 包含视频帧图像的文件夹,格式为 .jpg.jpeg.png
      • 或者匹配视频帧图像的文件名模式。
    • num_steps:默认值为50,可适当减少以缩短采样时间。
    • elevations_deg:指定相对于输入视角的仰角,默认为0.0(即与输入视角相同)。
    • 背景去除:对于背景较为简单的输入视频,可选择使用 rembg 工具去除背景并裁剪视频帧,只需设置 --remove_bg=True。若要获得高质量输出,针对背景较杂乱的真实世界视频,建议在运行SV4D之前先使用 ClipdropSAM2 对前景对象进行分割。
    • 低显存环境:若GPU显存较低,可尝试将 --encoding_t=1(每次编码的帧数)和 --decoding_t=1(每次解码的帧数)设置为1,或将视频分辨率降低至 --img_size=512

注:

  • 我们还训练了一个8视角模型,该模型每次可生成5帧 × 8个视角(与SV4D相同)。
    • 从HuggingFace下载该模型:huggingface-cli download stabilityai/sv4d2.0 sv4d2_8views.safetensors --local-dir checkpoints
    • 运行推理:python scripts/sampling/simple_video_sample_4d2.py --model_path checkpoints/sv4d2_8views.safetensors --input_path assets/sv4d_videos/chest.gif --output_folder outputs
    • 该5×8模型每次处理5帧输入。不过,两种模型的推理脚本默认都以21帧视频作为输入(与SV3D和SV4D一致),我们会通过自回归方式持续运行模型,直到生成21帧为止。
  • 在运行前,请先安装依赖项:
python3.10 -m venv .generativemodels
source .generativemodels/bin/activate
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 检查CUDA版本
pip3 install -r requirements/pt2.txt
pip3 install .
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

tile

2024年7月24日

  • 我们发布了 Stable Video 4D (SV4D),这是一套用于新视角视频合成的视频转4D扩散模型。研究用途如下:
    • SV4D 经过训练,可在给定5帧上下文视频(即输入视频)以及8个参考视角(通过类似SV3D的多视角扩散模型从输入视频的第一帧中合成,分辨率同样为576x576)的情况下,生成40帧(5个视频帧 × 8个相机视角)。理想情况下,这些参考视角应为白色背景下的单物体图像。
    • 为了生成更长的新视角视频(21帧),我们提出了一种基于SV4D的创新采样方法:先采样5个锚定帧,再密集采样剩余帧,同时保持时间一致性。
    • 如需本地运行社区构建的Gradio演示程序,可执行 python -m scripts.demo.gradio_app_sv4d
    • 更多详情请参阅我们的 项目页面技术报告视频摘要

快速入门python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --output_folder outputs/sv4d(需先从HuggingFace下载 sv4d.safetensorssv3d_u.safetensors 并放置于 checkpoints/ 目录下)

要在单个包含 21 帧的输入视频上运行 SV4D

  • 这里 下载 SV3D 模型文件(sv3d_u.safetensorssv3d_p.safetensors),并从 这里 下载 SV4D 模型文件(sv4d.safetensors),存入 checkpoints/ 目录。

  • 运行 python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video>

    • input_path:输入视频 <path/to/video> 可以是
      • 单个 gifmp4 格式的视频文件,例如 assets/sv4d_videos/test_video1.mp4,或
      • 包含视频帧图像的文件夹,图像格式为 .jpg.jpeg.png,或
      • 匹配视频帧图像的文件名模式。
    • num_steps:默认值为 20,可增加至 50 以获得更高画质,但采样时间会更长。
    • sv3d_version:要指定用于生成参考多视角的 SV3D 模型,请设置 --sv3d_version=sv3d_u 使用 SV3D_u,或 --sv3d_version=sv3d_p 使用 SV3D_p。
    • elevations_deg:要使用 SV3D_p(默认为 SV3D_u)生成特定仰角的新视角视频,请运行 python scripts/sampling/simple_video_sample_4d.py --input_path assets/sv4d_videos/test_video1.mp4 --sv3d_version sv3d_p --elevations_deg 30.0
    • 背景去除:对于背景简单的输入视频,(可选)使用 rembg 去除背景,并通过设置 --remove_bg=True 裁剪视频帧。若要对带有杂乱背景的真实世界输入视频获得更高质量的输出,可在运行 SV4D 之前先使用 ClipdropSAM2 对前景对象进行分割。
    • 低显存环境:若在显存较低的 GPU 上运行,可尝试将 --encoding_t=1(每次编码的帧数)和 --decoding_t=1(每次解码的帧数)设置为 1,或将视频分辨率调低,例如设置为 --img_size=512

    tile

2024年3月18日

  • 我们发布了用于新视角合成的研究级图像转视频模型 SV3D
    • SV3D 经过训练,可在给定一张相同尺寸的上下文帧的情况下生成 21 帧,分辨率为 576x576,理想情况下该上下文帧应为白色背景且仅包含一个物体。
    • SV3D_u:此变体基于单张图像输入生成环绕式视频,无需相机条件控制。
    • SV3D_p:作为 SVD3_u 的扩展,此变体既支持单张图像输入,也支持环绕视图输入,从而能够沿着指定的摄像机路径创建 3D 视频。
    • 我们扩展了 Streamlit 演示程序 scripts/demo/video_sampling.py 和独立 Python 脚本 scripts/sampling/simple_video_sample.py 以用于两种模型的推理。
    • 更多详情请参阅我们的 项目页面技术报告视频摘要

要在单张图片上运行 SV3D_u

  • https://huggingface.co/stabilityai/sv3d 下载 sv3d_u.safetensors,存入 checkpoints/sv3d_u.safetensors
  • 运行 python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_u

要在单张图片上运行 SV3D_p

  1. 生成指定仰角的静态环绕视频,例如 10.0 度:python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg 10.0
  2. 生成指定仰角和方位角的动态环绕视频:将 21 个仰角(以度为单位)按顺序填入 elevations_deg(范围为 [-90, 90]),并将 21 个方位角(以度为单位)按顺序填入 azimuths_deg(范围为 [0, 360])。例如:python scripts/sampling/simple_video_sample.py --input_path <path/to/image.png> --version sv3d_p --elevations_deg [<21个仰角列表>] --azimuths_deg [<21个方位角列表>]

要在 Streamlit 服务器上运行 SVD 或 SV3D: streamlit run scripts/demo/video_sampling.py

tile

2023年11月28日

  • 我们发布了超快速文本转图像模型 SDXL-Turbo。 伴随该模型发布了一份 技术报告

    • 使用方法:
      • 按照安装说明操作,或使用 pip install streamlit-keyup 更新现有环境。
      • 下载 权重,并将其放置在 checkpoints/ 目录中。
      • 运行 streamlit run scripts/demo/turbo.py

    tile

2023年11月21日

  • 我们发布了用于研究目的的图像转视频模型 Stable Video Diffusion:

    • SVD:该模型经过训练,可在给定一张相同尺寸的上下文帧的情况下生成 14 帧,分辨率为 576x1024。 我们使用 SD 2.1 的标准图像编码器,但用具备时间感知能力的“防闪烁解码器”替换了原有的解码器。
    • SVD-XT:与 SVD 具有相同的架构,但经过微调后可生成 25 帧。
    • 您可以通过运行 python -m scripts.demo.gradio_app 在本地运行社区构建的 Gradio 演示。
    • 我们提供了 Streamlit 演示 scripts/demo/video_sampling.py 和独立 Python 脚本 scripts/sampling/simple_video_sample.py 用于两种模型的推理。
    • 伴随该模型发布了一篇 技术报告

    tile

2023年7月26日

sample2

2023年7月4日

  • 关于 SDXL 的技术报告现已发布 此处

2023年6月22日

  • 我们发布了两款用于研究的新扩散模型:
    • SDXL-base-0.9:基础模型在分辨率为1024^2、多种宽高比的图像上进行训练。该基础模型使用OpenCLIP-ViT/GCLIP-ViT/L进行文本编码,而精炼模型仅使用OpenCLIP模型。
    • SDXL-refiner-0.9:精炼模型经过训练,能够去除高质量数据中的少量噪声,因此不建议将其用作文生图模型;相反,它应仅作为图生图模型使用。

如果您希望为研究目的访问这些模型,请通过以下链接之一申请: SDXL-0.9-基础模型, 以及 SDXL-0.9-精炼模型。 这意味着您可以申请其中任一链接,一旦获批,即可同时访问两个模型。 请使用您的组织邮箱登录Hugging Face账户以请求访问权限。 我们计划于近期(7月)进行全面发布。

代码库

总体理念

模块化至上。本仓库采用配置驱动的方法,通过调用yaml配置文件中定义的对象上的instantiate_from_config()来构建和组合子模块。详细示例请参见configs/目录。

与旧版ldm代码库的变更日志

在训练方面,我们使用PyTorch Lightning,但也可以轻松地将其他训练框架应用于基础模块。核心扩散模型类(原名为LatentDiffusion,现为DiffusionEngine)已得到优化:

  • 不再进行复杂的子类化!我们现在在一个类中处理所有类型的条件输入(向量、序列和空间条件,以及它们的各种组合):GeneralConditioner, 见sgm/modules/encoders/modules.py
  • 我们将引导器(如无分类器指导,见sgm/modules/diffusionmodules/guiders.py)与采样器(sgm/modules/diffusionmodules/sampling.py)分离,且采样器与模型无关。
  • 我们采用了“去噪器框架”(arXiv:2206.00364),用于训练和推理(最显著的变化可能是现在可以选择训练连续时间模型):
    • 离散时间模型(去噪器)只是连续时间模型(去噪器)的一种特例; 见sgm/modules/diffusionmodules/denoiser.py
    • 以下功能现已独立:扩散损失函数的加权(sgm/modules/diffusionmodules/denoiser_weighting.py)、网络的预处理(sgm/modules/diffusionmodules/denoiser_scaling.py)以及训练过程中噪声水平的采样(sgm/modules/diffusionmodules/sigma_sampling.py)。
  • 自编码模型也得到了清理。

安装:

1. 克隆仓库

git clone https://github.com/Stability-AI/generative-models.git
cd generative-models

2. 设置虚拟环境

假设您已在克隆后导航到generative-models根目录。

注意: 本环境已在python3.10下测试通过。对于其他Python版本,可能会遇到版本冲突。

PyTorch 2.0

# 从pypi安装所需包
python3 -m venv .pt2
source .pt2/bin/activate
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip3 install -r requirements/pt2.txt

3. 安装sgm

pip3 install .

4. 安装sdata以用于训练

pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

打包

本仓库使用符合PEP 517标准的打包方式,并借助Hatch工具。

要构建可分发的wheel包,需先安装hatch,然后运行hatch build (指定-t wheel会跳过sdist的构建,这并非必需)。

pip install hatch
hatch build -t wheel

构建好的包将位于dist/目录中。您可以使用pip install dist/*.whl来安装该wheel包。

请注意,当前该包并未指定依赖项;您需要根据具体用途及PyTorch版本,手动安装所需的软件包。

推理

我们在scripts/demo/sampling.py中提供了一个基于Streamlit的文生图和图生图采样演示。 我们提供了完整文件以及文件中保存张量部分的哈希值(有关评估脚本,请参阅Model Spec)。 目前支持以下模型:

  • SDXL-base-1.0
    文件哈希(sha256):31e35c80fc4829d14f90153f4c74cd59c90b779f6afe05a74cd6120b893f7e5b
    张量数据哈希(sha256):0xd7a9105a900fd52748f20725fe52fe52b507fd36bee4fc107b1550a26e6ee1d7
    
  • SDXL-refiner-1.0
    文件哈希(sha256):7440042bbdc8a24813002c09b6b69b64dc90fded4472613437b7f55f9b7d9c5f
    张量数据哈希(sha256):0x1a77d21bebc4b4de78c474a90cb74dc0d2217caf4061971dbfa75ad406b75d81
    
  • SDXL-base-0.9
  • SDXL-refiner-0.9

SDXL权重:

SDXL-1.0: SDXL-1.0的权重可通过CreativeML Open RAIL++-M许可协议获取,具体如下:

SDXL-0.9: SDXL-0.9的权重可通过研究许可协议获取。如果您希望为研究目的访问这些模型,请通过以下链接之一申请: SDXL-base-0.9模型, 以及 SDXL-refiner-0.9。 这意味着您可以申请任一链接,一旦获批,即可同时访问两个模型。请使用您的组织邮箱登录Hugging Face账户以请求访问权限。

获取权重后,请将其放置于checkpoints/目录中。随后,启动演示程序:

streamlit run scripts/demo/sampling.py --server.port <your_port>

无形水印检测

使用我们的代码生成的图像会利用 invisible-watermark 库,在模型输出中嵌入一个无形水印。我们还提供了一个脚本,可以方便地检测该水印。请注意,此水印与先前的 Stable Diffusion 1.x/2.x 版本中的水印并不相同。

要运行该脚本,您需要按照上述方式安装好相关依赖,或者尝试仅使用最少数量的包进行一项_实验性_导入:

python -m venv .detect
source .detect/bin/activate

pip install "numpy>=1.17" "PyWavelets>=1.1.1" "opencv-python>=4.1.0.25"
pip install --no-deps invisible-watermark

要运行脚本,您需要先按照上述方法完成安装。之后可以通过以下方式使用该脚本(请务必提前激活您的虚拟环境,例如 source .pt1/bin/activate):

# 测试单个文件
python scripts/demo/detect.py <您的文件名>
# 同时测试多个文件
python scripts/demo/detect.py <文件1> <文件2> ... <文件n>
# 测试特定文件夹中的所有文件
python scripts/demo/detect.py <您的文件夹名>/*

训练:

我们在 configs/example_training 中提供了示例训练配置。要启动训练,请运行以下命令:

python main.py --base configs/<config1.yaml> configs/<config2.yaml>

其中配置文件将从左到右依次合并(后面的配置会覆盖前面相同的值)。这可用于组合模型、训练和数据配置。不过,也可以将所有内容定义在一个单独的配置文件中。例如,要在 MNIST 数据集上运行基于像素的条件扩散模型训练,可执行以下命令:

python main.py --base configs/example_training/toy/mnist_cond.yaml

注1: 使用非玩具数据集的配置文件 configs/example_training/imagenet-f8_cond.yamlconfigs/example_training/txt2img-clipl.yamlconfigs/example_training/txt2img-clipl-legacy-ucg-training.yaml 进行训练时,需根据所用数据集进行相应修改(预计数据将以 tar 文件形式存储在 webdataset 格式 中)。要找到需要调整的部分,请在相应配置文件中搜索包含 USER: 的注释。

注2: 本仓库同时支持 pytorch1.13pytorch2 用于生成模型的训练。然而,对于自编码器训练,例如在 configs/example_training/autoencoder/kl-f4/imagenet-attnfree-logvar.yaml 中所示,仅支持 pytorch1.13

注3: 训练潜在空间生成模型(如 configs/example_training/imagenet-f8_cond.yaml 所示)需要从 Hugging Face 获取检查点,并替换 此行 中的 CKPT_PATH 占位符。文本到图像的相关配置也需要进行同样的操作。

构建新的扩散模型

条件器

GeneralConditioner 通过 conditioner_config 进行配置。其唯一属性是 emb_models,即一个由不同嵌入器组成的列表(均继承自 AbstractEmbModel),用于对生成模型进行条件化。所有嵌入器都应定义是否可训练(is_trainable,默认为 False)、是否使用无分类器指导的丢弃率(ucg_rate,默认为 0),以及输入键(input_key),例如用于文本条件化的 txt 或用于类别条件化的 cls。在计算条件时,嵌入器会以 batch[input_key] 作为输入。我们目前支持二维至四维的条件,并会适当地将不同嵌入器的条件拼接在一起。请注意,conditioner_config 中嵌入器的顺序非常重要。

网络

神经网络通过 network_config 进行设置。过去这一部分被称为 unet_config,但不够通用,因为我们计划尝试基于 Transformer 的扩散骨干网络。

损失

损失函数通过 loss_config 进行配置。对于标准的扩散模型训练,您需要设置 sigma_sampler_config

采样器配置

如上所述,采样器与模型无关。在 sampler_config 中,我们会设置数值求解器类型、步数、离散化方式,以及例如用于无分类器指导的引导包装器等参数。

数据集处理

对于大规模训练,我们建议使用来自我们 datapipelines 项目的数据管道。该项目已包含在依赖项中,并在遵循安装部分步骤时自动引入。小型映射风格的数据集应在本仓库中定义(例如 MNIST、CIFAR-10 等),并返回一个包含数据键值的字典,例如:

example = {"jpg": x,  # 这是一个 -1...1 范围内的 chw 格式张量
           "txt": "一张美丽的图片"}

我们期望图像以 -1 到 1 的范围、通道优先的格式提供。

版本历史

0.1.02023/07/27
0.0.12023/06/22

常见问题

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|5天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|昨天
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|2天前
语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。

79.8k|★☆☆☆☆|2天前
其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|1周前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

75.3k|★★★☆☆|今天
语言模型图像开发框架