[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-yandex-research--tab-ddpm":3,"tool-yandex-research--tab-ddpm":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":96,"forks":97,"last_commit_at":98,"license":99,"difficulty_score":10,"env_os":100,"env_gpu":101,"env_ram":102,"env_deps":103,"category_tags":109,"github_topics":110,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":117,"updated_at":118,"faqs":119,"releases":165},1271,"yandex-research\u002Ftab-ddpm","tab-ddpm","[ICML 2023] The official implementation of the paper \"TabDDPM: Modelling Tabular Data with Diffusion Models\"","tab-ddpm 是一个基于扩散模型的开源工具，专门用于生成和建模表格数据。它通过模仿数据生成过程中的“去噪”步骤，逐步生成高质量的合成数据，适用于各种结构化数据集，如客户信息、医疗记录等。\n\n传统方法在处理表格数据时常常面临数据分布复杂、类别特征多等问题，而 tab-ddpm 采用先进的扩散模型技术，能够更准确地捕捉数据的内在结构与模式，从而生成更真实、多样化的合成数据。这在数据隐私保护、数据增强以及模型训练等领域具有重要价值。\n\n该工具适合研究人员和开发者使用，尤其是那些需要生成高质量合成数据以进行实验或测试的用户。对于希望探索扩散模型在表格数据上的应用，或者需要改进现有数据生成方法的用户来说，tab-ddpm 提供了完整的实现和灵活的配置选项。\n\n其独特之处在于将扩散模型成功应用于表格数据生成任务，并提供了多种评估脚本和基线模型对比，便于用户验证效果。整体设计模块化，易于扩展和定制。","# TabDDPM: Modelling Tabular Data with Diffusion Models\nThis is the official code for our paper \"TabDDPM: Modelling Tabular Data with Diffusion Models\" ([paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15421))\n\n\u003C!-- ## Results\nYou can view all the results and build your own tables with this [notebook](notebooks\u002FReports.ipynb). -->\n\n## Setup the environment\n1. Install [conda](https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html) (just to manage the env).\n2. Run the following commands\n    ```bash\n    export REPO_DIR=\u002Fpath\u002Fto\u002Fthe\u002Fcode\n    cd $REPO_DIR\n\n    conda create -n tddpm python=3.9.7\n    conda activate tddpm\n\n    pip install torch==1.10.1+cu111 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Ftorch_stable.html\n    pip install -r requirements.txt\n\n    # if the following commands do not succeed, update conda\n    conda env config vars set PYTHONPATH=${PYTHONPATH}:${REPO_DIR}\n    conda env config vars set PROJECT_DIR=${REPO_DIR}\n\n    conda deactivate\n    conda activate tddpm\n    ```\n\n## Running the experiments\n\nHere we describe the neccesary info for reproducing the experimental results.  \nUse `agg_results.ipynb` to print results for all dataset and all methods.\n\n### Datasets\n\nWe upload the datasets used in the paper with our train\u002Fval\u002Ftest splits (link below). We do not impose additional restrictions to the original dataset licenses, the sources of the data are listed in the paper appendix. \n\nYou could load the datasets with the following commands:\n\n``` bash\nconda activate tddpm\ncd $PROJECT_DIR\nwget \"https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Frpckvcs3vx7j605\u002Fdata.tar?dl=0\" -O data.tar\ntar -xvf data.tar\n```\n\n### File structure\n`tab-ddpm\u002F` -- implementation of the proposed method  \n`tuned_models\u002F` -- tuned hyperparameters of evaluation model (CatBoost or MLP)\n\nAll main scripts are in `scripts\u002F` folder:\n\n- `scripts\u002Fpipeline.py` are used to train, sample and eval TabDDPM using a given config  \n- `scripts\u002Ftune_ddpm.py` -- tune hyperparameters of TabDDPM\n- `scripts\u002Feval_[catboost|mlp|simple].py` -- evaluate synthetic data using a tuned evaluation model or simple models\n- `scripts\u002Feval_seeds.py` -- eval using multiple sampling and multuple eval seeds\n- `scripts\u002Feval_seeds_simple.py` --  eval using multiple sampling and multuple eval seeds (for simple models)\n- `scripts\u002Ftune_evaluation_model.py` -- tune hyperparameters of eval model (CatBoost or MLP)\n- `scripts\u002Fresample_privacy.py` -- privacy calculation  \n\nExperiments folder (`exp\u002F`):\n- All results and synthetic data are stored in `exp\u002F[ds_name]\u002F[exp_name]\u002F` folder\n- `exp\u002F[ds_name]\u002Fconfig.toml` is a base config for tuning TabDDPM\n- `exp\u002F[ds_name]\u002Feval_[catboost|mlp].json` stores results of evaluation (`scripts\u002Feval_seeds.py`)  \n\nTo understand the structure of `config.toml` file, read `CONFIG_DESCRIPTION.md`.\n\nBaselines:\n- `smote\u002F`\n- `CTGAN\u002F` -- TVAE [official repo](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN)\n- `CTAB-GAN\u002F` --  [official repo](https:\u002F\u002Fgithub.com\u002FTeam-TUD\u002FCTAB-GAN)\n- `CTAB-GAN-Plus\u002F` -- [official repo](https:\u002F\u002Fgithub.com\u002FTeam-TUD\u002FCTAB-GAN-Plus)\n\n### Examples\n\n\u003Cins>Run TabDDPM tuning.\u003C\u002Fins>   \n\nTemplate and example (`--eval_seeds` is optional): \n```bash\npython scripts\u002Ftune_ddpm.py [ds_name] [train_size] synthetic [catboost|mlp] [exp_name] --eval_seeds\npython scripts\u002Ftune_ddpm.py churn2 6500 synthetic catboost ddpm_tune --eval_seeds\n```\n\n\u003Cins>Run TabDDPM pipeline.\u003C\u002Fins>   \n\nTemplate and example  (`--train`, `--sample`, `--eval` are optional): \n```bash\npython scripts\u002Fpipeline.py --config [path_to_your_config] --train --sample --eval\npython scripts\u002Fpipeline.py --config exp\u002Fchurn2\u002Fddpm_cb_best\u002Fconfig.toml --train --sample\n```\nIt takes approximately 7min to run the script above (NVIDIA GeForce RTX 2080 Ti).  \n\n\u003Cins>Run evaluation over seeds\u003C\u002Fins>   \nBefore running evaluation, you have to train the model with the given hyperparameters (the example above).  \n\nTemplate and example: \n```bash\npython scripts\u002Feval_seeds.py --config [path_to_your_config] [n_eval_seeds] [ddpm|smote|ctabgan|ctabgan-plus|tvae] synthetic [catboost|mlp] [n_sample_seeds]\npython scripts\u002Feval_seeds.py --config exp\u002Fchurn2\u002Fddpm_cb_best\u002Fconfig.toml 10 ddpm synthetic catboost 5\n```","# TabDDPM：用扩散模型建模表格数据\n这是我们的论文《TabDDPM：用扩散模型建模表格数据》的官方代码（[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15421)）。\n\n\u003C!-- ## 结果\n您可以使用此 [notebook](notebooks\u002FReports.ipynb) 查看所有结果并构建您自己的表格。 -->\n\n## 环境搭建\n1. 安装 [conda](https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html)（仅用于管理环境）。\n2. 运行以下命令：\n    ```bash\n    export REPO_DIR=\u002Fpath\u002Fto\u002Fthe\u002Fcode\n    cd $REPO_DIR\n\n    conda create -n tddpm python=3.9.7\n    conda activate tddpm\n\n    pip install torch==1.10.1+cu111 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Ftorch_stable.html\n    pip install -r requirements.txt\n\n    # 如果以下命令执行失败，请更新 conda\n    conda env config vars set PYTHONPATH=${PYTHONPATH}:${REPO_DIR}\n    conda env config vars set PROJECT_DIR=${REPO_DIR}\n\n    conda deactivate\n    conda activate tddpm\n    ```\n\n## 实验运行\n\n此处介绍重现实验结果所需的信息。  \n使用 `agg_results.ipynb` 可以打印所有数据集和所有方法的结果。\n\n### 数据集\n\n我们上传了论文中使用的数据集及其训练\u002F验证\u002F测试划分（链接见下文）。我们不对原始数据集的许可施加额外限制，数据来源已在论文附录中列出。\n\n您可以通过以下命令加载数据集：\n\n``` bash\nconda activate tddpm\ncd $PROJECT_DIR\nwget \"https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Frpckvcs3vx7j605\u002Fdata.tar?dl=0\" -O data.tar\ntar -xvf data.tar\n```\n\n### 文件结构\n`tab-ddpm\u002F` —— 所提出方法的实现  \n`tuned_models\u002F` —— 评估模型（CatBoost 或 MLP）的调优超参数\n\n所有主要脚本均位于 `scripts\u002F` 文件夹中：\n\n- `scripts\u002Fpipeline.py` 用于根据给定配置训练、采样并评估 TabDDPM  \n- `scripts\u002Ftune_ddpm.py` —— 调优 TabDDPM 的超参数  \n- `scripts\u002Feval_[catboost|mlp|simple].py` —— 使用调优后的评估模型或简单模型评估合成数据  \n- `scripts\u002Feval_seeds.py` —— 使用多次采样和多个评估种子进行评估  \n- `scripts\u002Feval_seeds_simple.py` —— 使用多次采样和多个评估种子进行评估（针对简单模型）  \n- `scripts\u002Ftune_evaluation_model.py` —— 调优评估模型（CatBoost 或 MLP）的超参数  \n- `scripts\u002Fresample_privacy.py` —— 隐私计算  \n\n实验文件夹 (`exp\u002F`)：\n- 所有结果和合成数据均存储在 `exp\u002F[ds_name]\u002F[exp_name]\u002F` 文件夹中  \n- `exp\u002F[ds_name]\u002Fconfig.toml` 是用于调优 TabDDPM 的基础配置  \n- `exp\u002F[ds_name]\u002Feval_[catboost|mlp].json` 存储评估结果（`scripts\u002Feval_seeds.py`）\n\n要了解 `config.toml` 文件的结构，请阅读 `CONFIG_DESCRIPTION.md`。\n\n基线方法：\n- `smote\u002F`\n- `CTGAN\u002F` —— TVAE [官方仓库](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN)\n- `CTAB-GAN\u002F` —— [官方仓库](https:\u002F\u002Fgithub.com\u002FTeam-TUD\u002FCTAB-GAN)\n- `CTAB-GAN-Plus\u002F` —— [官方仓库](https:\u002F\u002Fgithub.com\u002FTeam-TUD\u002FCTAB-GAN-Plus)\n\n### 示例\n\n\u003Cins>运行 TabDDPM 调优。\u003C\u002Fins>   \n\n模板与示例（`--eval_seeds` 为可选）：\n```bash\npython scripts\u002Ftune_ddpm.py [ds_name] [train_size] synthetic [catboost|mlp] [exp_name] --eval_seeds\npython scripts\u002Ftune_ddpm.py churn2 6500 synthetic catboost ddpm_tune --eval_seeds\n```\n\n\u003Cins>运行 TabDDPM 流水线。\u003C\u002Fins>   \n\n模板与示例（`--train`、`--sample`、`--eval` 为可选）：\n```bash\npython scripts\u002Fpipeline.py --config [path_to_your_config] --train --sample --eval\npython scripts\u002Fpipeline.py --config exp\u002Fchurn2\u002Fddpm_cb_best\u002Fconfig.toml --train --sample\n```\n上述脚本在 NVIDIA GeForce RTX 2080 Ti 上大约需要 7 分钟运行。  \n\n\u003Cins>运行基于种子的评估\u003C\u002Fins>   \n在进行评估之前，您必须使用给定的超参数训练模型（如上例所示）。  \n\n模板与示例：\n```bash\npython scripts\u002Feval_seeds.py --config [path_to_your_config] [n_eval_seeds] [ddpm|smote|ctabgan|ctabgan-plus|tvae] synthetic [catboost|mlp] [n_sample_seeds]\npython scripts\u002Feval_seeds.py --config exp\u002Fchurn2\u002Fddpm_cb_best\u002Fconfig.toml 10 ddpm synthetic catboost 5\n```","# TabDDPM 快速上手指南\n\n## 环境准备\n\n### 系统要求\n- 操作系统：支持 Linux 或 macOS\n- Python 版本：3.9.7（推荐使用 Conda 管理环境）\n- CUDA 支持：建议使用 NVIDIA GPU 进行训练和采样，以加速计算过程\n\n### 前置依赖\n- [Conda](https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html)：用于管理虚拟环境\n- PyTorch 1.10.1 + CUDA 11.1\n- 其他依赖项见 `requirements.txt`\n\n---\n\n## 安装步骤\n\n1. 设置项目目录路径：\n   ```bash\n   export REPO_DIR=\u002Fpath\u002Fto\u002Fthe\u002Fcode\n   cd $REPO_DIR\n   ```\n\n2. 创建并激活 Conda 虚拟环境：\n   ```bash\n   conda create -n tddpm python=3.9.7\n   conda activate tddpm\n   ```\n\n3. 安装 PyTorch（国内用户可使用清华源加速）：\n   ```bash\n   pip install torch==1.10.1+cu111 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Ftorch_stable.html\n   ```\n\n4. 安装其他依赖：\n   ```bash\n   pip install -r requirements.txt\n   ```\n\n5. 设置环境变量（可选）：\n   ```bash\n   conda env config vars set PYTHONPATH=${PYTHONPATH}:${REPO_DIR}\n   conda env config vars set PROJECT_DIR=${REPO_DIR}\n   ```\n\n6. 重新激活环境使配置生效：\n   ```bash\n   conda deactivate\n   conda activate tddpm\n   ```\n\n---\n\n## 基本使用\n\n### 下载数据集\n\n运行以下命令下载论文中使用的数据集：\n\n```bash\nconda activate tddpm\ncd $PROJECT_DIR\nwget \"https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Frpckvcs3vx7j605\u002Fdata.tar?dl=0\" -O data.tar\ntar -xvf data.tar\n```\n\n### 示例：运行 TabDDPM 调参流程\n\n```bash\npython scripts\u002Ftune_ddpm.py churn2 6500 synthetic catboost ddpm_tune --eval_seeds\n```\n\n### 示例：运行 TabDDPM 训练、采样与评估流程\n\n```bash\npython scripts\u002Fpipeline.py --config exp\u002Fchurn2\u002Fddpm_cb_best\u002Fconfig.toml --train --sample\n```\n\n> 注意：此脚本在 NVIDIA GeForce RTX 2080 Ti 上大约需要 7 分钟完成。\n\n### 示例：使用多个种子进行评估\n\n```bash\npython scripts\u002Feval_seeds.py --config exp\u002Fchurn2\u002Fddpm_cb_best\u002Fconfig.toml 10 ddpm synthetic catboost 5\n```\n\n> 在执行此命令前，请确保已使用对应超参数训练好模型。","某金融科技公司数据科学团队正在开发一个信用评分模型，需要大量高质量的客户数据用于训练和测试。然而，由于隐私保护法规限制，他们无法直接获取真实客户的敏感信息，只能依赖有限的历史数据集。\n\n### 没有 tab-ddpm 时\n- 生成的合成数据质量不高，导致模型在实际应用中表现不稳定  \n- 传统方法（如 SMOTE、CTGAN）难以处理表格数据中的复杂分布和类别特征  \n- 数据生成过程耗时较长，影响了模型迭代速度  \n- 缺乏对生成数据的系统性评估指标，难以判断是否符合业务需求  \n\n### 使用 tab-ddpm 后\n- 能够生成更贴近真实分布的表格数据，显著提升信用评分模型的准确性和鲁棒性  \n- 支持对类别型和数值型数据进行联合建模，有效保留原始数据的统计特性  \n- 生成效率高，可在 GPU 上快速完成大规模数据采样  \n- 提供完整的评估流程，包括与 CatBoost、MLP 等模型的对比实验，便于量化生成效果  \n\n核心价值：tab-ddpm 为金融领域提供了高效、高质量的表格数据生成方案，解决了隐私约束下数据不足的问题，加速了模型研发进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyandex-research_tab-ddpm_e6a969ed.png","yandex-research","Yandex Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fyandex-research_2132bbf2.png","",null,"YandexResearch","research.yandex.com","https:\u002F\u002Fgithub.com\u002Fyandex-research",[84,88,92],{"name":85,"color":86,"percentage":87},"Python","#3572A5",96.8,{"name":89,"color":90,"percentage":91},"Jupyter Notebook","#DA5B0B",1.9,{"name":93,"color":94,"percentage":95},"Makefile","#427819",1.3,543,132,"2026-04-01T08:04:31","MIT","Linux, macOS","需要 NVIDIA GPU，显存 8GB+，CUDA 11.1","未说明",{"notes":104,"python":105,"dependencies":106},"建议使用 conda 管理环境，首次运行需下载约 5GB 数据集文件","3.9.7",[107,108],"torch==1.10.1+cu111","requirements.txt 中的依赖项",[51,13,14,15],[111,112,113,114,115,116],"deep-learning","diffusion-models","pytorch","tabular","ai","synthetic-data","2026-03-27T02:49:30.150509","2026-04-06T05:37:28.486327",[120,125,130,135,140,145,149,153,157,161],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},5791,"运行 pipeline.py 时出现 'No module named 'tab_ddpm'' 错误，如何解决？","请将 lib 和 tab_ddpm 目录移动到 scripts 目录下，确保 Python 能正确找到模块路径。","https:\u002F\u002Fgithub.com\u002Fyandex-research\u002Ftab-ddpm\u002Fissues\u002F10",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},5790,"生成的类别和数值数据列名丢失，如何解决？","生成的数据列名不会自动保留，建议在原始 CSV 文件中按顺序划分 X_num 和 X_cat。例如，如果 CSV 中的列顺序是 [num1, num2, cat1, num3, cat2]，则 X_num = [num1, num2, num3]，X_cat = [cat1, cat2]。","https:\u002F\u002Fgithub.com\u002Fyandex-research\u002Ftab-ddpm\u002Fissues\u002F13",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},5788,"如何理解 X_cat、X_num 和 y 的含义？","X_cat 表示分类特征，X_num 表示数值型特征，y 是目标变量。is_y_cond 是一个布尔参数，用于指示是否将目标变量作为条件输入到模型中。","https:\u002F\u002Fgithub.com\u002Fyandex-research\u002Ftab-ddpm\u002Fissues\u002F34",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},5789,"如何运行 tune_ddpm.py 脚本进行超参数调优？","可以使用以下命令运行：`python scripts\u002Ftune_ddpm.py [ds_name] [train_size] synthetic [catboost|mlp] [exp_name] --eval_seeds`。该脚本会调用 pipeline.py 并尝试不同的超参数配置，最终保存最佳模型。","https:\u002F\u002Fgithub.com\u002Fyandex-research\u002Ftab-ddpm\u002Fissues\u002F8",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},5792,"为什么使用 sliced_logsumexp 而不是 torch.logsumexp？","sliced_logsumexp 是为了提高计算效率而实现的，避免了使用循环的 torch.logsumexp，从而加快了处理多个分类特征的速度。","https:\u002F\u002Fgithub.com\u002Fyandex-research\u002Ftab-ddpm\u002Fissues\u002F2",{"id":146,"question_zh":147,"answer_zh":148,"source_url":144},5793,"如何解决训练过程中出现 NaN 值的问题？","升级 PyTorch 到 1.10 或更高版本可能会解决此问题。此外，检查代码中涉及 logsumexp 的部分是否有不合理的数值操作，如除以零或负数对数等。",{"id":150,"question_zh":151,"answer_zh":152,"source_url":139},5794,"如何解读论文中的 Figure 2？","Figure 2 展示了不同特征的分布情况。每个条形图代表一个特征，其高度表示该特征的某种统计量（如概率或频率）。'categorical_feature 3' 指的是第三个分类特征，具体含义取决于数据集。",{"id":154,"question_zh":155,"answer_zh":156,"source_url":139},5795,"tune_evaluation_model.py 脚本的作用是什么？","tune_evaluation_model.py 用于评估模型性能，通常是在 eval_seeds.py 中已经训练好的模型基础上进行进一步的评估和分析。",{"id":158,"question_zh":159,"answer_zh":160,"source_url":139},5796,"如何选择超参数调优的试验次数？","试验次数越多效果越好，但计算成本较高。一般建议至少设置为 50 次，具体可根据实验资源调整。",{"id":162,"question_zh":163,"answer_zh":164,"source_url":139},5797,"如何确定 Adult 数据集的训练集大小？","根据实验经验，Adult 数据集的训练集大小通常设为 27000。可以根据实际需求调整，但需注意影响调优时间和结果稳定性。",[]]