[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-sdv-dev--CTGAN":3,"tool-sdv-dev--CTGAN":65},[4,18,32,41,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,2,"2026-04-06T11:09:19",[15,16,27,28,13,29,30,14,31],"视频","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":38,"last_commit_at":39,"category_tags":40,"status":17},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65697,1,"2026-04-07T23:34:58",[14,29,16],{"id":42,"name":43,"github_repo":44,"description_zh":45,"stars":46,"difficulty_score":24,"last_commit_at":47,"category_tags":48,"status":17},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[14,16,29],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":24,"last_commit_at":55,"category_tags":56,"status":17},2403,"crawl4ai","unclecode\u002Fcrawl4ai","Crawl4AI 是一款专为大语言模型（LLM）设计的开源网络爬虫与数据提取工具。它的核心使命是将纷繁复杂的网页内容转化为干净、结构化的 Markdown 格式，直接服务于检索增强生成（RAG）、智能体构建及各类数据管道，让 AI 能更轻松地“读懂”互联网。\n\n传统爬虫往往面临反爬机制拦截、动态内容加载困难以及输出格式杂乱等痛点，导致后续数据处理成本高昂。Crawl4AI 通过内置自动化的三级反机器人检测、代理升级策略以及对 Shadow DOM 的深度支持，有效突破了这些障碍。它能智能移除同意弹窗，处理深层链接，并具备长任务崩溃恢复能力，确保数据采集的稳定与高效。\n\n这款工具特别适合开发者、AI 研究人员及数据工程师使用。无论是需要为本地模型构建知识库，还是搭建大规模自动化信息采集流程，Crawl4AI 都提供了极高的可控性与灵活性。作为 GitHub 上备受瞩目的开源项目，它完全免费开放，无需繁琐的注册或昂贵的 API 费用，让用户能够专注于数据价值本身而非采集难题。",63242,"2026-04-02T22:29:19",[16,13],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":17},4243,"MinerU","opendatalab\u002FMinerU","MinerU 是一款专为大语言模型（LLM）打造的文档解析工具，旨在将复杂的 PDF 文件高效转化为机器易读的 Markdown 或 JSON 格式。在日常工作中，许多用户面临从扫描版论文、技术手册或包含复杂排版的文档中提取高质量文本的难题，传统方法往往难以保留原有的公式、表格和结构信息，导致后续 AI 处理效果不佳。MinerU 正是为了解决这一痛点而生，它能精准识别并还原文档中的多栏布局、数学公式及图表内容，确保输出数据干净、结构化，直接适配各类智能体（Agentic）工作流。\n\n这款工具特别适合开发者、数据科学家以及需要构建知识库的研究人员使用。无论是希望微调专属模型的算法工程师，还是试图搭建企业级 RAG（检索增强生成）系统的技术团队，MinerU 都能提供强有力的支持。其核心技术亮点在于对复杂版面分析的深度优化，不仅支持批量处理，还能在保持高准确率的同时，大幅降低数据清洗的人力成本。通过 MinerU，用户可以轻松打通从原始文档到 AI 应用的数据链路，让非结构化文档真正变成可被智能体理解的高价值资产。",58197,"2026-04-06T01:37:49",[15,16,29,14,30],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":24,"env_os":97,"env_gpu":98,"env_ram":97,"env_deps":99,"category_tags":105,"github_topics":106,"view_count":24,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":144},5362,"sdv-dev\u002FCTGAN","CTGAN","Conditional GAN for generating synthetic tabular data.","CTGAN 是一款基于深度学习的开源工具，专为生成高质量的合成表格数据而设计。它能够学习真实数据的分布规律和特征，进而创造出在统计特性上与原始数据高度相似的“虚拟”数据，同时确保不泄露任何真实的隐私信息。\n\n在实际应用中，许多团队面临着数据稀缺、敏感数据无法共享或测试数据难以获取的困境。CTGAN 有效解决了这些痛点，让开发者无需担心隐私合规问题，就能获得充足的数据用于模型训练、软件测试或算法研究。目前，它主要实现了 CTGAN 和 TVAE 两种核心模型，这两种算法源自 NeurIPS 2019 会议的前沿论文，特别擅长处理包含连续值和离散值的复杂表格数据。\n\n这款工具非常适合数据科学家、机器学习工程师以及学术研究人员使用。如果你正在构建需要大量样本的预测模型，或者需要在保护用户隐私的前提下进行数据分析，CTGAN 将是一个得力的助手。虽然它也支持作为独立库安装，但官方更推荐通过 SDV（Synthetic Data Vault）生态系统来使用，这样可以享受更便捷的数据预处理流程和友好的接口设计。值得注意的是，当前版本仍处于预发布阶段，适合愿意探索前沿技术并进行实验性开发的用户。","\u003Cdiv align=\"center\">\n\u003Cbr\u002F>\n\u003Cp align=\"center\">\n    \u003Ci>This repository is part of \u003Ca href=\"https:\u002F\u002Fsdv.dev\">The Synthetic Data Vault Project\u003C\u002Fa>, a project from \u003Ca href=\"https:\u002F\u002Fdatacebo.com\">DataCebo\u003C\u002Fa>.\u003C\u002Fi>\n\u003C\u002Fp>\n\n[![Development Status](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDevelopment%20Status-2%20--%20Pre--Alpha-yellow)](https:\u002F\u002Fpypi.org\u002Fsearch\u002F?c=Development+Status+%3A%3A+2+-+Pre-Alpha)\n[![PyPI Shield](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fctgan.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Fctgan)\n[![Unit Tests](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Factions\u002Fworkflows\u002Funit.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Factions\u002Fworkflows\u002Funit.yml)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsdv-dev_CTGAN_readme_7ae7750e1d27.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fctgan)\n[![Coverage Status](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fsdv-dev\u002FCTGAN\u002Fbranch\u002Fmain\u002Fgraph\u002Fbadge.svg)](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fsdv-dev\u002FCTGAN)\n[![Forum](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FForum-Join%20now!-36C5F0)](https:\u002F\u002Fforum.datacebo.com)\n\n\u003Cdiv align=\"left\">\n\u003Cbr\u002F>\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\">\n\u003Cimg align=\"center\" width=40% src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsdv-dev_CTGAN_readme_1c6dcd14e573.png\">\u003C\u002Fimg>\n\u003C\u002Fa>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003C\u002Fdiv>\n\n# Overview\n\nCTGAN is a collection of Deep Learning based synthetic data generators for single table data, which are able to learn from real data and generate synthetic data with high fidelity.\n\n| Important Links                               |                                                                                           |\n| --------------------------------------------- | ------------------------------------------------------------------------------------------|\n| :computer: **[Website]**                      | Check out the SDV Website for more information about our overall synthetic data ecosystem.|\n| :orange_book: **[Blog]**                      | A deeper look at open source, synthetic data creation and evaluation.                     |\n| :book: **[Documentation]**                    | Quickstarts, User and Development Guides, and API Reference.                              |\n| :octocat: **[Repository]**                    | The link to the Github Repository of this library.                                        |\n| :keyboard: **[Development Status]**           | This software is in its Pre-Alpha stage.                                                  |\n| :busts_in_silhouette: **[DataCebo Forum]**    | Discuss CTGAN features, ask questions, and receive help.                                  |\n\n[Website]: https:\u002F\u002Fsdv.dev\n[Blog]: https:\u002F\u002Fdatacebo.com\u002Fblog\n[Documentation]: https:\u002F\u002Fbit.ly\u002Fsdv-docs\n[Repository]: https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\n[License]: https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fblob\u002Fmain\u002FLICENSE\n[Development Status]: https:\u002F\u002Fpypi.org\u002Fsearch\u002F?c=Development+Status+%3A%3A+2+-+Pre-Alpha\n[DataCebo Forum]: https:\u002F\u002Fforum.datacebo.com\n\nCurrently, this library implements the **CTGAN** and **TVAE** models described in the [Modeling Tabular data using Conditional GAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.00503) paper, presented at the 2019 NeurIPS conference.\n\n# Install\n\n## Use CTGAN through the SDV library\n\n:warning: If you're just getting started with synthetic data, we recommend installing the SDV library which provides user-friendly APIs for accessing CTGAN. :warning:\n\nThe SDV library provides wrappers for preprocessing your data as well as additional usability features like constraints. See the [SDV documentation](https:\u002F\u002Fbit.ly\u002Fsdv-docs) to get started.\n\n## Use the CTGAN standalone library\n\nAlternatively, you can also install and use **CTGAN** directly, as a standalone library:\n\n**Using `pip`:**\n\n```bash\npip install ctgan\n```\n\n**Using `conda`:**\n\n```bash\nconda install -c pytorch -c conda-forge ctgan\n```\n\nWhen using the CTGAN library directly, you may need to manually preprocess your data into the correct format, for example:\n\n* Continuous data must be represented as floats\n* Discrete data must be represented as ints or strings\n* The data should not contain any missing values\n\n# Usage Example\n\nIn this example we load the [Adult Census Dataset](https:\u002F\u002Farchive.ics.uci.edu\u002Fml\u002Fdatasets\u002Fadult)* which is a built-in demo dataset. We use CTGAN to learn from the real data and then generate some synthetic data.\n\n```python3\nfrom ctgan import CTGAN\nfrom ctgan import load_demo\n\nreal_data = load_demo()\n\n# Names of the columns that are discrete\ndiscrete_columns = [\n    'workclass',\n    'education',\n    'marital-status',\n    'occupation',\n    'relationship',\n    'race',\n    'sex',\n    'native-country',\n    'income',\n]\n\nctgan = CTGAN(epochs=10)\nctgan.fit(real_data, discrete_columns)\n\n# Create synthetic data\nsynthetic_data = ctgan.sample(1000)\n```\n\n*For more information about the dataset see:\nDua, D. and Graff, C. (2019). UCI Machine Learning Repository [http:\u002F\u002Farchive.ics.uci.edu\u002Fml].\nIrvine, CA: University of California, School of Information and Computer Science.\n\n# Join our community\n\nJoin our [forum](https:\u002F\u002Fforum.datacebo.com\u002F) to discuss more about CTGAN, ask questions, and receive help.\n\n**Interested in contributing to CTGAN?** Read our [Contribution Guide](CONTRIBUTING.rst) to get started.\n\n# Citing CTGAN\n\nIf you use CTGAN, please cite the following work:\n\n*Lei Xu, Maria Skoularidou, Alfredo Cuesta-Infante, Kalyan Veeramachaneni.* **Modeling Tabular data using Conditional GAN**. NeurIPS, 2019.\n\n```LaTeX\n@inproceedings{ctgan,\n  title={Modeling Tabular data using Conditional GAN},\n  author={Xu, Lei and Skoularidou, Maria and Cuesta-Infante, Alfredo and Veeramachaneni, Kalyan},\n  booktitle={Advances in Neural Information Processing Systems},\n  year={2019}\n}\n```\n\n# Related Projects\nPlease note that these projects are external to the SDV Ecosystem. They are not affiliated with or maintained by DataCebo.\n\n* **R Interface for CTGAN**: A wrapper around **CTGAN** that brings the functionalities to **R** users.\nMore details can be found in the corresponding repository: https:\u002F\u002Fgithub.com\u002Fkasaai\u002Fctgan\n* **CTGAN Server CLI**: A package to easily deploy CTGAN onto a remote server. Created by Timothy Pillow @oregonpillow at: https:\u002F\u002Fgithub.com\u002Foregonpillow\u002Fctgan-server-cli\n\n---\n\n\n\u003Cdiv align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fdatacebo.com\">\u003Cimg align=\"center\" width=40% src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsdv-dev_CTGAN_readme_fb9a1ef290ef.png\">\u003C\u002Fimg>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n[The Synthetic Data Vault Project](https:\u002F\u002Fsdv.dev) was first created at MIT's [Data to AI Lab](\nhttps:\u002F\u002Fdai.lids.mit.edu\u002F) in 2016. After 4 years of research and traction with enterprise, we\ncreated [DataCebo](https:\u002F\u002Fdatacebo.com) in 2020 with the goal of growing the project.\nToday, DataCebo is the proud developer of SDV, the largest ecosystem for\nsynthetic data generation & evaluation. It is home to multiple libraries that support synthetic\ndata, including:\n\n* 🔄 Data discovery & transformation. Reverse the transforms to reproduce realistic data.\n* 🧠 Multiple machine learning models -- ranging from Copulas to Deep Learning -- to create tabular,\n  multi table and time series data.\n* 📊 Measuring quality and privacy of synthetic data, and comparing different synthetic data\n  generation models.\n\n[Get started using the SDV package](https:\u002F\u002Fsdv.dev\u002FSDV\u002Fgetting_started\u002Finstall.html) -- a fully\nintegrated solution and your one-stop shop for synthetic data. Or, use the standalone libraries\nfor specific needs.\n","\u003Cdiv align=\"center\">\n\u003Cbr\u002F>\n\u003Cp align=\"center\">\n    \u003Ci>此仓库是 \u003Ca href=\"https:\u002F\u002Fsdv.dev\">合成数据保险库项目\u003C\u002Fa> 的一部分，该项目由 \u003Ca href=\"https:\u002F\u002Fdatacebo.com\">DataCebo\u003C\u002Fa> 推出。\u003C\u002Fi>\n\u003C\u002Fp>\n\n[![开发状态](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDevelopment%20Status-2%20--%20Pre--Alpha-yellow)](https:\u002F\u002Fpypi.org\u002Fsearch\u002F?c=Development+Status+%3A%3A+2+-+Pre-Alpha)\n[![PyPI盾牌](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fctgan.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Fctgan)\n[![单元测试](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Factions\u002Fworkflows\u002Funit.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Factions\u002Fworkflows\u002Funit.yml)\n[![下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsdv-dev_CTGAN_readme_7ae7750e1d27.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fctgan)\n[![覆盖率](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fsdv-dev\u002FCTGAN\u002Fbranch\u002Fmain\u002Fgraph\u002Fbadge.svg)](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fsdv-dev\u002FCTGAN)\n[![论坛](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FForum-Join%20now!-36C5F0)](https:\u002F\u002Fforum.datacebo.com)\n\n\u003Cdiv align=\"left\">\n\u003Cbr\u002F>\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\">\n\u003Cimg align=\"center\" width=40% src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsdv-dev_CTGAN_readme_1c6dcd14e573.png\">\u003C\u002Fimg>\n\u003C\u002Fa>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003C\u002Fdiv>\n\n# 概述\n\nCTGAN 是一系列基于深度学习的单表数据合成生成器，能够从真实数据中学习，并生成高保真度的合成数据。\n\n| 重要链接                               |                                                                                           |\n| --------------------------------------------- | ------------------------------------------------------------------------------------------|\n| :computer: **[官网]**                      | 访问 SDV 官网，了解更多关于我们整体合成数据生态的信息。|\n| :orange_book: **[博客]**                      | 深入探讨开源、合成数据的创建与评估。                     |\n| :book: **[文档]**                    | 快速入门、用户指南、开发指南以及 API 参考。                              |\n| :octocat: **[仓库]**                    | 此库的 GitHub 仓库链接。                                        |\n| :keyboard: **[开发状态]**           | 本软件目前处于预 Alpha 阶段。                                                  |\n| :busts_in_silhouette: **[DataCebo 论坛]**    | 讨论 CTGAN 功能、提问并获得帮助。                                  |\n\n[Website]: https:\u002F\u002Fsdv.dev\n[Blog]: https:\u002F\u002Fdatacebo.com\u002Fblog\n[Documentation]: https:\u002F\u002Fbit.ly\u002Fsdv-docs\n[Repository]: https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\n[License]: https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fblob\u002Fmain\u002FLICENSE\n[Development Status]: https:\u002F\u002Fpypi.org\u002Fsearch\u002F?c=Development+Status+%3A%3A+2+-+Pre-Alpha\n[DataCebo Forum]: https:\u002F\u002Fforum.datacebo.com\n\n目前，该库实现了在 2019 年 NeurIPS 大会上发表的论文 [使用条件 GAN 建模表格数据](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.00503) 中描述的 **CTGAN** 和 **TVAE** 模型。\n\n# 安装\n\n## 通过 SDV 库使用 CTGAN\n\n:warning: 如果您刚刚开始接触合成数据，我们建议安装 SDV 库，它提供了易于使用的 API 来访问 CTGAN。 :warning:\n\nSDV 库为您的数据预处理提供了封装，并包含约束等额外的易用性功能。请参阅 [SDV 文档](https:\u002F\u002Fbit.ly\u002Fsdv-docs) 开始使用。\n\n## 直接使用 CTGAN 独立库\n\n或者，您也可以直接安装和使用 **CTGAN** 作为独立库：\n\n**使用 `pip`:**\n\n```bash\npip install ctgan\n```\n\n**使用 `conda`:**\n\n```bash\nconda install -c pytorch -c conda-forge ctgan\n```\n\n直接使用 CTGAN 库时，您可能需要手动将数据预处理成正确的格式，例如：\n\n* 连续数据必须表示为浮点数\n* 离散数据必须表示为整数或字符串\n* 数据不应包含任何缺失值\n\n# 使用示例\n\n在本示例中，我们加载了 [Adult Census 数据集](https:\u002F\u002Farchive.ics.uci.edu\u002Fml\u002Fdatasets\u002Fadult)*，这是一个内置的演示数据集。我们使用 CTGAN 从真实数据中学习，然后生成一些合成数据。\n\n```python3\nfrom ctgan import CTGAN\nfrom ctgan import load_demo\n\nreal_data = load_demo()\n\n# 离散列的名称\ndiscrete_columns = [\n    'workclass',\n    'education',\n    'marital-status',\n    'occupation',\n    'relationship',\n    'race',\n    'sex',\n    'native-country',\n    'income',\n]\n\nctgan = CTGAN(epochs=10)\nctgan.fit(real_data, discrete_columns)\n\n# 创建合成数据\nsynthetic_data = ctgan.sample(1000)\n```\n\n*有关数据集的更多信息，请参阅：\nDua, D. 和 Graff, C. (2019). UCI 机器学习存储库 [http:\u002F\u002Farchive.ics.uci.edu\u002Fml]。\n加州欧文：加州大学信息与计算机科学学院。\n\n# 加入我们的社区\n\n加入我们的 [论坛](https:\u002F\u002Fforum.datacebo.com\u002F)，讨论更多关于 CTGAN 的内容，提问并获得帮助。\n\n**有兴趣为 CTGAN 做贡献吗？** 请阅读我们的 [贡献指南](CONTRIBUTING.rst) 开始行动。\n\n# 引用 CTGAN\n\n如果您使用 CTGAN，请引用以下文献：\n\n*Lei Xu, Maria Skoularidou, Alfredo Cuesta-Infante, Kalyan Veeramachaneni.* **使用条件 GAN 建模表格数据**。NeurIPS，2019 年。\n\n```LaTeX\n@inproceedings{ctgan,\n  title={Modeling Tabular data using Conditional GAN},\n  author={Xu, Lei and Skoularidou, Maria and Cuesta-Infante, Alfredo and Veeramachaneni, Kalyan},\n  booktitle={Advances in Neural Information Processing Systems},\n  year={2019}\n}\n```\n\n# 相关项目\n请注意，这些项目不属于 SDV 生态系统，与 DataCebo 无关联，也不由 DataCebo 维护。\n\n* **R 语言的 CTGAN 接口**：一个封装了 **CTGAN** 的工具，为 **R** 用户提供相关功能。\n更多详情请参阅相应仓库：https:\u002F\u002Fgithub.com\u002Fkasaai\u002Fctgan\n* **CTGAN 服务器命令行工具**：一个用于轻松将 CTGAN 部署到远程服务器的软件包。由 Timothy Pillow（@oregonpillow）开发，地址：https:\u002F\u002Fgithub.com\u002Foregonpillow\u002Fctgan-server-cli\n\n---\n\n\n\u003Cdiv align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fdatacebo.com\">\u003Cimg align=\"center\" width=40% src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsdv-dev_CTGAN_readme_fb9a1ef290ef.png\">\u003C\u002Fimg>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cbr\u002F>\n\u003Cbr\u002F>\n\n[合成数据 vault 项目](https:\u002F\u002Fsdv.dev) 最早于 2016 年在麻省理工学院的 [数据到 AI 实验室](\nhttps:\u002F\u002Fdai.lids.mit.edu\u002F) 创建。经过四年的研究以及在企业界的广泛应用后，我们于 2020 年成立了 [DataCebo](https:\u002F\u002Fdatacebo.com)，旨在进一步推动该项目的发展。\n如今，DataCebo 是 SDV 的自豪开发者，SDV 是目前最大的合成数据生成与评估生态系统。该生态体系包含多个支持合成数据的库，其中包括：\n\n* 🔄 数据发现与转换。通过逆向变换重现真实数据。\n* 🧠 多种机器学习模型——从 Copula 到深度学习——可用于生成表格型、多表结构及时间序列数据。\n* 📊 用于衡量合成数据的质量与隐私保护水平，并比较不同合成数据生成模型的工具。\n\n[开始使用 SDV 软件包](https:\u002F\u002Fsdv.dev\u002FSDV\u002Fgetting_started\u002Finstall.html)——这是一个完全集成的解决方案，也是您获取合成数据的一站式平台。或者，您也可以根据具体需求单独使用各个独立库。","# CTGAN 快速上手指南\n\nCTGAN 是一个基于深度学习的单表合成数据生成器，能够学习真实数据分布并生成高保真的合成数据。它实现了 **CTGAN** 和 **TVAE** 模型。\n\n## 环境准备\n\n*   **操作系统**: Linux, macOS, Windows\n*   **Python 版本**: 建议 Python 3.8+\n*   **前置依赖**:\n    *   PyTorch (用于深度学习后端)\n    *   Pandas, NumPy (用于数据处理)\n    *   *注：若通过 `pip` 或 `conda` 安装，大部分依赖会自动处理。*\n\n> **提示**：对于初学者，推荐直接安装 **SDV** 库，它提供了更友好的 API 和数据预处理功能。本指南专注于 **CTGAN 独立库** 的使用。\n\n## 安装步骤\n\n你可以选择使用 `pip` 或 `conda` 进行安装。国内用户建议使用清华或阿里镜像源以加速下载。\n\n### 方式一：使用 pip 安装（推荐）\n\n```bash\npip install ctgan -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 方式二：使用 conda 安装\n\n```bash\nconda install -c pytorch -c conda-forge ctgan\n```\n\n## 基本使用\n\n以下示例演示如何加载内置的成人人口普查数据集，指定离散列，训练模型并生成合成数据。\n\n### 1. 导入库与加载数据\n\n```python3\nfrom ctgan import CTGAN\nfrom ctgan import load_demo\n\n# 加载内置演示数据 (Adult Census Dataset)\nreal_data = load_demo()\n\n# 指定离散列的名称 (Categorical columns)\ndiscrete_columns = [\n    'workclass',\n    'education',\n    'marital-status',\n    'occupation',\n    'relationship',\n    'race',\n    'sex',\n    'native-country',\n    'income',\n]\n```\n\n### 2. 初始化与训练模型\n\n```python3\n# 初始化 CTGAN 模型，设置训练轮数 (epochs)\nctgan = CTGAN(epochs=10)\n\n# 拟合数据：传入真实数据和离散列列表\nctgan.fit(real_data, discrete_columns)\n```\n\n### 3. 生成合成数据\n\n```python3\n# 生成 1000 条合成数据\nsynthetic_data = ctgan.sample(1000)\n\n# 查看生成的数据前几行\nprint(synthetic_data.head())\n```\n\n### 数据预处理注意事项\n若使用自己的数据集而非 `load_demo()`，请确保：\n*   **连续数据**必须表示为浮点数 (`float`)。\n*   **离散数据**必须表示为整数 (`int`) 或字符串 (`string`)。\n*   数据中**不能包含缺失值** (`NaN`)，需预先清洗。","某金融科技公司风控团队需要在保护用户隐私的前提下，利用真实的信贷交易数据训练机器学习模型以识别欺诈行为。\n\n### 没有 CTGAN 时\n- **数据共享受限**：由于原始表格包含大量敏感个人信息（如收入、负债），受合规法规限制，数据科学家无法将生产环境数据导出到开发或测试环境。\n- **样本分布失衡**：真实数据中欺诈案例极少（占比不足 1%），直接训练导致模型严重偏向正常交易，难以捕捉罕见的欺诈模式。\n- **特征关联丢失**：传统简单的随机采样或加噪处理破坏了列与列之间复杂的非线性关系（如“年龄”与“贷款额度”的特定关联），导致合成数据无法反映真实业务逻辑。\n- **开发迭代缓慢**：团队需花费数周时间进行繁琐的数据脱敏审批和人工构造模拟数据，严重拖慢了模型原型的验证进度。\n\n### 使用 CTGAN 后\n- **安全数据生成**：CTGAN 学习真实数据的统计分布后，生成高保真的合成表格数据，既保留了原始数据的数学特性，又彻底切断了与具体个人的关联，满足合规共享要求。\n- **平衡类别分布**：通过条件生成机制，团队可指定生成特定比例的欺诈样本，人为扩充少数类数据，显著提升了模型对异常交易的识别准确率。\n- **保持复杂关联**：基于条件 GAN 架构，CTGAN 精准还原了离散型与连续型特征间复杂的依赖关系，确保在合成数据上训练的模型性能与真实场景高度一致。\n- **加速研发流程**：数据工程师只需几行代码即可在本地快速生成大规模数据集，将原本数周的数据准备周期缩短至几小时，大幅提升了算法迭代效率。\n\nCTGAN 通过生成高保真且合规的合成表格数据，成功打破了数据隐私与模型训练效果之间的僵局，让风控模型在安全环境中得以高效进化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsdv-dev_CTGAN_5e290204.png","sdv-dev","The Synthetic Data Vault Project","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsdv-dev_c69e3c1a.png","",null,"sdv@sdv.dev","https:\u002F\u002Fsdv.dev","https:\u002F\u002Fgithub.com\u002Fsdv-dev",[85,89],{"name":86,"color":87,"percentage":88},"Python","#3572A5",95.2,{"name":90,"color":91,"percentage":92},"Makefile","#427819",4.8,1544,329,"2026-04-07T17:21:44","NOASSERTION","未说明","未说明 (基于深度学习模型，通常建议使用支持 CUDA 的 NVIDIA GPU 以加速训练，但 README 未明确强制要求)",{"notes":100,"python":97,"dependencies":101},"该工具是 SDV (Synthetic Data Vault) 项目的一部分。可以通过 pip 或 conda 安装。如果直接使用 CTGAN 库（而非通过 SDV），用户需要手动预处理数据：连续数据必须为浮点数，离散数据必须为整数或字符串，且数据中不能包含缺失值。目前软件处于 Pre-Alpha（预阿尔法）开发阶段。",[102,103,104],"torch","pandas","numpy",[16],[107,108,109,110,111],"synthetic-data","generative-adversarial-network","tabular-data","data-generation","synthetic-data-generation","2026-03-27T02:49:30.150509","2026-04-08T12:52:14.312830",[115,120,125,130,135,140],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},24318,"如何让 CTGAN 生成具有特定约束关系的数据（例如：某公司只能对应特定的几个部门）？","CTGAN 本身倾向于随机生成数据，若需满足特定的列间约束关系（如一对多映射），应使用 SDV 库中的“约束（Constraints）”功能。您可以参考 SDV 用户指南中关于处理单表约束的文档来定义这些规则，从而确保生成的数据符合业务逻辑。","https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F61",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},24319,"能否利用其他列的信息，仅针对单个列使用 CTGAN 进行数据生成？","不能直接实现。CTGAN 的设计逻辑是基于最多一个固定变量来生成所有其他变量的随机值，而不是基于所有其他固定变量来生成单个变量的值。如果您需要基于 N 个随机变量条件化生成 M 个其他变量的功能，目前的 CTGAN 架构尚不支持，这可能需要对项目进行重大重构。","https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F64",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},24320,"在使用 CTGAN 进行不平衡数据的条件采样时，出现\"No valid rows could be generated\"错误怎么办？","CTGAN 在处理离散列的条件采样时效果最好。如果遇到该错误，请尝试在初始化模型时显式指定目标列为分类类型（categorical）。代码示例：\nmodel = CTGAN(field_types={'Driver_Severity': {'type': 'categorical'}})\nmodel.fit(data)\nconditions = {\"Driver_Severity\": 1}\nsampled = model.sample(1000, conditions=conditions)\n虽然 CTGAN 也支持连续值的条件采样（通过拒绝采样），但将其建模为分类类型会显著提高采样成功率。","https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F172",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},24321,"为什么采样后的数据中数值列都变成了浮点型，如何恢复原始数据类型？","这是已知行为，采样后数值列通常会转换为浮点型。解决方案是在采样后利用 Pandas 的功能恢复原始数据类型。如果输入是 DataFrame，库内部会尝试恢复 dtype；如果输入是 NumPy 数组，由于数组通常统一为最宽泛的类型（如 object），建议在采样后将结果转换回 DataFrame 并使用 `infer_objects()` 或手动根据原始数据的 `dtypes` 进行类型转换（例如使用 `astype()`）。","https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F26",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},24322,"CTGAN 对数据表的列数有限制吗？处理上万列时报内存错误如何解决？","CTGAN 没有硬性的列数限制，但其内存消耗随列数增加而急剧增长。尝试拟合拥有 1.5 万至 1.6 万列的数据时，模型试图分配高达 20TB 的内存会导致运行时错误（RuntimeError）。对于如此高维的数据（如基因组数据），直接使用 CTGAN 可能不可行，建议先进行特征选择、降维（如 PCA）或将数据分块处理，以减少输入模型的列数。","https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F95",{"id":141,"question_zh":142,"answer_zh":143,"source_url":129},24323,"SDV 包装器中的 CTGAN 条件采样功能与原始论文中的实现有何不同？","在 SDV 库包装下的 CTGAN，其条件采样功能退化为默认的“拒绝采样（rejection sampling）”，这可能效率较低或在某些条件下失败。如果您需要使用 CTGAN 论文中提出的原生条件采样机制，建议直接使用 `CTGAN` 独立库（pip install ctgan），而不是通过 `SDV` 库调用，以获得更精准的控制和性能。",[145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240],{"id":146,"version":147,"summary_zh":148,"released_at":149},153823,"v0.12.1","### v0.12.1 - 2026-02-12\n\n### 新特性\n\n* 在 `verbose` 模式下，将进度条的前缀设置为固定长度 - 由 @fealho 解决的 [#487](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F487) 问题\n\n### 维护\n\n* 更新 README 及其他元信息，使其指向 DataCebo 论坛 - 由 @pvk-developer 解决的 [#489](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F489) 问题\n* 将 pyproject.toml 中的许可证信息更新为新格式 - 由 @pvk-developer 解决的 [#480](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F480) 问题","2026-02-13T03:09:04",{"id":151,"version":152,"summary_zh":153,"released_at":154},153824,"v0.12.0","### v0.12.0 - 2026-01-27\n\n### 内部\n\n* 更新代码风格检查规则 - 问题 [#471](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F471) 由 @gsheni 提出\n\n### 维护\n\n* 支持 Python 3.14 - 问题 [#481](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F481) 由 @gsheni 提出\n* 根据运行器停用通知更新 macOS 工作流运行器 - 问题 [#477](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F477) 由 @gsheni 提出\n\n### 杂项\n\n* 最小化工作流磁盘空间不足 - 问题 [#478](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F478) 由 @gsheni 提出\n","2026-01-27T21:27:45",{"id":156,"version":157,"summary_zh":158,"released_at":159},153825,"v0.11.1","### v0.11.1 - 2025-10-30\n\n### 新特性\n\n* 将 _get_enable_gpu_value 方法设为公共方法 - 由 @R-Palazzo 解决的 [#466](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F466) 问题\n* 在 macOS 上启用 GPU 使用（通过 MPS）- 由 @R-Palazzo 解决的 [#462](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F462) 问题\n\n### 已修复的缺陷\n\n* 所有版本号更新命令均失败 - 由 @amontanez24 解决的 [#439](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F439) 问题\n\n### 文档\n\n* 更新发布文档 - 由 @gsheni 解决的 [#473](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F473) 问题\n\n### 内部改进\n\n* 检查 pyproject 文件中的候选版本依赖项 - 由 @rwedge 解决的 [#445](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F445) 问题\n\n### 维护工作\n\n* 移除对 Python 3.8 的支持 - 由 @fealho 解决的 [#469](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F469) 问题\n* 添加在 PyPI 上发布 CTGAN 的工作流 - 由 @gsheni 解决的 [#451](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F451) 问题\n* 更新工作流中的 Python 设置步骤，使用最新版本的 Python - 由 @frances-h 解决的 [#416](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F416) 问题","2025-10-30T21:27:27",{"id":161,"version":162,"summary_zh":163,"released_at":164},153826,"v0.11.0","### 新功能\n\n* 如果训练数据包含空值，在拟合过程中向用户显示表面错误 - 由 @rwedge 提出的议题 [#414](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F414)\n\n### 维护\n\n* 将 `static_code_analysis.yml` 与 `release_notes.yml` 合并 - 由 @R-Palazzo 提出的议题 [#421](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F421)\n* 支持 Python 3.13 - 由 @rwedge 提出的议题 [#411](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F411)\n* 更新 Codecov 并添加集成测试标志 - 由 @pvk-developer 提出的议题 [#410](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F410)","2025-02-26T20:06:21",{"id":166,"version":167,"summary_zh":168,"released_at":169},153827,"v0.10.2","### 修复的缺陷\n\n* 在 CTGAN 支持之前，将 numpy 限制在 2.0.0 以下 - 由 @gsheni 提出的 [#387](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F387) 问题\n* 演示数据中存在多余的空白字符 - 由 @R-Palazzo 提出的 [#233](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F233) 问题\n\n### 内部改进\n\n* 添加用于生成发布说明的工作流 - 由 @amontanez24 提出的 [#404](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F404) 问题\n\n### 维护工作\n\n* 切换到使用 ruff 进行 Python 代码检查和格式化 - 由 @gsheni 提出的 [#335](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F335) 问题\n\n### 其他\n\n* 添加对 numpy 2.0.0 的支持 - 由 @R-Palazzo 提出的 [#386](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F386) 问题","2024-10-22T15:46:16",{"id":171,"version":172,"summary_zh":173,"released_at":174},153828,"v0.10.1","此版本移除了之前充斥控制台的警告信息。\n\n### 维护\n\n* 清理自动化 PR 工作流 - 由 @R-Palazzo 提交的议题 [#370](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F370)\n* 在 macOS 上仅针对 Python 的最早和最新版本运行单元测试和集成测试 - 由 @R-Palazzo 提交的议题 [#375](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F375)\n\n### 内部\n\n* 移除 FutureWarning：设置不兼容数据类型的数据项已弃用 - 由 @fealho 提交的议题 [#373](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F373)","2024-05-13T15:40:02",{"id":176,"version":177,"summary_zh":178,"released_at":179},153829,"v0.10.0","本次发布新增对 Python 3.12 的支持！\n\n### 维护\n\n* 支持 Python 3.12 - 由 @fealho 解决的 [#324](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F324) 问题\n* 移除 scikit-learn 依赖 - 由 @R-Palazzo 解决的 [#346](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F346) 问题\n* 添加 bandit 工作流 - 由 @R-Palazzo 解决的 [#353](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F353) 问题\n\n### 内部\n\n* 替换使用 iris 示例数据的集成测试 - 由 @R-Palazzo 解决的 [#352](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F352) 问题\n\n### 已修复的缺陷\n\n* 修复指向 GitHub 分支时的最低版本工作流问题 - 由 @R-Palazzo 解决的 [#355](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F355) 问题","2024-04-11T20:29:56",{"id":181,"version":182,"summary_zh":183,"released_at":184},153830,"v0.9.1","本次发布将 CTGAN 模型的 `loss_values` 属性改为存储浮点数，而非 `torch.Tensor` 对象。\n\n### 新特性\n\n* 将损失值返回为浮点数，而非 PyTorch 对象 - 由 @fealho 解决的 [#332](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F332) 问题\n\n### 维护\n\n* 从使用 `setup.py` 迁移到使用 `pyproject.toml` 来指定项目元数据 - 由 @R-Palazzo 解决的 [#333](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F333) 问题\n* 移除 `bumpversion`，改用 `bump-my-version` - 由 @R-Palazzo 解决的 [#334](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F334) 问题\n* 添加依赖检查工具 - 由 @amontanez24 解决的 [#336](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F336) 问题","2024-03-14T15:07:37",{"id":186,"version":187,"summary_zh":188,"released_at":189},153831,"v0.9.0","此版本通过保存每个类别值的频率，使 CTGAN 采样更加高效。\n\n### 新特性\n* 提升 DataSampler 效率 - 由 @fealho 提交的议题 [#327](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissue\u002F327)","2024-02-13T21:29:13",{"id":191,"version":192,"summary_zh":193,"released_at":194},153832,"v0.8.0","本次发布新增了一个进度条，当在初始化 `TVAE` 时将 `verbose` 参数设置为 `True` 时，进度条将会显示。\n\n### 新特性\n\n* 添加 TVAE 的详细输出（进度条 + 保存损失值） - 由 @frances-h 解决的 [#300](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F300) 问题","2023-11-13T18:57:49",{"id":196,"version":197,"summary_zh":198,"released_at":199},153833,"v0.7.5","This release adds a progress bar that will show when setting the `verbose` parameter to True when initializing `CTGAN`. It also removes a warning that was showing.\r\n\r\n### Maintenance\r\n\r\n* Remove model_missing_values from ClusterBasedNormalizer call - PR [#310](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fpull\u002F310) by @fealho\r\n* Switch default branch from master to main - Issue [#311](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F311) by @amontanez24\r\n* Remove or implement CTGAN tests - Issue [#312](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F312) by @fealho\r\n\r\n### New Features\r\n\r\n* Add progress bar for CTGAN fitting (+ save the loss values) - Issue [#298](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F298) by @frances-h","2023-10-05T21:42:57",{"id":201,"version":202,"summary_zh":203,"released_at":204},153834,"v0.7.4","This release adds support for Python 3.11 and drops support for Python 3.7.\r\n\r\n### Maintenance\r\n\r\n* Why is there an upper bound in the packaging requirement? (packaging\u003C22) - Issue [#276](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F276) by @fealho\r\n* Add support for Python 3.11 - Issue [#296](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F296) by @fealho\r\n* Drop support for Python 3.7 - Issue [#302](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F302) by @fealho","2023-07-27T18:09:51",{"id":206,"version":207,"summary_zh":208,"released_at":209},153835,"v0.7.3","This release adds support for Torch 2.0!\r\n\r\n### Bugs Fixed\r\n\r\n* Torch 2.0 fails with cuda=False - Issue [#288](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F288) by @amontanez24\r\n\r\n### Maintenance\r\n\r\n* Upgrade to torch 2.0 - Issue [#280](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F280) by @frances-h","2023-05-25T18:59:45",{"id":211,"version":212,"summary_zh":213,"released_at":214},153836,"v0.7.2","This release adds support for Pandas 2.0! It also fixes a bug in the `load_demo` function.\r\n\r\n### Bugs Fixed\r\n\r\n* load_demo raises urllib.error.HTTPError: HTTP Error 403: Forbidden - Issue [#284](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F284) by @amontanez24\r\n\r\n### Maintenance\r\n\r\n* Remove upper bound for pandas - Issue [#282](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F282) by @frances-h","2023-05-09T17:54:18",{"id":216,"version":217,"summary_zh":218,"released_at":219},153837,"v0.7.1","This release fixes a bug that prevented the `CTGAN` model from being saved after sampling.\r\n\r\n### Bugs Fixed\r\n\r\n* Cannot save CTGANSynthesizer after sampling (TypeError) - Issue [#270](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F270) by @pvk-developer","2023-02-23T22:28:31",{"id":221,"version":222,"summary_zh":223,"released_at":224},153838,"v0.7.0","This release adds support for python 3.10 and drops support for python 3.6. It also fixes a couple of the most common warnings that were surfacing.\r\n\r\n### New Features\r\n\r\n* Support Python 3.10 and 3.11 - Issue [#259](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F259) by @pvk-developer\r\n\r\n### Bugs Fixed\r\n\r\n* Fix SettingWithCopyWarning (may be leading to a numerical calculation bug) - Issue [#215](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F215) by @amontanez24\r\n* FutureWarning in data_transformer with pandas 1.5.0 - Issue [#246](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F246) by @amontanez24\r\n\r\n### Maintenance\r\n\r\n* CTGAN Package Maintenance Updates - Issue [#257](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F257) by @amontanez24","2023-01-20T22:24:40",{"id":226,"version":227,"summary_zh":228,"released_at":229},153839,"v0.6.0","This release renames the models in CTGAN. `CTGANSynthesizer` is now called `CTGAN` and `TVAESynthesizer` is now called `TVAE`.\r\n\r\n### New Features\r\n\r\n* Rename synthesizers - Issue [#243](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F243) by @amontanez24","2022-10-07T17:31:56",{"id":231,"version":232,"summary_zh":233,"released_at":234},153840,"v0.5.2","This release updates CTGAN to use the latest version of RDT. It also includes performance and robustness updates to the data transformer.\r\n\r\n### Issues closed\r\n* Bump rdt version - Issue [#242](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F242) by @katxiao\r\n* Single thread data transform is slow for huge table - Issue [#151](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F151) by @mfhbree\r\n* Fix RDT api - Issue [#232](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F232) by @pvk-developer\r\n* Update macos to use latest version. - Issue [#237](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F237) by @pvk-developer\r\n* Update the RDT version to 1.0 - Issue [#224](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F224) by @pvk-developer\r\n* Update slack invite link. - Issue [#222](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F222) by @pvk-developer\r\n* robustness fix, when data have less rows than the default number of cl… - Issue [#211](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F211) by @Deathn0t","2022-08-19T03:12:10",{"id":236,"version":237,"summary_zh":238,"released_at":239},153841,"v0.5.1","### Issues closed\r\n\r\n* Update self.decoder with correct variable name - Issue [#203](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F203) by @tejuafonja\r\n* Add random state - Issue [#204](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F204) by @katxiao","2022-02-25T20:53:38",{"id":241,"version":242,"summary_zh":243,"released_at":244},153842,"v0.5.0","This release adds support for Python 3.9 and updates dependencies to ensure compatibility with the rest of the SDV ecosystem, and upgrades to the latests [RDT](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FRDT\u002Freleases\u002Ftag\u002Fv0.6.1) release.\r\n\r\n### Issues closed\r\n\r\n* Add support for Python 3.9 - Issue [#177](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F177) by @pvk-developer\r\n* Add pip check to CI workflows - Issue [#174](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F174) by @pvk-developer\r\n* Typo in `CTGAN` code - Issue [#158](https:\u002F\u002Fgithub.com\u002Fsdv-dev\u002FCTGAN\u002Fissues\u002F158) by @ori-katz100 and @fealho\r\n","2021-11-18T21:42:32"]