[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mostly-ai--mostlyai":3,"tool-mostly-ai--mostlyai":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":104,"forks":105,"last_commit_at":106,"license":107,"difficulty_score":23,"env_os":108,"env_gpu":109,"env_ram":110,"env_deps":111,"category_tags":119,"github_topics":120,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":128,"updated_at":129,"faqs":130,"releases":160},2377,"mostly-ai\u002Fmostlyai","mostlyai","Synthetic Data SDK ✨","mostlyai 是一款专为生成高保真、隐私安全的合成数据而设计的 Python 开发工具包。它主要解决了企业在数据共享、模型训练或测试时，因隐私合规限制而无法直接使用真实敏感数据的难题，让用户能够在不泄露原始信息的前提下，创造出统计特征高度一致的虚拟数据集。\n\n这款工具非常适合数据科学家、AI 工程师以及需要处理敏感数据的研究人员使用。无论是需要在本地利用自有算力进行训练，还是希望通过云端平台协作，mostlyai 都能提供灵活的支持。其核心亮点在于强大的数据兼容性，不仅能处理表格、时间序列，还能合成文本和地理空间等多模态数据。技术上，它集成了先进的 TabularARGN 模型和差分隐私技术，确保生成数据既精准又安全。此外，mostlyai 还内置了自动化的质量评估体系，可生成详细的分析报告，并支持条件采样、数据重平衡及公平性控制等高级功能，帮助开发者轻松实现从数据连接到生成的全流程自动化，无缝融入现有的数据工作流中。","# Synthetic Data SDK ✨\n\n[![GitHub Release](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fmostly-ai\u002Fmostlyai)](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Freleases)\n[![Documentation](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-latest-green)](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002F)\n[![PyPI Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmostly-ai_mostlyai_readme_61ae556b45b5.png)](https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fmostlyai)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fmostly-ai\u002Fmostlyai)](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fblob\u002Fmain\u002FLICENSE)\n[![PyPI - Python Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Fmostlyai)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmostlyai\u002F)\n[![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmostly-ai\u002Fmostlyai?style=social)](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fstargazers)\n\n[Documentation](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002F) | [Technical White Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.00718) | [Usage Examples](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fusage\u002F) | [Free Cloud Service](https:\u002F\u002Fapp.mostly.ai\u002F)\n\nThe **Synthetic Data SDK** is a Python toolkit for high-fidelity, privacy-safe **Synthetic Data**.\n\n- **LOCAL** mode trains and generates synthetic data locally on your own compute resources.\n- **CLIENT** mode connects to a remote MOSTLY AI platform for training & generating synthetic data there.\n- Generators, that were trained locally, can be easily imported to a platform for further sharing.\n\n## Overview\n\nThe SDK allows you to programmatically create, browse and manage 3 key resources:\n\n1. **Generators** - Train a synthetic data generator on your existing tabular or language data assets\n2. **Synthetic Datasets** - Use a generator to create any number of synthetic samples to your needs\n3. **Connectors** - Connect to any data source within your organization, for reading and writing data\n\n| Intent                                        | Primitive                         | API Reference                                                                                                 |\n|-----------------------------------------------|-----------------------------------|---------------------------------------------------------------------------------------------------------------|\n| Train a Generator on tabular or language data | `g = mostly.train(config)`        | [mostly.train](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.train)       |\n| Generate any number of synthetic data records | `sd = mostly.generate(g, config)` | [mostly.generate](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.generate) |\n| Live probe the generator on demand            | `df = mostly.probe(g, config)`    | [mostly.probe](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.probe)       |\n| Connect to any data source within your org    | `c = mostly.connect(config)`      | [mostly.connect](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.connect)   |\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9e233213-a259-455c-b8ed-d1f1548b492f\n\n## Key Features\n\n- **Broad Data Support**\n  - Mixed-type data (categorical, numerical, geospatial, text, etc.)\n  - Single-table, multi-table, and time-series\n- **Multiple Model Types**\n  - State-of-the-art performance via TabularARGN\n  - DNN-based match making for graph relations\n  - Fine-tune Hugging Face hosted language models\n  - Efficient LSTM for text synthesis from scratch\n- **Advanced Training Options**\n  - GPU\u002FCPU support\n  - Differential Privacy\n  - Progress Monitoring\n- **Automated Quality Assurance**\n  - Quality metrics for fidelity and privacy\n  - In-depth HTML reports for visual analysis\n- **Flexible Sampling**\n  - Up-sample to any data volumes\n  - Conditional simulations based on any columns\n  - Re-balance underrepresented segments\n  - Context-aware data imputation\n  - Statistical fairness controls\n  - Rule-adherence via temperature\n- **Seamless Integration**\n  - Connect to external data sources (DBs, cloud storages)\n  - Fully permissive open-source license\n\n## Quick Start \u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmostly-ai\u002Fmostlyai\u002Fblob\u002Fmain\u002Fdocs\u002Ftutorials\u002Fgetting-started\u002Fgetting-started.ipynb\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpen%20in-Colab-blue?logo=google-colab\" alt=\"Run on Colab\">\u003C\u002Fa>\n\nInstall the SDK via `pip` (see [Installation](#installation) for further details):\n\n```shell\npip install -U mostlyai  # or 'mostlyai[local]' for LOCAL mode\n```\n\nGenerate synthetic samples using a pre-trained generator:\n\n```python\n# initialize the SDK\nfrom mostlyai.sdk import MostlyAI\nmostly = MostlyAI()\n\n# import a trained generator\ng = mostly.generators.import_from_file(\n  \"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fpublic-demo-data\u002Fraw\u002Fdev\u002Fcensus\u002Fcensus-generator.zip\"\n)\n\n# probe for 1000 representative synthetic samples\ndf = mostly.probe(g, size=1000)\ndf\n```\n\nGenerate synthetic samples based on fixed column values:\n\n```python\n# create 10k records of 24y male respondents\ndf = mostly.probe(g, seed=[{\"age\": 24, \"sex\": \"Male\"}] * 10_000)\ndf\n```\n\nAnd now train your very own synthetic data generator:\n\n```python\n# load original data\nimport pandas as pd\noriginal_df = pd.read_csv(\n  \"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fpublic-demo-data\u002Fraw\u002Fdev\u002Ftitanic\u002Ftitanic.csv\"\n)\n\n# train a single-table generator, with default configs\ng = mostly.train(\n  name=\"Quick Start Demo - Titanic\",\n  data=original_df,\n)\n\n# display the quality assurance report\ng.reports(display=True)\n\n# generate a representative synthetic dataset, with default configs\nsd = mostly.generate(g)\ndf = sd.data()\n\n# or simply probe for some samples\ndf = mostly.probe(g, size=100)\ndf\n```\n\n## Performance\n\nThe SDK is being developed with a focus on efficiency, accuracy, and flexibility, with best-in-class performance across all three. Results will ultimately depend on the training data itself (size, structure, and content), on the available compute (CPU vs GPU), as well as on the chosen training configurations (model, epochs, samples, etc.). Thus, a crawl \u002F walk \u002F run approach is recommended — starting with a subset of samples training for a limited amount of time, to then gradually scale up, to yield optimal results for use case at hand.\n\n### Tabular Models\n\nTabular models within the SDK are built on TabularARGN ([arXiv:2501.12012](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12012)), which achieves best-in-class synthetic data quality while being 1–2 orders of magnitude more efficient than comparable models. This efficiency enables the training and generation of millions of synthetic records within minutes, even on CPU environments.\n\n![TabularARGN Benchmark](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmostly-ai_mostlyai_readme_034fcba76721.png)\n\n### Language Models\n\nThe default language model is a basic, non-pre-trained LSTM (`LSTMFromScratch-3m`), particularly effective for textual data with limited scope (short lengths, narrow variety) and sufficient training samples.\n\nAlternatively, any pre-trained language model, that is available via the [Hugging Face Hub](https:\u002F\u002Fhuggingface.co\u002F) and that supports the [AutoModelForCausalLM](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fauto#transformers.AutoModelForCausalLM) class, can be selected to be then fine-tuned on the provided training data. These models start out already with a general world knowledge, and then adapt to the training data for generating high-fidelity synthetic samples even in sparse data domains. The final performance will once again largely depend on the chosen model configurations.\n\nIn either case, a modern GPU is highly recommended when working with language models.\n\n## Installation\n\nUse `pip` (or better `uv pip`) to install the official `mostlyai` package via PyPI. Python 3.10 or higher is required.\n\nIt is highly recommended to install the package within a dedicated virtual environment using `uv` (see [here](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F)):\n\n\u003Cdetails>\n\n  \u003Csummary>Setup of \u003Ccode>uv\u003C\u002Fcode> on Unix \u002F macOS\u003C\u002Fsummary>\n\n```shell\n# Install uv if you don't have it yet\ncurl -Ls https:\u002F\u002Fastral.sh\u002Fuv\u002Finstall.sh | bash\n\n# Create and activate a Python 3.12 environment with uv\nmkdir ~\u002Fsynthetic-data-sdk; cd ~\u002Fsynthetic-data-sdk\nuv venv -p 3.12\n\n# Activate virtual environment\nsource .venv\u002Fbin\u002Factivate\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>Setup of \u003Ccode>uv\u003C\u002Fcode> on Windows\u003C\u002Fsummary>\n\n```shell\n# Install uv if you don't have it yet\nirm https:\u002F\u002Fastral.sh\u002Fuv\u002Finstall.ps1 | iex\n\n# Create and activate a Python 3.12 environment with uv\nmkdir ~\u002Fsynthetic-data-sdk; cd ~\u002Fsynthetic-data-sdk\nuv venv -p 3.12\n\n# Activate virtual environment\n.venv\\Scripts\\activate\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>Run Jupyter Lab session via \u003Ccode>uv\u003C\u002Fcode>\u003C\u002Fsummary>\n\n```shell\n# Optionally launch jupyter session after SDK installation\nuv run --with jupyter jupyter lab\n```\n\n\u003C\u002Fdetails>\n\n### CLIENT mode\n\nThis is a light-weight installation for using the SDK in CLIENT mode only. It communicates to a MOSTLY AI platform to perform requested tasks. See e.g. [app.mostly.ai](https:\u002F\u002Fapp.mostly.ai\u002F) for a free-to-use hosted version.\n\n```shell\nuv pip install -U mostlyai\n```\n\n### CLIENT + LOCAL mode\n\nThis is a full installation for using the SDK in both CLIENT and LOCAL mode. It includes all dependencies, incl. PyTorch, for training and generating synthetic data locally.\n\n```shell\nuv pip install -U 'mostlyai[local]'\n```\n\nor alternatively for a GPU setup on Linux (needed for LLM finetuning and inference):\n\n```shell\nuv pip install -U 'mostlyai[local-gpu]'\n```\n\nOn Linux, one can explicitly install the CPU-only variant of torch together with `mostlyai[local]`:\n\n```shell\n# uv pip install\nuv pip install --index-strategy unsafe-first-match -U torch==2.9.1+cpu torchvision==0.24.1+cpu 'mostlyai[local]' --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcpu\n```\n\n```shell\n# standard pip install\npip install -U torch==2.9.1+cpu torchvision==0.24.1+cpu 'mostlyai[local]' --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcpu\n```\n\n\n> **Note for Google Colab users**: Installing any of the local extras (`mostlyai[local]`, or `mostlyai[local-gpu]`) might need restarting the runtime after installation for the changes to take effect.\n\n### Data Connectors\n\nAdd any of the following extras for further data connectors support in LOCAL mode: `databricks`, `googlebigquery`, `hive`, `mssql`, `mysql`, `oracle`, `postgres`, `redshift`, `snowflake`. E.g.\n\n```shell\nuv pip install -U 'mostlyai[local, databricks, snowflake]'\n```\n\n### Using Docker\n\nAs an alternative, you can also build a Docker image, which provides you with an isolated environment for running the SDK in LOCAL mode, with all connector dependencies pre-installed. This approach ensures a consistent runtime environment across all systems. Before proceeding, make sure [Docker](https:\u002F\u002Fdocs.docker.com\u002Fget-started\u002Fget-docker\u002F) is installed on your system.\n\n\u003Cdetails>\n\n  \u003Csummary>Get the image\u003C\u002Fsummary>\n\n  \u003Cul>\n  \u003Cli>\u003Cstrong>Pull from official repository\u003C\u002Fstrong>\u003C\u002Fli>\n  \u003C\u002Ful>\n\n  \u003Ccode>docker pull --platform=linux\u002Famd64 ghcr.io\u002Fmostly-ai\u002Fsdk\u003C\u002Fcode>\n\n  \u003Cul>\n  \u003Cli>\u003Cstrong>Pull from official repository\u003C\u002Fstrong>\u003C\u002Fli>\n  \u003C\u002Ful>\n\n  If your environment is capable of executing Makefile (see \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fblob\u002Fmain\u002FMakefile#L47-L73\">here\u003C\u002Fa>), then execute \u003Ccode>make docker-build\u003C\u002Fcode>.\n\n  Otherwise, use \u003Ccode>docker buildx build . --platform=linux\u002Famd64 -t ghcr.io\u002Fmostly-ai\u002Fsdk\u003C\u002Fcode> instead.\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>Start the container\u003C\u002Fsummary>\n\n  \u003Cp>This will launch the SDK in LOCAL mode on port 8080 inside the container.\u003C\u002Fp>\n\n  \u003Cp>If your environment is capable of executing Makefile, then execute \u003Ccode>make docker-run\u003C\u002Fcode>. Or \u003Ccode>make docker-run HOST_PORT=8080\u003C\u002Fcode> to forward to a host port of your choice. One could also mount the \u003Ccode>local_dir\u003C\u002Fcode> via \u003Ccode>make docker-run HOST_LOCAL_DIR=\u002Fpath\u002Fto\u002Fhost\u002Ffolder\u003C\u002Fcode> to make the generators and synthetic datasets directly accessible from the host.\u003C\u002Fp>\n\n  \u003Cp>Otherwise, use \u003Ccode>docker run --platform=linux\u002Famd64 -p 8080:8080 ghcr.io\u002Fmostly-ai\u002Fsdk\u003C\u002Fcode> instead. Optionally, you can use the \u003Ccode>-v\u003C\u002Fcode> flag to mount a \u003Ca href=\"https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Fstorage\u002Fvolumes\u002F#syntax\">volume\u003C\u002Fa> for passing files between the host and the container.\u003C\u002Fp>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>Connect to the container\u003C\u002Fsummary>\n\n  \u003Cp>You can now connect to the SDK running within the container by initializing the SDK in \u003Ccode>CLIENT\u003C\u002Fcode>> mode on the host machine.\u003C\u002Fp>\n\n  ```python\n  from mostlyai.sdk import MostlyAI\n\n  mostly = MostlyAI(base_url=\"http:\u002F\u002Flocalhost:8080\")\n  ```\n\n\u003C\u002Fdetails>\n\n### Air-gapped Environments\n\nFor air-gapped environments (without internet access), you must install the package using the provided wheel files, including any optional dependencies you require.\n\nIf your application depends on a Hugging Face language model, you’ll also need to manually download and transfer the model files.\n\n\u003Cdetails>\n\n  \u003Csummary>Download models from Hugging Face Hub\u003C\u002Fsummary>\n\n\u003Cp>On a machine with internet access, run the following Python script, to download the Hugging Face model to your local Hugging Face cache.\u003C\u002Fp>\n\n```python\n#! uv pip install huggingface-hub\nfrom pathlib import Path\nfrom huggingface_hub import snapshot_download\npath = snapshot_download(\n    repo_id=\"Qwen\u002FQwen2.5-Coder-0.5B\",  # change accordingly\n    token=None,  # insert your HF TOKEN for gated models\n)\nprint(f\"COPY `{Path(path).parent.parent}`\")\n```\n\nNext, transfer the printed directory to the air-gapped environment's cache directory located at `~\u002F.cache\u002Fhuggingface\u002Fhub\u002F` (respectively to `HF_HOME`, if that environment variable has been set).\n\n\u003C\u002Fdetails>\n\n\n## Citation\n\nPlease consider citing our project if you find it useful:\n\n```bibtex\n@misc{mostlyai,\n      title={Democratizing Tabular Data Access with an Open-Source Synthetic-Data SDK},\n      author={Ivona Krchova and Mariana Vargas Vieyra and Mario Scriminaci and Andrey Sidorenko},\n      year={2025},\n      eprint={2508.00718},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.00718},\n}\n```\n","# 合成数据 SDK ✨\n\n[![GitHub 发布](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fmostly-ai\u002Fmostlyai)](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Freleases)\n[![文档](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-latest-green)](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002F)\n[![PyPI 下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmostly-ai_mostlyai_readme_61ae556b45b5.png)](https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fmostlyai)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fmostly-ai\u002Fmostlyai)](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fblob\u002Fmain\u002FLICENSE)\n[![PyPI - Python 版本](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Fmostlyai)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmostlyai\u002F)\n[![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmostly-ai\u002Fmostlyai?style=social)](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fstargazers)\n\n[文档](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002F) | [技术白皮书](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.00718) | [使用示例](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fusage\u002F) | [免费云服务](https:\u002F\u002Fapp.mostly.ai\u002F)\n\n**合成数据 SDK** 是一个用于生成高保真、隐私安全的 **合成数据** 的 Python 工具包。\n\n- **LOCAL** 模式：在您自己的计算资源上本地训练和生成合成数据。\n- **CLIENT** 模式：连接到远程的 MOSTLY AI 平台，在那里进行训练和生成合成数据。\n- 在本地训练好的生成器可以轻松导入到平台上，以便进一步共享。\n\n## 概述\n\n该 SDK 允许您以编程方式创建、浏览和管理 3 种关键资源：\n\n1. **生成器** - 使用您现有的表格或语言数据资产训练合成数据生成器\n2. **合成数据集** - 使用生成器根据您的需求创建任意数量的合成样本\n3. **连接器** - 连接到您组织内的任何数据源，用于读取和写入数据\n\n| 目的                                        | 原始操作                         | API 参考                                                                                                 |\n|-----------------------------------------------|-----------------------------------|---------------------------------------------------------------------------------------------------------------|\n| 使用表格或语言数据训练生成器               | `g = mostly.train(config)`        | [mostly.train](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.train)       |\n| 生成任意数量的合成数据记录                 | `sd = mostly.generate(g, config)` | [mostly.generate](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.generate) |\n| 按需实时探测生成器                           | `df = mostly.probe(g, config)`    | [mostly.probe](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.probe)       |\n| 连接到您组织内的任何数据源                   | `c = mostly.connect(config)`      | [mostly.connect](https:\u002F\u002Fmostly-ai.github.io\u002Fmostlyai\u002Fapi_client\u002F#mostlyai.sdk.client.api.MostlyAI.connect)   |\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9e233213-a259-455c-b8ed-d1f1548b492f\n\n## 主要特性\n\n- **广泛的数据支持**\n  - 混合类型数据（分类、数值、地理空间、文本等）\n  - 单表、多表和时间序列数据\n- **多种模型类型**\n  - 通过 TabularARGN 实现最先进的性能\n  - 基于 DNN 的图关系匹配\n  - 微调 Hugging Face 托管的语言模型\n  - 高效的 LSTM 从零开始进行文本合成\n- **高级训练选项**\n  - 支持 GPU\u002FCPU\n  - 差分隐私\n  - 进度监控\n- **自动化质量保证**\n  - 用于保真度和隐私的质量指标\n  - 用于可视化分析的详细 HTML 报告\n- **灵活采样**\n  - 可以按任意数据量进行过采样\n  - 基于任意列的条件模拟\n  - 重新平衡代表性不足的细分群体\n  - 上下文感知的数据插补\n  - 统计公平性控制\n  - 通过温度参数遵守规则\n- **无缝集成**\n  - 可以连接到外部数据源（数据库、云存储）\n  - 完全开放的开源许可\n\n## 快速入门 \u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmostly-ai\u002Fmostlyai\u002Fblob\u002Fmain\u002Fdocs\u002Ftutorials\u002Fgetting-started\u002Fgetting-started.ipynb\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpen%20in-Colab-blue?logo=google-colab\" alt=\"在 Colab 中运行\">\u003C\u002Fa>\n\n通过 `pip` 安装 SDK（更多详情请参阅 [安装](#installation)）：\n\n```shell\npip install -U mostlyai  # 或 'mostlyai[local]' 用于 LOCAL 模式\n```\n\n使用预训练的生成器生成合成样本：\n\n```python\n# 初始化 SDK\nfrom mostlyai.sdk import MostlyAI\nmostly = MostlyAI()\n\n# 导入已训练好的生成器\ng = mostly.generators.import_from_file(\n  \"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fpublic-demo-data\u002Fraw\u002Fdev\u002Fcensus\u002Fcensus-generator.zip\"\n)\n\n# 探测 1000 个具有代表性的合成样本\ndf = mostly.probe(g, size=1000)\ndf\n```\n\n根据固定列值生成合成样本：\n\n```python\n# 创建 1 万条 24 岁男性受访者记录\ndf = mostly.probe(g, seed=[{\"age\": 24, \"sex\": \"Male\"}] * 10_000)\ndf\n```\n\n现在您可以训练属于您自己的合成数据生成器：\n\n```python\n# 加载原始数据\nimport pandas as pd\noriginal_df = pd.read_csv(\n  \"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fpublic-demo-data\u002Fraw\u002Fdev\u002Ftitanic\u002Ftitanic.csv\"\n)\n\n# 使用默认配置训练单表生成器\ng = mostly.train(\n  name=\"快速入门演示 - 泰坦尼克号\",\n  data=original_df,\n)\n\n# 显示质量保证报告\ng.reports(display=True)\n\n# 使用默认配置生成具有代表性的合成数据集\nsd = mostly.generate(g)\ndf = sd.data()\n\n# 或者简单地探测一些样本\ndf = mostly.probe(g, size=100)\ndf\n```\n\n## 性能\n\n该 SDK 的开发重点在于效率、准确性和灵活性，在这三方面均达到行业领先水平。最终的结果将取决于训练数据本身（大小、结构和内容）、可用的计算资源（CPU 对比 GPU），以及所选择的训练配置（模型、轮次、样本数等）。因此，建议采用“爬行\u002F步行\u002F奔跑”的方法——先用一部分样本进行短时间的训练，然后逐步扩大规模，以获得针对特定用例的最佳效果。\n\n### 表格模型\n\nSDK 中的表格模型基于 TabularARGN（[arXiv:2501.12012](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12012)），它在实现行业领先的合成数据质量的同时，效率比同类模型高出 1 到 2 个数量级。这种高效性使得即使在 CPU 环境中，也能在几分钟内训练并生成数百万条合成记录。\n\n![TabularARGN 基准测试](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmostly-ai_mostlyai_readme_034fcba76721.png)\n\n### 语言模型\n\n默认的语言模型是一个基础的、未经过预训练的 LSTM (`LSTMFromScratch-3m`)，它特别适用于范围有限（长度较短、种类较少）且训练样本充足的文字数据。\n\n此外，也可以选择任何通过 [Hugging Face Hub](https:\u002F\u002Fhuggingface.co\u002F) 提供、并支持 [AutoModelForCausalLM](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fauto#transformers.AutoModelForCausalLM) 类的预训练语言模型，然后在提供的训练数据上进行微调。这些模型一开始就具备通用的世界知识，随后会根据训练数据进行调整，从而在数据稀疏的领域中生成高保真度的合成样本。最终的性能将再次主要取决于所选的模型配置。\n\n无论采用哪种方式，在使用语言模型时都强烈建议使用现代 GPU。\n\n## 安装\n\n使用 `pip`（或更好的是 `uv pip`）通过 PyPI 安装官方的 `mostlyai` 包。需要 Python 3.10 或更高版本。\n\n强烈建议使用 `uv` 在专用的虚拟环境中安装该包（详见 [这里](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F)）：\n\n\u003Cdetails>\n\n  \u003Csummary>在 Unix \u002F macOS 上设置 \u003Ccode>uv\u003C\u002Fcode>\u003C\u002Fsummary>\n\n```shell\n# 如果尚未安装 uv，则先安装\ncurl -Ls https:\u002F\u002Fastral.sh\u002Fuv\u002Finstall.sh | bash\n\n# 使用 uv 创建并激活一个 Python 3.12 环境\nmkdir ~\u002Fsynthetic-data-sdk; cd ~\u002Fsynthetic-data-sdk\nuv venv -p 3.12\n\n# 激活虚拟环境\nsource .venv\u002Fbin\u002Factivate\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>在 Windows 上设置 \u003Ccode>uv\u003C\u002Fcode>\u003C\u002Fsummary>\n\n```shell\n# 如果尚未安装 uv，则先安装\nirm https:\u002F\u002Fastral.sh\u002Fuv\u002Finstall.ps1 | iex\n\n# 使用 uv 创建并激活一个 Python 3.12 环境\nmkdir ~\u002Fsynthetic-data-sdk; cd ~\u002Fsynthetic-data-sdk\nuv venv -p 3.12\n\n# 激活虚拟环境\n.venv\\Scripts\\activate\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>通过 \u003Ccode>uv\u003C\u002Fcode> 运行 Jupyter Lab 会话\u003C\u002Fsummary>\n\n```shell\n# SDK 安装完成后，可选择启动 Jupyter 会话\nuv run --with jupyter jupyter lab\n```\n\n\u003C\u002Fdetails>\n\n### CLIENT 模式\n\n这是仅用于以 CLIENT 模式使用 SDK 的轻量级安装。它会与 MOSTLY AI 平台通信以执行请求的任务。例如，可以访问 [app.mostly.ai](https:\u002F\u002Fapp.mostly.ai\u002F) 获取免费托管版本。\n\n```shell\nuv pip install -U mostlyai\n```\n\n### CLIENT + LOCAL 模式\n\n这是用于同时以 CLIENT 和 LOCAL 模式使用 SDK 的完整安装。它包含所有依赖项，包括 PyTorch，以便在本地训练和生成合成数据。\n\n```shell\nuv pip install -U 'mostlyai[local]'\n```\n\n或者，对于 Linux 上的 GPU 配置（LLM 微调和推理所需）：\n\n```shell\nuv pip install -U 'mostlyai[local-gpu]'\n```\n\n在 Linux 上，还可以单独安装仅 CPU 版本的 PyTorch，并将其与 `mostlyai[local]` 一起安装：\n\n```shell\n# uv pip 安装\nuv pip install --index-strategy unsafe-first-match -U torch==2.9.1+cpu torchvision==0.24.1+cpu 'mostlyai[local]' --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcpu\n```\n\n```shell\n# 标准 pip 安装\npip install -U torch==2.9.1+cpu torchvision==0.24.1+cpu 'mostlyai[local]' --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcpu\n```\n\n> **Google Colab 用户请注意**：安装任何本地扩展包（`mostlyai[local]` 或 `mostlyai[local-gpu]`）后，可能需要重启运行时才能使更改生效。\n\n### 数据连接器\n\n在 LOCAL 模式下，添加以下任意扩展包以支持更多数据连接器：`databricks`、`googlebigquery`、`hive`、`mssql`、`mysql`、`oracle`、`postgres`、`redshift`、`snowflake`。例如：\n\n```shell\nuv pip install -U 'mostlyai[local, databricks, snowflake]'\n```\n\n### 使用 Docker\n\n作为替代方案，您也可以构建一个 Docker 镜像，为您提供一个隔离的环境来以 LOCAL 模式运行 SDK，并预先安装所有连接器依赖项。这种方法可确保在所有系统上具有一致的运行环境。在继续操作之前，请确保您的系统已安装 [Docker](https:\u002F\u002Fdocs.docker.com\u002Fget-started\u002Fget-docker\u002F)。\n\n\u003Cdetails>\n\n  \u003Csummary>获取镜像\u003C\u002Fsummary>\n\n  \u003Cul>\n  \u003Cli>\u003Cstrong>从官方仓库拉取\u003C\u002Fstrong>\u003C\u002Fli>\n  \u003C\u002Ful>\n\n  \u003Ccode>docker pull --platform=linux\u002Famd64 ghcr.io\u002Fmostly-ai\u002Fsdk\u003C\u002Fcode>\n\n  \u003Cul>\n  \u003Cli>\u003Cstrong>从官方仓库拉取\u003C\u002Fstrong>\u003C\u002Fli>\n  \u003C\u002Ful>\n\n  如果您的环境能够执行 Makefile（参见 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fblob\u002Fmain\u002FMakefile#L47-L73\">这里\u003C\u002Fa>），则执行 \u003Ccode>make docker-build\u003C\u002Fcode>。\n\n  否则，可以使用 \u003Ccode>docker buildx build . --platform=linux\u002Famd64 -t ghcr.io\u002Fmostly-ai\u002Fsdk\u003C\u002Fcode> 代替。\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>启动容器\u003C\u002Fsummary>\n\n  \u003Cp>这将在容器内的端口 8080 上启动 SDK 的 LOCAL 模式。\u003C\u002Fp>\n\n  \u003Cp>如果您的环境能够执行 Makefile，则执行 \u003Ccode>make docker-run\u003C\u002Fcode>。或者使用 \u003Ccode>make docker-run HOST_PORT=8080\u003C\u002Fcode> 将端口转发到您选择的主机端口。还可以通过 \u003Ccode>make docker-run HOST_LOCAL_DIR=\u002Fpath\u002Fto\u002Fhost\u002Ffolder\u003C\u002Fcode> 挂载 \u003Ccode>local_dir\u003C\u002Fcode>,使生成器和合成数据集可以直接从主机访问。\u003C\u002Fp>\n\n  \u003Cp>否则，可以使用 \u003Ccode>docker run --platform=linux\u002Famd64 -p 8080:8080 ghcr.io\u002Fmostly-ai\u002Fsdk\u003C\u002Fcode>。此外，您可以使用 \u003Ccode>-v\u003C\u002Fcode> 标志挂载 \u003Ca href=\"https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Fstorage\u002Fvolumes\u002F#syntax\">卷\u003C\u002Fa>,以便在主机和容器之间传递文件。\u003C\u002Fp>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\n  \u003Csummary>连接到容器\u003C\u002Fsummary>\n\n  \u003Cp>现在，您可以通过在主机上以 \u003Ccode>CLIENT\u003C\u002Fcode> 模式初始化 SDK，连接到容器内运行的 SDK。\u003C\u002Fp>\n\n  ```python\n  from mostlyai.sdk import MostlyAI\n\n  mostly = MostlyAI(base_url=\"http:\u002F\u002Flocalhost:8080\")\n  ```\n\n\u003C\u002Fdetails>\n\n### 空气隔离环境\n\n对于空气隔离环境（无互联网访问），您必须使用提供的 wheel 文件安装软件包，并包含所需的可选依赖项。\n\n如果您的应用依赖于 Hugging Face 语言模型，还需要手动下载并传输模型文件。\n\n\u003Cdetails>\n\n  \u003Csummary>从 Hugging Face Hub 下载模型\u003C\u002Fsummary>\n\n\u003Cp>在一台有互联网连接的机器上，运行以下 Python 脚本，将 Hugging Face 模型下载到您本地的 Hugging Face 缓存中。\u003C\u002Fp>\n\n```python\n#! uv pip install huggingface-hub\nfrom pathlib import Path\nfrom huggingface_hub import snapshot_download\npath = snapshot_download(\n    repo_id=\"Qwen\u002FQwen2.5-Coder-0.5B\",  # 根据需要更改\n    token=None,  # 对于受保护的模型，请插入您的 HF TOKEN\n)\nprint(f\"COPY `{Path(path).parent.parent}`\")\n```\n\n接下来，将打印出的目录传输到空气隔离环境的缓存目录 `~\u002F.cache\u002Fhuggingface\u002Fhub\u002F` 中（或者如果设置了 `HF_HOME` 环境变量，则传输到该目录）。\n\n\u003C\u002Fdetails>\n\n## 引用\n\n如果您觉得我们的项目有用，请考虑引用它：\n\n```bibtex\n@misc{mostlyai,\n      title={利用开源合成数据 SDK 民主化表格数据访问},\n      author={伊沃娜·克尔乔娃、玛丽亚娜·瓦尔加斯·维埃拉、马里奥·斯克里米纳奇、安德烈·西多连科},\n      year={2025},\n      eprint={2508.00718},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.00718},\n}\n```","# MostlyAI 合成数据 SDK 快速上手指南\n\nMostlyAI 是一个用于生成高保真、隐私安全的**合成数据**的 Python 工具包。它支持在本地（LOCAL 模式）利用自有算力训练和生成数据，或连接远程 MOSTLY AI 平台（CLIENT 模式）进行处理。\n\n## 1. 环境准备\n\n*   **操作系统**: Linux, macOS, Windows\n*   **Python 版本**: 3.10 或更高\n*   **推荐工具**: 建议使用 `uv` 管理虚拟环境和依赖，以获得更快的安装速度和更好的隔离性。\n*   **硬件建议**:\n    *   **表格数据**: CPU 即可高效运行。\n    *   **语言模型 (LLM)**: 强烈建议使用现代 GPU 进行微调和推理。\n\n### 设置虚拟环境 (可选但推荐)\n\n如果尚未安装 `uv`，请先安装：\n\n**Unix \u002F macOS:**\n```shell\ncurl -Ls https:\u002F\u002Fastral.sh\u002Fuv\u002Finstall.sh | bash\n```\n\n**Windows:**\n```shell\nirm https:\u002F\u002Fastral.sh\u002Fuv\u002Finstall.ps1 | iex\n```\n\n创建并激活 Python 3.12 环境：\n```shell\nmkdir synthetic-data-sdk && cd synthetic-data-sdk\nuv venv -p 3.12\n\n# Unix\u002FmacOS\nsource .venv\u002Fbin\u002Factivate\n\n# Windows\n.venv\\Scripts\\activate\n```\n\n## 2. 安装步骤\n\n根据使用场景选择以下一种安装方式。国内用户若遇网络问题，可配置 pip 国内镜像源（如清华源、阿里源）。\n\n### 方案 A：客户端模式 (CLIENT Mode)\n仅连接远程 MOSTLY AI 平台，轻量级安装。\n```shell\nuv pip install -U mostlyai\n# 或使用标准 pip (推荐添加国内镜像)\n# pip install -U mostlyai -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 方案 B：本地完整模式 (LOCAL Mode)\n包含所有依赖（含 PyTorch），可在本地训练和生成数据。\n```shell\nuv pip install -U 'mostlyai[local]'\n```\n\n### 方案 C：本地 GPU 加速模式 (Linux)\n适用于需要微调大语言模型或加速推理的场景。\n```shell\nuv pip install -U 'mostlyai[local-gpu]'\n```\n\n> **注意**: 如果在 Google Colab 中安装了 `local` 或 `local-gpu` 扩展包，安装完成后可能需要重启运行时 (Runtime) 才能生效。\n\n## 3. 基本使用\n\n以下示例展示如何初始化 SDK、导入预训练模型、探测数据以及训练自己的生成器。\n\n### 初始化与使用预训练模型\n\n```python\nfrom mostlyai.sdk import MostlyAI\n\n# 初始化 SDK (默认尝试连接本地服务或云平台，需根据实际配置调整)\nmostly = MostlyAI()\n\n# 导入一个预训练好的生成器 (此处以人口普查数据为例)\ng = mostly.generators.import_from_file(\n  \"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fpublic-demo-data\u002Fraw\u002Fdev\u002Fcensus\u002Fcensus-generator.zip\"\n)\n\n# 探测生成 1000 条代表性合成样本\ndf = mostly.probe(g, size=1000)\nprint(df.head())\n```\n\n### 基于固定条件生成数据\n\n可以指定特定列的值来生成符合条件的数据（例如：生成 10,000 条 24 岁男性的记录）。\n\n```python\n# 基于种子数据生成\ndf = mostly.probe(g, seed=[{\"age\": 24, \"sex\": \"Male\"}] * 10_000)\nprint(df.head())\n```\n\n### 训练自己的合成数据生成器\n\n```python\nimport pandas as pd\n\n# 1. 加载原始数据\noriginal_df = pd.read_csv(\n  \"https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fpublic-demo-data\u002Fraw\u002Fdev\u002Ftitanic\u002Ftitanic.csv\"\n)\n\n# 2. 训练单表生成器 (使用默认配置)\ng = mostly.train(\n  name=\"Quick Start Demo - Titanic\",\n  data=original_df,\n)\n\n# 3. 查看质量评估报告\ng.reports(display=True)\n\n# 4. 生成合成数据集\nsd = mostly.generate(g)\nsynthetic_df = sd.data()\n\n# 或者快速探测少量样本\nsample_df = mostly.probe(g, size=100)\nprint(sample_df.head())\n```\n\n### 核心功能概览\n\n*   **训练生成器**: `g = mostly.train(config)` - 基于表格或文本数据训练。\n*   **生成数据**: `sd = mostly.generate(g, config)` - 生成任意数量的合成记录。\n*   **即时探测**: `df = mostly.probe(g, config)` - 按需实时生成少量样本进行测试。\n*   **数据连接**: `c = mostly.connect(config)` - 连接组织内部的数据库或云存储。","某金融科技公司数据团队需要在保护用户隐私的前提下，将生产环境的交易数据共享给外部审计机构进行模型验证。\n\n### 没有 mostlyai 时\n- **隐私合规风险高**：直接脱敏难以彻底去除敏感信息，存在用户数据泄露的法律风险，导致项目长期停滞。\n- **数据效用失真**：传统规则式脱敏破坏了字段间的统计关联（如年龄与消费习惯），导致审计模型在测试集上表现大幅下滑。\n- **样本覆盖不足**：无法合法生成罕见的欺诈交易样本，导致模型对长尾风险的识别能力无法得到充分验证。\n- **协作流程繁琐**：需经过漫长的法务审批和人工数据清洗，从申请到交付往往耗时数周，严重拖慢迭代节奏。\n\n### 使用 mostlyai 后\n- **原生隐私安全**：利用 mostlyai 的微分隐私技术训练生成器，产出完全不含真实用户信息的高保真合成数据，彻底消除合规顾虑。\n- **统计特征一致**：mostlyai 自动保留原始数据的复杂分布和多表关联，确保审计模型在合成数据上的验证结果与生产环境高度一致。\n- **灵活增强样本**：通过 mostlyai 的条件模拟功能，按需“放大”稀有欺诈场景的数据量，有效提升了模型对极端情况的测试覆盖率。\n- **自动化即时交付**：数据团队只需几行代码调用 mostlyai 接口即可本地生成并导出数据，将原本数周的协作周期缩短至小时级。\n\nmostlyai 让数据团队在不牺牲隐私安全的前提下，实现了高保真数据的即时共享与高效协作。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmostly-ai_mostlyai_034fcba7.png","mostly-ai","MOSTLY AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmostly-ai_06e58296.png","Data for Everyone",null,"dev@mostly.ai","mostly.ai","https:\u002F\u002Fgithub.com\u002Fmostly-ai",[84,88,92,96,100],{"name":85,"color":86,"percentage":87},"Python","#3572A5",94.6,{"name":89,"color":90,"percentage":91},"Jinja","#a52a22",4.6,{"name":93,"color":94,"percentage":95},"Makefile","#427819",0.5,{"name":97,"color":98,"percentage":99},"Dockerfile","#384d54",0.2,{"name":101,"color":102,"percentage":103},"Shell","#89e051",0.1,758,64,"2026-04-02T12:56:18","Apache-2.0","Linux, macOS, Windows","非必需（CPU 可运行表格模型），但处理语言模型微调\u002F推理时强烈推荐使用现代 GPU；未指定具体型号、显存大小或 CUDA 版本","未说明",{"notes":112,"python":113,"dependencies":114},"支持两种模式：CLIENT（轻量级，连接远程平台）和 LOCAL（本地训练，需安装额外依赖）。本地模式下可通过 'mostlyai[local]' (CPU) 或 'mostlyai[local-gpu]' (GPU) 安装。表格模型基于 TabularARGN，CPU 即可高效运行；语言模型建议使用现代 GPU。Google Colab 用户安装本地扩展后可能需要重启运行时。支持通过 Docker 部署以获得一致的运行环境。","3.10+",[115,116,117,118],"torch","torchvision","transformers","pandas",[13,51],[121,122,123,124,125,126,127],"generative-ai","synthetic-data","differential-privacy","privacy-enhancing-technologies","machine-learning","synthetic-data-generation","synthetic-data-generator","2026-03-27T02:49:30.150509","2026-04-06T06:44:01.413096",[131,136,141,146,151,156],{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},10928,"在本地模式（Local Mode）下训练时遇到 HTTP 503\u002F504\u002F500 错误怎么办？","这通常是由端口冲突或防火墙设置引起的。请尝试以下解决方案：\n1. 检查默认端口 8080 是否被其他进程占用。如果是，请在初始化客户端时指定其他端口：`mostly = MostlyAI(local=True, local_port=xxxx)`。\n2. 验证服务器是否启动：在浏览器中访问 `http:\u002F\u002Flocalhost:8080`（或您设置的端口），查看是否能显示 Swagger UI。\n3. 如果收到 HTTP 403 错误，可能是被机器防火墙策略拦截，请尝试修改防火墙策略以允许 localhost 访问相应端口。","https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fissues\u002F496",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},10929,"MostlyAI SDK 是否支持 Windows 操作系统？","是的，从 SDK 4.5.1 版本开始，已正式支持在 Windows 操作系统上进行训练和生成数据。用户可以直接安装并使用，无需额外的手动配置或脚本。","https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fissues\u002F337",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},10930,"在 Google Colab 本地模式下运行时报错 'Step tabular CREATE_MODEL_REPORT failed' 如何解决？","该问题通常与 PyTorch 版本兼容性有关。解决方案如下：\n1. 确保安装了修复此问题的版本（4.3.4 或更高）。\n2. 在 Google Colab 中安装 `mostlyai[local]` 后，必须重启运行时（Runtime -> Restart runtime），即使系统没有弹出提示也要手动重启，以确保依赖项正确加载。","https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fissues\u002F325",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},10931,"如何处理非上下文外键（Non-Context FK）的智能分配（例如父子关系中的年龄差和数量限制）？","MostlyAI 已通过更新增强了对关联数据基数（Cardinality）和上下文属性的支持：\n1. 版本 5.5.0 引入了拉取上下文父级属性的支持。\n2. 版本 5.6.0 实现了保留基数分布的功能，确保生成的子记录数量符合原始数据的统计规律（如每个父亲的孩子数量在 0-4 之间）。\n建议升级到最新版本以自动处理此类逻辑，无需手动进行复杂的嵌入空间映射。","https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fissues\u002F560",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},10932,"连接 PostgreSQL 数据库训练时，如果主键是 UUID 类型导致训练数据为空怎么办？","这是一个已知问题，当源数据的主键为 UUID 类型时，连接器虽然能读取数据，但在训练阶段可能会错误地过滤掉所有数据，导致训练集为空。如果遇到训练时间为 0 秒且报告为空的情况，请检查您的数据库主键类型。建议暂时将 UUID 转换为字符串或其他兼容格式后再进行训练，或关注官方后续针对 UUID 类型的修复更新。","https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fissues\u002F586",{"id":157,"question_zh":158,"answer_zh":159,"source_url":135},10933,"如何在本地初始化 SDK 并指定自定义端口以避免冲突？","如果默认端口 8080 被占用，可以在初始化 `MostlyAI` 类时显式设置 `local=True` 和 `local_port` 参数。示例代码如下：\n```python\nfrom mostlyai.sdk import MostlyAI\n# 使用端口 8090 启动本地服务\nmostly = MostlyAI(local=True, local_port=8090)\n```\n启动后，可以通过访问 `http:\u002F\u002F127.0.0.1:8090` 来确认服务是否正常运行。",[161,166,171,176,181,186,191,196,201,206,211,216,221,226,231,236,241,246,251,256],{"id":162,"version":163,"summary_zh":164,"released_at":165},53378,"5.10.1","# 变更内容\n\n## 🐛 修复\n\n- 考虑数值\u002F日期时间类型的极值截断 [#700](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F700)\n\n## 📦 未分类\n\n- 发布 5.10.1 [#701](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F701)\n\n\n\n**完整变更日志**: [5.10.0...5.10.1](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.10.0...5.10.1)","2026-01-09T15:37:56",{"id":167,"version":168,"summary_zh":169,"released_at":170},53379,"5.10.0","# 变更内容\n\n## 🚀 功能\n\n- 引入约束以确保业务规则的遵守，首个实现为不等式和固定组合 [#679](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F679)\n\n## 📦 打包\n\n- 升级 ENGINE 至 2.4 版本，并将 PyTorch 升级至 2.9.1 版本 [#698](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F698)\n- 修复许可证年份，并调整 pre-commit 配置中的“使用当前年份”选项 [#697](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F697)\n- 发布 5.10.0 版本 [#699](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F699)\n\n**完整变更日志**: [5.9.2...5.10.0](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.9.2...5.10.0)","2026-01-08T14:48:14",{"id":172,"version":173,"summary_zh":174,"released_at":175},53380,"5.9.2","# 变更内容\n\n## 📦 未分类\n\n- 更新至 mostlyai-engine 2.3.3 [#695](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F695)\n- 发布 5.9.2 [#696](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F696)\n\n\n\n**完整变更日志**: [5.9.1...5.9.2](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.9.1...5.9.2)","2025-12-12T14:29:13",{"id":177,"version":178,"summary_zh":179,"released_at":180},53381,"5.9.1","# 变更内容\n\n## 🐛 修复\n\n- 排除图标 [#693](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F693)\n\n## 📦 未分类\n\n- 发布 5.9.1 [#694](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F694)\n\n\n\n**完整变更日志**: [5.9.0...5.9.1](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.9.0...5.9.1)","2025-12-12T11:47:59",{"id":182,"version":183,"summary_zh":184,"released_at":185},53382,"5.9.0","# 变更内容\n\n## 🚀 功能\n\n- 集成（OAuth2）[#690](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F690)\n\n## 📦 未分类\n\n- 更新工作流步骤引用，使用提交 SHA [#687](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F687)\n- 发布 5.9.0 [#692](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F692)\n\n\n\n**完整变更日志**: [5.8.3...5.9.0](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.8.3...5.9.0)","2025-12-12T09:43:33",{"id":187,"version":188,"summary_zh":189,"released_at":190},53383,"5.8.3","# 变更内容\n\n## 📦 未分类\n\n- 升级 ENGINE 至 2.3.2 [#685](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F685)\n- 发布 5.8.3 [#686](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F686)\n\n\n\n**完整变更日志**: [5.8.2...5.8.3](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.8.2...5.8.3)","2025-12-05T22:47:53",{"id":192,"version":193,"summary_zh":194,"released_at":195},53384,"5.8.2","# 变更内容\n\n## 🐛 修复\n\n- 源表配置的验证 [#680](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F680)\n- 移除源表配置的输入源验证 [#681](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F681)\n\n## 📦 未分类\n\n- 升级 ENGINE 至 2.3.1 [#682](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F682)\n- 发布 5.8.2 [#683](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F683)\n\n\n\n**完整变更日志**: [5.8.1...5.8.2](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.8.1...5.8.2)","2025-11-28T22:29:53",{"id":197,"version":198,"summary_zh":199,"released_at":200},53385,"5.8.1","# 变更内容\n\n## 🚀 功能\n\n- 更新 TABULAR_CHARACTER 检测逻辑 [#677](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F677)\n\n## 🐛 修复\n\n- 去除无外键的额外 seed [#676](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F676)\n\n## 📦 未分类\n\n- 发布 5.8.1 [#678](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F678)\n\n\n\n**完整变更日志**: [5.8.0...5.8.1](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.8.0...5.8.1)","2025-11-26T09:58:38",{"id":202,"version":203,"summary_zh":204,"released_at":205},53386,"5.8.0","# 变更内容\n\n## 🚀 功能\n\n- 支持在 LOCAL 模式下自动检测模型编码类型 [#674](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F674)\n- 允许在生成过程中传递额外的种子列和数据，以生成合成数据 [#663](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F663)\n\n## 📦 未分类\n\n- 发布 5.8.0 版本 [#675](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F675)\n\n\n\n**完整变更日志**: [5.7.0...5.8.0](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.7.0...5.8.0)","2025-11-25T11:43:01",{"id":207,"version":208,"summary_zh":209,"released_at":210},53387,"5.7.0","# 变更内容\n\n## 🚀 功能\n\n- fk 模型启发式算法 [#669](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F669)\n- fk 模型考虑用户自定义的数据类型配置 [#671](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F671)\n\n## 🐛 修复\n\n- 转换探测结果的数据类型 [#670](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F670)\n\n## 📦 未分类\n\n- 发布 5.7.0 版本 [#673](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F673)\n\n\n\n**完整变更日志**: [5.6.1...5.7.0](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.6.1...5.7.0)","2025-11-18T10:57:52",{"id":212,"version":213,"summary_zh":214,"released_at":215},53388,"5.6.1","# What's Changed\n\n## 📦 Uncategorized\n\n- sync public API [#667](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F667)\n- release 5.6.1 [#668](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F668)\n\n\n\n**Full Changelog**: [5.6.0...5.6.1](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.6.0...5.6.1)","2025-11-13T13:28:59",{"id":217,"version":218,"summary_zh":219,"released_at":220},53389,"5.6.0","# What's Changed\r\n\r\n## 🚀 Features\r\n\r\n- add dedicated cardinality model to NonContext FK model [#649](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F649)\r\n- refine directory structure for NonContext FK models [#655](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F655)\r\n- misc changes on NonContext FK models [#657](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F657)\r\n- include number of children per parent as feature of NonContext FK model [#653](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F653)\r\n- improved NonContext FK model dataset sizing [#665](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F665)\r\n\r\n## 🐛 Fixes\r\n\r\n- aliases of Databricks\u002FBigQuery connector fields [#660](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F660)\r\n\r\n## 📦 Uncategorized\r\n\r\n- clean `OriginalData` of non-context models on a slightly different level [#656](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F656)\r\n- more resilient `_move_training_artefacts` [#658](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F658)\r\n- sync public API [#661](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F661)\r\n- improve DuckDB example [#662](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F662)\r\n- release 5.6.0 [#666](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F666)\r\n\r\n\r\n\r\n**Full Changelog**: [5.5.1...5.6.0](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.5.1...5.6.0)","2025-11-13T13:14:28",{"id":222,"version":223,"summary_zh":224,"released_at":225},53390,"5.5.1","# What's Changed\r\n\r\n## 🚀 Features\r\n\r\n- utilise `TABULAR_NUMERIC_AUTO` for NonContext FK Models [#647](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F647)\r\n- simplify NonContext FK models to 2 layers [#648](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F648)\r\n\r\n## 🐛 Fixes\r\n\r\n- treat empty columns as categorical instead of datetime [#650](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F650)\r\n- avoid engine disposal for hive + session contextualized [#651](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F651)\r\n\r\n## 📦 Uncategorized\r\n\r\n- release 5.5.1 [#652](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F652)\r\n\r\n\r\n\r\n**Full Changelog**: [5.5.0...5.5.1](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.5.0...5.5.1)","2025-11-05T09:52:37",{"id":227,"version":228,"summary_zh":229,"released_at":230},53391,"5.5.0","# What's Changed\r\n\r\n## 🚀 Features\r\n\r\n- report progress on finalize training step [#631](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F631)\r\n- include context in NonContextFK model matching [#634](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F634)\r\n- finetune NonContextFK models [#636](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F636)\r\n- skip `FINALIZE_TRAINING` if there are no non-context relationships [#643](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F643)\r\n- allow Conditional Generation for columns, that have imputation enabled and are seeded as NULLs [#637](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F637)\r\n\r\n## 🐛 Fixes\r\n\r\n- gracefully close session in read_chunks_by_scan [#635](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F635)\r\n- bring back `FK_PARENT_BATCH_SIZE` to `1_000` [#638](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F638)\r\n- failing non_context test [#641](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F641)\r\n- pull, when DB table name differs from the given name in Generator [#642](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F642)\r\n\r\n## 📦 Uncategorized\r\n\r\n- fks code simplifications [#640](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F640)\r\n- update mostlyai-engine to 1.7.0 [#645](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F645)\r\n- release 5.5.0 [#646](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F646)\r\n\r\n**Full Changelog**: [5.4.2...5.5.0](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.4.2...5.5.0)","2025-11-03T14:05:07",{"id":232,"version":233,"summary_zh":234,"released_at":235},53392,"5.4.2","# What's Changed\n\n## 🐛 Fixes\n\n- also provide FK Models for probing [#632](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F632)\n\n## 📦 Uncategorized\n\n- release 5.4.2 [#633](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F633)\n\n\n\n**Full Changelog**: [5.4.1...5.4.2](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.4.1...5.4.2)","2025-10-24T10:52:44",{"id":237,"version":238,"summary_zh":239,"released_at":240},53393,"5.4.1","# What's Changed\n\n## 📦 Uncategorized\n\n- upgrade ENGINE 1.6.1 [#629](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F629)\n- release 5.4.1 [#630](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F630)\n\n\n\n**Full Changelog**: [5.4.0...5.4.1](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.4.0...5.4.1)","2025-10-24T09:10:26",{"id":242,"version":243,"summary_zh":244,"released_at":245},53394,"5.4.0","# What's Changed\r\n\r\n## 🚀 Features\r\n\r\n- Introduce non-Context FK Models [#584](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F584)\r\n\r\n## 📦 Uncategorized\r\n\r\n- Update torch and torchvision versions in README [#621](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F621)\r\n- upgrade ENGINE to 1.6.0 [#626](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F626)\r\n- release 5.4.0 [#628](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F628)\r\n\r\n**Full Changelog**: [5.3.4...5.4.0](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.3.4...5.4.0)","2025-10-24T08:10:55",{"id":247,"version":248,"summary_zh":249,"released_at":250},53395,"5.3.4","# What's Changed\n\n## 📦 Uncategorized\n\n- refined the Datasets Usage Examples [#614](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F614)\n- pin ipykernel\u003C7 [#615](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F615)\n- enhance seed parameter documentation for clarity on usage and data types [#616](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F616)\n- release 5.3.4 [#617](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F617)\n\n\n\n**Full Changelog**: [5.3.3...5.3.4](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.3.3...5.3.4)","2025-10-20T20:19:34",{"id":252,"version":253,"summary_zh":254,"released_at":255},53396,"5.3.3","# What's Changed\n\n## 🚀 Features\n\n- add test_connection parameter to SDK initialization for connection verification [#611](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F611)\n\n## 📦 Uncategorized\n\n- sync with Public API [#610](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F610)\n- release 5.3.3 [#612](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F612)\n\n\n\n**Full Changelog**: [5.3.2...5.3.3](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.3.2...5.3.3)","2025-10-14T09:37:55",{"id":257,"version":258,"summary_zh":259,"released_at":260},53397,"5.3.2","# What's Changed\n\n## 🐛 Fixes\n\n- consider quiet=True also for SDK initialization [#608](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F608)\n\n## 📦 Uncategorized\n\n- refine examples to show max accuracy setting [#607](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F607)\n- release 5.3.2 [#609](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fpull\u002F609)\n\n\n\n**Full Changelog**: [5.3.1...5.3.2](https:\u002F\u002Fgithub.com\u002Fmostly-ai\u002Fmostlyai\u002Fcompare\u002F5.3.1...5.3.2)","2025-10-12T10:47:39"]