[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-Anil-matcha--Open-Higgsfield-AI":3,"similar-Anil-matcha--Open-Higgsfield-AI":121},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":19,"owner_location":19,"owner_email":19,"owner_twitter":19,"owner_website":19,"owner_url":20,"languages":21,"stars":34,"forks":35,"last_commit_at":36,"license":19,"difficulty_score":37,"env_os":38,"env_gpu":39,"env_ram":40,"env_deps":41,"category_tags":45,"github_topics":49,"view_count":70,"oss_zip_url":19,"oss_zip_packed_at":19,"status":71,"created_at":72,"updated_at":73,"faqs":74,"releases":110},9022,"Anil-matcha\u002FOpen-Higgsfield-AI","Open-Higgsfield-AI","Uncensored, open-source alternative to Higgsfield AI, Freepik, Krea, Openart AI — Free, unrestricted AI image & video generation studio with 200+ models (Flux, Midjourney, Kling, Sora, Veo). No content filters. Self-hosted, MIT licensed.","Open-Generative-AI 是一款免费、开源且无内容审查限制的 AI 图像与视频生成工作室，旨在为用户提供 Higgsfield AI、Freepik 等商业平台的替代方案。它解决了主流工具中普遍存在的内容过滤严格、生态封闭以及订阅费用高昂等痛点，让用户能够自由创作各类视觉内容而不受预设规则束缚。\n\n该工具集成了 Flux、Midjourney、Kling、Sora 等 200 多种前沿模型，涵盖图像生成、视频制作、唇形同步及电影级渲染四大核心功能。其独特的技术亮点在于完全本地化部署能力与 MIT 开源协议，既保障了数据隐私，又允许开发者自由修改和扩展。用户无需配置复杂的 Node.js 环境，即可通过浏览器直接使用在线托管版，或一键安装适用于 macOS、Windows 及 Linux 的桌面客户端。\n\nOpen-Generative-AI 非常适合需要高度创作自由的设计师、希望低成本探索多模型效果的研究人员，以及不愿受限于订阅制的普通创作者。对于熟悉技术操作的开发者，它还提供了自建服务和深度定制的可能。无论是快速构思创意原型，还是进行大规模内容生产，这款工具都能以灵活、开","Open-Generative-AI 是一款免费、开源且无内容审查限制的 AI 图像与视频生成工作室，旨在为用户提供 Higgsfield AI、Freepik 等商业平台的替代方案。它解决了主流工具中普遍存在的内容过滤严格、生态封闭以及订阅费用高昂等痛点，让用户能够自由创作各类视觉内容而不受预设规则束缚。\n\n该工具集成了 Flux、Midjourney、Kling、Sora 等 200 多种前沿模型，涵盖图像生成、视频制作、唇形同步及电影级渲染四大核心功能。其独特的技术亮点在于完全本地化部署能力与 MIT 开源协议，既保障了数据隐私，又允许开发者自由修改和扩展。用户无需配置复杂的 Node.js 环境，即可通过浏览器直接使用在线托管版，或一键安装适用于 macOS、Windows 及 Linux 的桌面客户端。\n\nOpen-Generative-AI 非常适合需要高度创作自由的设计师、希望低成本探索多模型效果的研究人员，以及不愿受限于订阅制的普通创作者。对于熟悉技术操作的开发者，它还提供了自建服务和深度定制的可能。无论是快速构思创意原型，还是进行大规模内容生产，这款工具都能以灵活、开放的方式满足不同场景下的生成需求。","# Open Generative AI — Uncensored Open-Source Alternative to Higgsfield AI, Freepik, Krea, Openart AI\n\n> **The free, open-source, unrestricted alternative to Higgsfield AI, Freepik, Krea, Openart AI.** Generate AI images and videos using 200+ state-of-the-art models — no content filters, no closed ecosystem, no subscription fees.\n\n## 🌐 Try it Online — No Install Required\n\n**Hosted version:** [https:\u002F\u002Fdev.muapi.ai\u002Fopen-generative-ai](https:\u002F\u002Fdev.muapi.ai\u002Fopen-generative-ai)\n\nUse all four studios (Image, Video, Lip Sync, Cinema) directly in your browser — no Node.js, no setup. Sign up for a free account to start generating. The hosted version is always up to date with the latest models.\n\n**Community:** Join [Discord](https:\u002F\u002Fdiscord.gg\u002FsqFYv8ugND) for discussions and support\n\n**Follow** the [creator](https:\u002F\u002Fx.com\u002Fmatchaman11) for updates\n\n**Happy Horse top video model coming soon:** Follow [Happy Horse AI](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FHappyHorse-1.0-API) for updates   \n\n---\n\n## ⬇️ Download Desktop App\n\nOne-click installers — no Node.js or terminal required.\n\n| Platform | Download |\n|---|---|\n| macOS Apple Silicon (M1\u002FM2\u002FM3\u002FM4) | [Open Generative AI-1.0.0-arm64.dmg](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI-1.0.0-arm64.dmg) |\n| macOS Intel (x64) | [Open Generative AI-1.0.0.dmg](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI-1.0.0.dmg) |\n| Windows (x64 + ARM64) | [Open Generative AI Setup 1.0.0.exe](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI.Setup.1.0.0.exe) |\n| Linux (Ubuntu x64) | Build locally with `npm run electron:build:linux` |\n\nAll releases: [github.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases)\n\n### macOS Installation Guide\n\nBecause the app is not notarized by Apple, macOS Gatekeeper will block it on first launch. Follow these steps:\n\n**Step 1** — Mount the DMG and drag the app to `\u002FApplications`\n\n**Step 2** — Open Terminal and run:\n```bash\nxattr -cr \"\u002FApplications\u002FOpen Generative AI.app\"\n```\n\n**Step 3** — Right-click the app in `\u002FApplications` → click **Open** → click **Open** again on the dialog\n\n> You only need to do this once. After that, the app opens normally.\n\n**Alternative (no Terminal):**\n1. Try to open the app — macOS will block it\n2. Go to **System Settings → Privacy & Security**\n3. Scroll down to find _\"Open Generative AI was blocked\"_\n4. Click **Open Anyway** → **Open**\n\n### Windows Installation — SmartScreen warning fix\n\nWindows SmartScreen may show a warning because the installer is not code-signed:\n\n1. Click **More info** on the SmartScreen dialog\n2. Click **Run anyway**\n\nThe app will install silently to `%LocalAppData%` with a Start Menu shortcut.\n\n### Ubuntu \u002F Linux Installation\n\nLinux artifacts are available when building with Electron Builder:\n\n```bash\n# Build Linux installers (AppImage + .deb)\nnpm run electron:build:linux\n```\n\nGenerated files are written to the `release\u002F` folder:\n- **AppImage** — portable, run directly after making executable:\n  ```bash\n  chmod +x \"release\u002FOpen Generative AI-*.AppImage\"\n  .\u002Frelease\u002FOpen\\ Generative\\ AI-*.AppImage\n  ```\n- **.deb** — install on Debian\u002FUbuntu:\n  ```bash\n  sudo apt install .\u002Frelease\u002Fopen-generative-ai_*_amd64.deb\n  ```\n\nIf AppImage fails to start on older systems, install `libfuse2`:\n\n```bash\nsudo apt install libfuse2\n```\n\n#### Ubuntu 24.04+ \u002F AppArmor sandbox restriction\n\nUbuntu 24.04 and later enable a kernel security policy (`apparmor_restrict_unprivileged_userns`) that blocks Chromium's user-namespace sandbox. If the app fails to start silently or crashes immediately, you have two options:\n\n**Option A — Recommended: install the `.deb` instead.**\nThe `.deb` package ships an AppArmor profile that grants the required permission automatically on install with no system-wide changes.\n\n**Option B — Temporary system fix (AppImage users):**\n```bash\nsudo sysctl -w kernel.apparmor_restrict_unprivileged_userns=0\n```\nThis lasts until next reboot. To make it permanent:\n```bash\necho 'kernel.apparmor_restrict_unprivileged_userns=0' | sudo tee \u002Fetc\u002Fsysctl.d\u002F99-userns.conf\n```\n\n---\n\nOpen Generative AI is a free, uncensored, open-source AI image, video, cinema, and lip sync studio that brings unrestricted creative workflows to everyone. No content filters, no prompt rejections, no guardrails — just full creative freedom. Powered by [Muapi.ai](https:\u002F\u002Fmuapi.ai), it supports text-to-image, image-to-image, text-to-video, image-to-video, and audio-driven lip sync generation across models like Flux, Nano Banana, Midjourney, Kling, Sora, Veo, Seedream, Infinite Talk, LTX Lipsync, Wan 2.2, and more — all from a sleek, modern interface you can self-host and customize.\n\n**Why Open Generative AI instead of Higgsfield AI, Freepik, Krea AI, Openart AI?**\n- **Uncensored & unrestricted** — no content filters, no nanny guardrails, no prompt rejections\n- **Free & open-source** — no subscription, no vendor lock-in\n- **Self-hosted** — your data stays on your machine, full creative control\n- **200+ models** — text-to-image, image-to-image, text-to-video, image-to-video, lip sync\n- **Multi-image input** — feed up to 14 reference images into compatible models\n- **Lip Sync Studio** — animate portraits or sync lips to any audio with 9 dedicated models\n- **Extensible** — add your own models, modify the UI, build on top of it\n\nFor a deep dive into the technical architecture and the philosophy behind the \"Infinite Budget\" cinema workflow, see our [comprehensive guide and roadmap](https:\u002F\u002Fmedium.com\u002F@anilmatcha\u002F).\n\n![Studio Demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAnil-matcha_Open-Higgsfield-AI_readme_0fc173f6b54a.webp)\n\n## ✨ Features\n\n- **Image Studio** — Generate images from text prompts (50+ text-to-image models) or transform existing images (55+ image-to-image models). Switches model set automatically based on whether a reference image is provided. Quality and resolution controls visible for models that support them.\n- **Multi-Image Input** — Upload up to 14 reference images for compatible edit models (Nano Banana 2 Edit, Flux Kontext Dev, GPT-4o Edit, and more). Multi-select picker with order badges, batch upload, and a \"Use Selected\" confirmation flow.\n- **Video Studio** — Generate videos from text prompts (40+ text-to-video models) or animate a start-frame image (60+ image-to-video models). Same intelligent mode switching as Image Studio.\n- **Lip Sync Studio** — Animate portrait images or sync lips on existing videos using audio. 9 dedicated models across two modes: portrait image + audio → talking video, and video + audio → lipsync video.\n- **Cinema Studio** — Interface for photorealistic cinematic shots with pro camera controls (Lens, Focal Length, Aperture)\n- **Upload History** — Reference images are uploaded once and stored locally. A picker panel lets you reuse any previously uploaded image across sessions — no re-uploading.\n- **Smart Controls** — Dynamic aspect ratio, resolution\u002Fquality, and duration pickers that adapt to each model's capabilities (including t2i models with resolution or quality options)\n- **Generation History** — Browse, revisit, and download all past generations (persisted in browser storage)\n- **Image & Video Download** — One-click download of generated outputs in full resolution\n- **API Key Management** — Secure API key storage in browser localStorage (never sent to any server except Muapi)\n- **Responsive Design** — Works seamlessly on desktop and mobile with dark glassmorphism UI\n\n### 🖼️ Image Studio — Dual Mode\n\nThe Image Studio automatically switches between two model sets:\n\n| Mode | Trigger | Models | Prompt |\n| :--- | :--- | :--- | :--- |\n| **Text-to-Image** | Default (no image) | 50+ t2i models (Flux, Nano Banana 2, Seedream 5.0, Ideogram, GPT-4o, Midjourney…) | Required |\n| **Image-to-Image** | Reference image uploaded | 55+ i2i models (Kontext, Nano Banana 2 Edit, Seedream 5.0 Edit, Seededit, Upscaler…) | Optional |\n\n#### Newly Added Models\n\n| Model | Type | Key Features |\n| :--- | :--- | :--- |\n| **Nano Banana 2** | Text-to-Image | Google Gemini 3.1 Flash Image · Resolution 1K\u002F2K\u002F4K · Google Search enhancement · aspect ratio `auto` |\n| **Nano Banana 2 Edit** | Image-to-Image | Up to **14 reference images** · Resolution 1K\u002F2K\u002F4K · Google Search enhancement |\n| **Seedream 5.0** | Text-to-Image | ByteDance · Quality basic\u002Fhigh · 8 aspect ratios · up to 4K |\n| **Seedream 5.0 Edit** | Image-to-Image | ByteDance · Natural language style transfer · Quality basic\u002Fhigh |\n\n#### Multi-Image Input\n\nModels that accept multiple reference images expose a multi-select picker when active:\n\n| Model | Max Images |\n| :--- | :--- |\n| Nano Banana 2 Edit | 14 |\n| Nano Banana Edit | 10 |\n| Flux Kontext Dev I2I | 10 |\n| Kling O1 Edit Image | 10 |\n| GPT-4o Edit \u002F GPT Image 1.5 Edit | 10 |\n| Bytedance Seedream Edit v4 \u002F v4.5 | 10 |\n| Vidu Q2 Reference to Image | 7 |\n| Flux 2 Flex\u002FPro Edit | 8 |\n| Nano Banana Pro Edit | 8 |\n| Flux Kontext Pro\u002FMax I2I | 2 |\n| Wan 2.5\u002F2.6 Image Edit | 2–3 |\n| Qwen Image Edit Plus \u002F 2511 | 3 |\n| GPT-4o Image to Image | 5 |\n| Flux 2 Klein 4b\u002F9b Edit | 4 |\n\nWhen a multi-image model is selected the upload trigger switches to multi-select mode:\n- **Checkboxes with order numbers** — images are sent to the model in the order you select them\n- **Batch upload** — pick multiple files at once from your file dialog\n- **Count badge** on the trigger shows how many images are active; a `+` badge appears when more slots are available\n- **\"Use Selected\" button** confirms and closes the picker\n\n### 🎬 Video Studio — Dual Mode\n\nThe Video Studio follows the same pattern:\n\n| Mode | Trigger | Models | Prompt |\n| :--- | :--- | :--- | :--- |\n| **Text-to-Video** | Default (no image) | 40+ t2v models (Kling, Sora, Veo, Wan, Seedance 2.0, Hailuo, Runway…) | Required |\n| **Image-to-Video** | Start frame uploaded | 60+ i2v models (Kling I2V, Veo3 I2V, Runway I2V, Wan I2V, Seedance 2.0 I2V, Midjourney I2V…) | Optional |\n\n#### Newly Added Models\n\n| Model | Type | Key Features |\n| :--- | :--- | :--- |\n| **Seedance 2.0** | Text-to-Video | ByteDance · Aspect ratios 16:9 \u002F 9:16 \u002F 4:3 \u002F 3:4 · Duration 5 \u002F 10 \u002F 15s · Quality basic\u002Fhigh |\n| **Seedance 2.0 I2V** | Image-to-Video | ByteDance · Animate images into video · Up to 9 reference images · Aspect ratios 16:9 \u002F 9:16 \u002F 4:3 \u002F 3:4 · Duration 5 \u002F 10 \u002F 15s · Quality basic\u002Fhigh |\n| **Seedance 2.0 Extend** | Video Extension | ByteDance · Seamlessly continue any Seedance 2.0 generation · Preserves style, motion & audio · Optional continuation prompt · Duration 5 \u002F 10 \u002F 15s · Quality basic\u002Fhigh |\n| **Grok Imagine T2V** | Text-to-Video | xAI · Duration 6 \u002F 10 \u002F **15s** · Modes: fun \u002F normal \u002F spicy · Aspect ratios 9:16 \u002F 16:9 \u002F 2:3 \u002F 3:2 \u002F 1:1 |\n| **Grok Imagine I2V** | Image-to-Video | xAI · Duration 6 \u002F 10 \u002F **15s** · Modes: fun \u002F normal \u002F spicy · Cinematic motion from still images |\n\n### 🎙️ Lip Sync Studio\n\nThe **Lip Sync Studio** generates audio-driven talking videos using 9 models across two input modes:\n\n| Mode | Trigger | Description |\n| :--- | :--- | :--- |\n| **Portrait Image** | Default | Upload a portrait image + audio file → animated talking video |\n| **Video** | Switch to Video mode | Upload an existing video + audio file → lipsync video |\n\n#### Image-based Models (Portrait Image + Audio → Video)\n\n| Model | Endpoint | Resolutions | Prompt |\n| :--- | :--- | :--- | :--- |\n| **Infinite Talk** | `infinitetalk-image-to-video` | 480p, 720p | Optional |\n| **Wan 2.2 Speech to Video** | `wan2.2-speech-to-video` | 480p, 720p | Optional |\n| **LTX 2.3 Lipsync** | `ltx-2.3-lipsync` | 480p, 720p, 1080p | Optional |\n| **LTX 2 19B Lipsync** | `ltx-2-19b-lipsync` | 480p, 720p, 1080p | Optional |\n\n#### Video-based Models (Video + Audio → Lipsync Video)\n\n| Model | Endpoint | Resolutions | Prompt |\n| :--- | :--- | :--- | :--- |\n| **Sync Lipsync** | `sync-lipsync` | — | — |\n| **LatentSync** | `latentsync-video` | — | — |\n| **Creatify Lipsync** | `creatify-lipsync` | — | — |\n| **Veed Lipsync** | `veed-lipsync` | — | — |\n| **Infinite Talk V2V** | `infinitetalk-video-to-video` | 480p, 720p | Optional |\n\n**How it works:**\n1. Select **Portrait Image** or **Video** mode using the toggle\n2. Upload your portrait image (or video) using the image\u002Fvideo upload button\n3. Upload your audio file using the audio upload button\n4. Optionally enter a prompt to guide the motion style\n5. Select a model and resolution (where supported), then click **Generate**\n\nGeneration history is saved separately in `lipsync_history` and pending jobs resume automatically on page reload.\n\n### 🎥 Cinema Studio Controls\n\nThe **Cinema Studio** offers precise control over the virtual camera, translating your choices into optimized prompt modifiers:\n\n| Category | Available Options |\n| :--- | :--- |\n| **Cameras** | Modular 8K Digital, Full-Frame Cine Digital, Grand Format 70mm Film, Studio Digital S35, Classic 16mm Film, Premium Large Format Digital |\n| **Lenses** | Creative Tilt, Compact Anamorphic, Extreme Macro, 70s Cinema Prime, Classic Anamorphic, Premium Modern Prime, Warm Cinema Prime, Swirl Bokeh Portrait, Vintage Prime, Halation Diffusion, Clinical Sharp Prime |\n| **Focal Lengths** | 8mm (Ultra-Wide), 14mm, 24mm, 35mm (Human Eye), 50mm (Portrait), 85mm (Tight Portrait) |\n| **Apertures** | f\u002F1.4 (Shallow DoF), f\u002F4 (Balanced), f\u002F11 (Deep Focus) |\n\n### 📁 Upload History & Picker\n\nEvery image you upload is saved locally (URL + thumbnail) so you never upload the same file twice:\n\n- Click the upload button to open the **reference image picker**\n- Previously uploaded images appear in a 3-column grid with thumbnails\n- **Single-image models** — click a thumbnail to instantly select and close\n- **Multi-image models** — toggle multiple thumbnails (shown with order numbers), then click **Use Selected**\n- Upload new images with the **Upload files** button (supports multi-file selection in multi-image mode)\n- Remove individual images from history with the ✕ button\n- History persists across browser sessions (stored in `localStorage`)\n\n## 🚀 Quick Start\n\n### Prerequisites\n\n- [Node.js](https:\u002F\u002Fnodejs.org\u002F) (v18+)\n- A [Muapi.ai](https:\u002F\u002Fmuapi.ai) API key\n\n### Setup\n\n```bash\n# Clone the repository\ngit clone https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI.git\ncd Open-Generative-AI\n\n# Install dependencies (installs root + packages\u002Fstudio workspace)\nnpm install\n\n# Start the development server\nnpm run dev\n```\n\nOpen `http:\u002F\u002Flocalhost:3000` in your browser. You'll be prompted to enter your Muapi API key on first use.\n\n### Production Build\n\n```bash\nnpm run build\nnpm run start\n```\n\n### Desktop App Build\n\nBuild native desktop apps with Electron:\n\n```bash\n# macOS (DMG — Intel + Apple Silicon)\nnpm run electron:build\n\n# Windows (NSIS installer — x64 + ARM64)\nnpm run electron:build:win\n\n# Linux (AppImage + DEB — x64)\nnpm run electron:build:linux\n\n# Both platforms in one pass\nnpm run electron:build:all\n```\n\nInstallers are output to the `release\u002F` folder. Pre-built binaries are also available on the [Releases page](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases).\n\n## 🏗️ Architecture\n\nThe app is a **Next.js monorepo** with a shared `packages\u002Fstudio` component library.\n\n```\nOpen-Generative-AI\u002F\n├── app\u002F                        # Next.js App Router\n│   ├── layout.js               # Root layout (Tailwind, fonts)\n│   ├── page.js                 # Redirects → \u002Fstudio\n│   └── studio\u002F\n│       └── page.js             # Studio page — renders StandaloneShell\n├── components\u002F\n│   ├── StandaloneShell.js      # Tab nav + BYOK (API key from localStorage)\n│   └── ApiKeyModal.js          # API key entry modal\n├── packages\u002F\n│   └── studio\u002F                 # Shared React component library\n│       └── src\u002F\n│           ├── index.js        # Exports: ImageStudio, VideoStudio, LipSyncStudio, CinemaStudio\n│           ├── models.js       # 200+ model definitions (single source of truth)\n│           ├── muapi.js        # API client (named exports, apiKey as first param)\n│           └── components\u002F\n│               ├── ImageStudio.jsx    # Dual-mode t2i\u002Fi2i studio\n│               ├── VideoStudio.jsx    # Dual-mode t2v\u002Fi2v studio\n│               ├── LipSyncStudio.jsx  # Portrait\u002Fvideo + audio → talking video\n│               └── CinemaStudio.jsx   # Pro studio with camera controls\n├── next.config.mjs             # transpilePackages: ['studio']\n├── tailwind.config.js\n└── package.json                # workspaces: [\"packages\u002Fstudio\"]\n```\n\nThe `packages\u002Fstudio` library is also consumed by the hosted version on [muapi.ai](https:\u002F\u002Fmuapi.ai) — model updates made in `packages\u002Fstudio\u002Fsrc\u002Fmodels.js` apply to both the self-hosted app and the hosted version automatically.\n\n## 🔌 API Integration\n\nThe app communicates with [Muapi.ai](https:\u002F\u002Fmuapi.ai) using a two-step pattern:\n\n1. **Submit** — `POST \u002Fapi\u002Fv1\u002F{model-endpoint}` with prompt and parameters\n2. **Poll** — `GET \u002Fapi\u002Fv1\u002Fpredictions\u002F{request_id}\u002Fresult` until status is `completed`\n\nAuthentication uses the `x-api-key` header. During development, a Vite proxy handles CORS by routing `\u002Fapi` requests to `https:\u002F\u002Fapi.muapi.ai`.\n\nFile uploads use `POST \u002Fapi\u002Fv1\u002Fupload_file` (multipart\u002Fform-data) and return a hosted URL that is passed to image-conditioned models. For multi-image models the full `images_list` array is forwarded to the API in one request.\n\nLip sync jobs use the same two-step pattern: a dedicated `processLipSync()` method accepts `image_url` or `video_url` alongside `audio_url`, dispatches to the model's endpoint, and polls until the output video URL is available.\n\n## 🎨 Supported Model Categories\n\n| Category | Count | Examples |\n|---|---|---|\n| **Text-to-Image** | 50+ | Flux Dev, Nano Banana 2, Seedream 5.0, Ideogram v3, Midjourney v7, GPT-4o, SDXL |\n| **Image-to-Image** | 55+ | Nano Banana 2 Edit (×14), Flux Kontext Pro, GPT-4o Edit, Seededit v3, Upscaler, Background Remover |\n| **Text-to-Video** | 40+ | Kling v3, Sora 2, Veo 3, Wan 2.6, Seedance 2.0, Seedance 2.0 Extend, Seedance Pro, Hailuo 2.3, Runway Gen-3 |\n| **Image-to-Video** | 60+ | Kling v2.1 I2V, Veo3 I2V, Runway I2V, Seedance 2.0 I2V, Midjourney v7 I2V, Hunyuan I2V, Wan2.2 I2V |\n| **Lip Sync** | 9 | Infinite Talk I2V, Wan 2.2 Speech to Video, LTX 2.3 Lipsync, LTX 2 19B Lipsync, Sync, LatentSync, Creatify, Veed, Infinite Talk V2V |\n\n## 🛠️ Tech Stack\n\n- **Next.js 14** — App Router, server components, fast dev server\n- **React 18** — Studio UI components\n- **Tailwind CSS v3** — Utility-first styling\n- **npm workspaces** — Monorepo with shared `packages\u002Fstudio` library\n- **Muapi.ai** — AI model API gateway\n\n## 🤔 How is this different from Higgsfield AI, Freepik, Krea, Openart AI?\n\n**Open Generative AI** is a community-driven, open-source alternative that provides similar creative capabilities without the closed ecosystem:\n\n| | Other providers | Open Generative AI |\n| :--- | :--- | :--- |\n| **Cost** | Subscription-based | Free (open-source) |\n| **Content filters** | Yes — prompts blocked or altered | None — fully uncensored |\n| **Restrictions** | Platform guardrails enforced | Unrestricted creative freedom |\n| **Models** | Proprietary | 200+ open & commercial models |\n| **Multi-image input** | Limited | Up to 14 images per request |\n| **Lip sync** | No | 9 models, image & video modes |\n| **Hosted version** | Subscription | Free at [muapi.ai\u002Fopen-generative-ai](https:\u002F\u002Fmuapi.ai\u002Fopen-generative-ai) |\n| **Self-hosting** | No | Yes |\n| **Customizable** | No | Fully hackable |\n| **Data privacy** | Cloud-based | Your data stays local |\n| **Source code** | Closed | MIT licensed |\n\n## 📄 License\n\nMIT\n\n## 🙏 Credits\n\nBuilt with [Muapi.ai](https:\u002F\u002Fmuapi.ai) — the unified API for AI image and video generation models.\n\n---\n**Deep Dive**: For more details on the \"AI Influencer\" engine, upcoming \"Popcorn\" storyboarding features, and the future of this project, read the [full technical overview](https:\u002F\u002Fmedium.com\u002F@anilmatcha\u002F).\n\n---\n*Looking for a free, uncensored Higgsfield AI, Freepik, Krea, Openart AI alternative? Open Generative AI is an open-source, unrestricted AI image and video generation studio — a Higgsfield AI, Freepik, Krea, Openart AI replacement with no content filters that you can self-host, customize, and extend.*\n\nThis project is an independent, experimental, and open-source initiative and is not affiliated with, endorsed by, or associated with Higgsfield Inc., Freepik, Krea AI, OpenArt AI, or any of their respective companies, products, or services. Any references to third-party platforms, models, or technologies are made solely for interoperability, benchmarking, research, or educational purposes. All trademarks, logos, and brand names are the property of their respective owners. If any content in this repository creates confusion or raises concerns, please contact us and we will promptly review and address it.\n","# 开放生成式AI — 无审查的开源替代方案，取代Higgsfield AI、Freepik、Krea、Openart AI\n\n> **Higgsfield AI、Freepik、Krea、Openart AI 的免费、开源、无限制替代品。** 使用200多种最先进模型生成AI图像和视频——没有内容过滤器，没有封闭生态系统，无需订阅费用。\n\n## 🌐 在线试用 — 无需安装\n\n**托管版本：** [https:\u002F\u002Fdev.muapi.ai\u002Fopen-generative-ai](https:\u002F\u002Fdev.muapi.ai\u002Fopen-generative-ai)\n\n直接在浏览器中使用所有四个工作室（图像、视频、唇形同步、电影）——无需Node.js，无需任何设置。注册一个免费账户即可开始生成。托管版本始终与最新模型保持同步。\n\n**社区：** 加入[Discord](https:\u002F\u002Fdiscord.gg\u002FsqFYv8ugND)进行讨论和支持\n\n**关注** 创作者以获取最新动态：[X](https:\u002F\u002Fx.com\u002Fmatchaman11)\n\n**Happy Horse顶级视频模型即将发布：** 关注[Happy Horse AI](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FHappyHorse-1.0-API)以获取更新   \n\n---\n\n## ⬇️ 下载桌面应用\n\n一键安装程序——无需Node.js或终端。\n\n| 平台 | 下载 |\n|---|---|\n| macOS Apple Silicon (M1\u002FM2\u002FM3\u002FM4) | [Open Generative AI-1.0.0-arm64.dmg](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI-1.0.0-arm64.dmg) |\n| macOS Intel (x64) | [Open Generative AI-1.0.0.dmg](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI-1.0.0.dmg) |\n| Windows (x64 + ARM64) | [Open Generative AI Setup 1.0.0.exe](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI.Setup.1.0.0.exe) |\n| Linux (Ubuntu x64) | 使用 `npm run electron:build:linux` 本地构建 |\n\n所有版本：[github.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases)\n\n### macOS 安装指南\n\n由于该应用未经过Apple认证，首次启动时macOS Gatekeeper会阻止其运行。请按照以下步骤操作：\n\n**步骤1** — 挂载DMG文件，并将应用拖至“应用程序”文件夹\n\n**步骤2** — 打开终端并运行：\n```bash\nxattr -cr \"\u002FApplications\u002FOpen Generative AI.app\"\n```\n\n**步骤3** — 在“应用程序”文件夹中右键点击该应用 → 选择“打开” → 再次在弹出的对话框中点击“打开”\n\n> 您只需执行一次此操作。之后，应用即可正常打开。\n\n**替代方法（无需终端）：**\n1. 尝试打开应用——macOS会阻止它\n2. 前往 **系统设置 → 隐私与安全性**\n3. 向下滚动找到 _\"Open Generative AI 被阻止\"_\n4. 点击 **仍要打开** → **打开**\n\n### Windows 安装 — 解决SmartScreen警告\n\nWindows SmartScreen可能会显示警告，因为安装程序未经过代码签名：\n\n1. 在SmartScreen对话框中点击 **更多信息**\n2. 点击 **仍要运行**\n\n应用将静默安装到 `%LocalAppData%` 目录，并创建一个开始菜单快捷方式。\n\n### Ubuntu \u002F Linux 安装\n\n使用Electron Builder构建时，可获得Linux相关文件：\n\n```bash\n# 构建Linux安装包（AppImage + .deb）\nnpm run electron:build:linux\n```\n\n生成的文件会写入 `release\u002F` 文件夹：\n- **AppImage** — 可移植，制作可执行文件后即可直接运行：\n  ```bash\n  chmod +x \"release\u002FOpen Generative AI-*.AppImage\"\n  .\u002Frelease\u002FOpen\\ Generative\\ AI-*.AppImage\n  ```\n- **.deb** — 可在Debian\u002FUbuntu上安装：\n  ```bash\n  sudo apt install .\u002Frelease\u002Fopen-generative-ai_*_amd64.deb\n  ```\n\n如果AppImage在较旧的系统上无法启动，请安装 `libfuse2`：\n\n```bash\nsudo apt install libfuse2\n```\n\n#### Ubuntu 24.04+ \u002F AppArmor沙盒限制\n\nUbuntu 24.04及更高版本启用了内核安全策略（`apparmor_restrict_unprivileged_userns`），该策略会阻止Chromium用户命名空间沙盒的运行。如果应用静默启动失败或立即崩溃，您有两种选择：\n\n**选项A — 推荐：改用.deb包安装。**\n.deb包自带AppArmor配置文件，在安装时会自动授予所需权限，且不会对系统造成全局性更改。\n\n**选项B — 临时系统修复（AppImage用户）：**\n```bash\nsudo sysctl -w kernel.apparmor_restrict_unprivileged_userns=0\n```\n此设置仅在下次重启前有效。若需永久生效：\n```bash\necho 'kernel.apparmor_restrict_unprivileged_userns=0' | sudo tee \u002Fetc\u002Fsysctl.d\u002F99-userns.conf\n```\n\n---\n\nOpen Generative AI是一款免费、无审查、开源的AI图像、视频、电影和唇形同步工作室，为所有人带来不受限制的创作流程。没有内容过滤器，没有提示拒绝，没有护栏——只有完全的创作自由。由[Muapi.ai](https:\u002F\u002Fmuapi.ai)提供支持，它支持文本到图像、图像到图像、文本到视频、图像到视频以及音频驱动的唇形同步生成，涵盖Flux、Nano Banana、Midjourney、Kling、Sora、Veo、Seedream、Infinite Talk、LTX Lipsync、Wan 2.2等众多模型——所有这些都可通过一个简洁现代的界面实现，您可以自行部署并进行定制。\n\n**为什么选择Open Generative AI而不是Higgsfield AI、Freepik、Krea AI、Openart AI？**\n- **无审查、无限制** — 没有内容过滤器，没有保姆式的护栏，没有提示被拒绝的情况\n- **免费、开源** — 无需订阅，没有厂商锁定\n- **可自托管** — 您的数据保留在您的设备上，拥有完全的创作控制权\n- **200多种模型** — 文本到图像、图像到图像、文本到视频、图像到视频、唇形同步\n- **多图像输入** — 可向兼容模型输入多达14张参考图像\n- **唇形同步工作室** — 使用9种专用模型为肖像动画或为任意音频同步嘴唇\n- **可扩展** — 添加您自己的模型，修改UI，基于它进行二次开发\n\n如需深入了解技术架构以及“无限预算”电影工作流背后的理念，请参阅我们的[全面指南和路线图](https:\u002F\u002Fmedium.com\u002F@anilmatcha\u002F)。\n\n![工作室演示](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAnil-matcha_Open-Higgsfield-AI_readme_0fc173f6b54a.webp)\n\n## ✨ 功能\n\n- **图像工作室** — 根据文本提示生成图像（50+ 文生图模型）或对现有图像进行变换（55+ 图生图模型）。根据是否提供参考图像，自动切换模型集。对于支持质量与分辨率控制的模型，相关控件将可见。\n- **多图像输入** — 对于兼容的编辑模型（Nano Banana 2 Edit、Flux Kontext Dev、GPT-4o Edit 等），可上传最多14张参考图像。提供带顺序标记的多选选择器、批量上传功能以及“使用所选”确认流程。\n- **视频工作室** — 根据文本提示生成视频（40+ 文生视频模型）或为起始帧图像添加动画效果（60+ 图生视频模型）。与图像工作室采用相同的智能模式切换机制。\n- **唇形同步工作室** — 使用音频为肖像图像添加动画效果，或将现有视频中的嘴唇动作与音频同步。共9种专用模型，分为两种模式：肖像图像 + 音频 → 说话视频，以及视频 + 音频 → 唇形同步视频。\n- **电影工作室** — 提供逼真的电影级镜头界面，并配备专业相机控制选项（镜头、焦距、光圈）。\n- **上传历史** — 参考图像只需上传一次并存储在本地。通过选择面板，您可以在不同会话中重复使用任何已上传的图像，无需再次上传。\n- **智能控件** — 动态调整的宽高比、分辨率\u002F画质及持续时间选择器，可根据各模型的能力自动适配（包括支持分辨率或画质选项的文生图模型）。\n- **生成历史** — 浏览、重新访问并下载所有过往生成内容（保存在浏览器存储中）。\n- **图像与视频下载** — 一键以完整分辨率下载生成结果。\n- **API密钥管理** — 安全地将API密钥存储在浏览器localStorage中（除Muapi外，不会发送到任何服务器）。\n- **响应式设计** — 在桌面端和移动端均可无缝使用，采用深色玻璃拟物风格界面。\n\n### 🖼️ 图像工作室 — 双模式\n\n图像工作室会自动在两组模型之间切换：\n\n| 模式 | 触发条件 | 模型 | 提示 |\n| :--- | :--- | :--- | :--- |\n| **文生图** | 默认（无图像） | 50+ 文生图模型（Flux、Nano Banana 2、Seedream 5.0、Ideogram、GPT-4o、Midjourney等） | 必填 |\n| **图生图** | 上传了参考图像 | 55+ 图生图模型（Kontext、Nano Banana 2 Edit、Seedream 5.0 Edit、Seededit、Upscaler等） | 可选 |\n\n#### 新增模型\n\n| 模型 | 类型 | 主要特点 |\n| :--- | :--- | :--- |\n| **Nano Banana 2** | 文生图 | Google Gemini 3.1 Flash Image · 分辨率1K\u002F2K\u002F4K · Google搜索增强 · 宽高比`auto` |\n| **Nano Banana 2 Edit** | 图生图 | 最多**14张参考图像** · 分辨率1K\u002F2K\u002F4K · Google搜索增强 |\n| **Seedream 5.0** | 文生图 | 字节跳动 · 画质基础\u002F高 · 8种宽高比 · 最高4K |\n| **Seedream 5.0 Edit** | 图生图 | 字节跳动 · 自然语言风格迁移 · 画质基础\u002F高 |\n\n#### 多图像输入\n\n接受多张参考图像的模型在启用时会显示多选选择器：\n\n| 模型 | 最大图像数 |\n| :--- | :--- |\n| Nano Banana 2 Edit | 14 |\n| Nano Banana Edit | 10 |\n| Flux Kontext Dev I2I | 10 |\n| Kling O1 Edit Image | 10 |\n| GPT-4o Edit \u002F GPT Image 1.5 Edit | 10 |\n| Bytedance Seedream Edit v4 \u002F v4.5 | 10 |\n| Vidu Q2 Reference to Image | 7 |\n| Flux 2 Flex\u002FPro Edit | 8 |\n| Nano Banana Pro Edit | 8 |\n| Flux Kontext Pro\u002FMax I2I | 2 |\n| Wan 2.5\u002F2.6 Image Edit | 2–3 |\n| Qwen Image Edit Plus \u002F 2511 | 3 |\n| GPT-4o Image to Image | 5 |\n| Flux 2 Klein 4b\u002F9b Edit | 4 |\n\n当选择多图像模型时，上传触发器会切换为多选模式：\n- **带有顺序编号的复选框** — 图像将按照您选择的顺序发送给模型\n- **批量上传** — 可从文件对话框中一次性选择多个文件\n- **计数徽章** 显示当前激活的图像数量；当还有空位时，会显示`+`徽章\n- **“使用所选”按钮** 用于确认并关闭选择器\n\n### 🎬 视频工作室 — 双模式\n\n视频工作室遵循相同的模式：\n\n| 模式 | 触发条件 | 模型 | 提示 |\n| :--- | :--- | :--- | :--- |\n| **文生视频** | 默认（无图像） | 40+ 文生视频模型（Kling、Sora、Veo、Wan、Seedance 2.0、Hailuo、Runway等） | 必填 |\n| **图生视频** | 上传了起始帧 | 60+ 图生视频模型（Kling I2V、Veo3 I2V、Runway I2V、Wan I2V、Seedance 2.0 I2V、Midjourney I2V等） | 可选 |\n\n#### 新增模型\n\n| 模型 | 类型 | 主要特点 |\n| :--- | :--- | :--- |\n| **Seedance 2.0** | 文生视频 | 字节跳动 · 宽高比16:9 \u002F 9:16 \u002F 4:3 \u002F 3:4 · 持续时间5 \u002F 10 \u002F 15秒 · 画质基础\u002F高 |\n| **Seedance 2.0 I2V** | 图生视频 | 字节跳动 · 将图像动画化为视频 · 最多9张参考图像 · 宽高比16:9 \u002F 9:16 \u002F 4:3 \u002F 3:4 · 持续时间5 \u002F 10 \u002F 15秒 · 画质基础\u002F高 |\n| **Seedance 2.0 Extend** | 视频扩展 | 字节跳动 · 无缝延续任何Seedance 2.0生成的内容 · 保留风格、动作和音频 · 可选继续提示 · 持续时间5 \u002F 10 \u002F 15秒 · 画质基础\u002F高 |\n| **Grok Imagine T2V** | 文生视频 | xAI · 持续时间6 \u002F 10 \u002F **15秒** · 模式：有趣 \u002F 正常 \u002F 辛辣 · 宽高比9:16 \u002F 16:9 \u002F 2:3 \u002F 3:2 \u002F 1:1 |\n| **Grok Imagine I2V** | 图生视频 | xAI · 持续时间6 \u002F 10 \u002F **15秒** · 模式：有趣 \u002F 正常 \u002F 辛辣 · 从静止图像生成电影级动作 |\n\n### 🎙️ 唇形同步工作室\n\n**唇形同步工作室**利用9种模型，在两种输入模式下生成基于音频的说话视频：\n\n| 模式 | 触发条件 | 描述 |\n| :--- | :--- | :--- |\n| **肖像图像** | 默认 | 上传一张肖像图像和音频文件 → 生成动画说话视频 |\n| **视频** | 切换至视频模式 | 上传一段现有视频和音频文件 → 生成唇形同步视频 |\n\n#### 基于图像的模型（肖像图像 + 音频 → 视频）\n\n| 模型 | 端点 | 分辨率 | 提示 |\n| :--- | :--- | :--- | :--- |\n| **Infinite Talk** | `infinitetalk-image-to-video` | 480p、720p | 可选 |\n| **Wan 2.2 Speech to Video** | `wan2.2-speech-to-video` | 480p、720p | 可选 |\n| **LTX 2.3 Lipsync** | `ltx-2.3-lipsync` | 480p、720p、1080p | 可选 |\n| **LTX 2 19B Lipsync** | `ltx-2-19b-lipsync` | 480p、720p、1080p | 可选 |\n\n#### 基于视频的模型（视频 + 音频 → 唇形同步视频）\n\n| 模型 | 端点 | 分辨率 | 提示 |\n| :--- | :--- | :--- | :--- |\n| **Sync Lipsync** | `sync-lipsync` | — | — |\n| **LatentSync** | `latentsync-video` | — | — |\n| **Creatify Lipsync** | `creatify-lipsync` | — | — |\n| **Veed Lipsync** | `veed-lipsync` | — | — |\n| **Infinite Talk V2V** | `infinitetalk-video-to-video` | 480p、720p | 可选 |\n\n**使用方法：**\n1. 使用切换按钮选择**肖像图像**或**视频**模式\n2. 使用图像\u002F视频上传按钮上传您的肖像图像（或视频）\n3. 使用音频上传按钮上传您的音频文件\n4. 可选地输入提示以指导动作风格\n5. 选择模型和分辨率（如支持），然后点击**生成**\n\n生成历史将单独保存在`lipsync_history`中，未完成的任务将在页面重新加载时自动恢复。\n\n### 🎥 电影工作室控制\n\n**电影工作室** 提供对虚拟摄像机的精确控制，将您的选择转化为优化的提示修饰符：\n\n| 类别 | 可用选项 |\n| :--- | :--- |\n| **摄像机** | 模块化8K数字、全画幅电影数字、大画幅70mm胶片、影棚数字S35、经典16mm胶片、高端大画幅数字 |\n| **镜头** | 创意倾斜、紧凑变形、超微距、70年代电影定焦、经典变形、高端现代定焦、温暖电影定焦、漩涡散景人像、复古定焦、耀斑扩散、临床锐利定焦 |\n| **焦距** | 8mm（超广角）、14mm、24mm、35mm（人眼视角）、50mm（人像）、85mm（特写人像） |\n| **光圈** | f\u002F1.4（浅景深）、f\u002F4（平衡）、f\u002F11（深焦） |\n\n### 📁 上传历史与选择器\n\n您每次上传的图片都会在本地保存（URL + 缩略图），因此您不会重复上传同一文件：\n\n- 点击上传按钮以打开**参考图片选择器**\n- 之前上传的图片会以三列网格形式显示缩略图\n- **单图片模型** — 点击缩略图即可立即选择并关闭\n- **多图片模型** — 可以同时选择多个缩略图（按顺序编号显示），然后点击**使用选中项**\n- 使用**上传文件**按钮上传新图片（多图片模式下支持多文件选择）\n- 使用 ✕ 按钮可从历史记录中移除单个图片\n- 历史记录会在浏览器会话之间持续保留（存储在 `localStorage` 中）\n\n## 🚀 快速入门\n\n### 先决条件\n\n- [Node.js](https:\u002F\u002Fnodejs.org\u002F)（v18及以上）\n- [Muapi.ai](https:\u002F\u002Fmuapi.ai) 的 API 密钥\n\n### 设置\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI.git\ncd Open-Generative-AI\n\n# 安装依赖（安装根目录及 packages\u002Fstudio 工作区）\nnpm install\n\n# 启动开发服务器\nnpm run dev\n```\n\n在浏览器中打开 `http:\u002F\u002Flocalhost:3000`。首次使用时，系统会提示您输入 Muapi 的 API 密钥。\n\n### 生产构建\n\n```bash\nnpm run build\nnpm run start\n```\n\n### 桌面应用构建\n\n使用 Electron 构建原生桌面应用：\n\n```bash\n# macOS（DMG — Intel + Apple Silicon）\nnpm run electron:build\n\n# Windows（NSIS 安装程序 — x64 + ARM64）\nnpm run electron:build:win\n\n# Linux（AppImage + DEB — x64）\nnpm run electron:build:linux\n\n# 一次完成所有平台构建\nnpm run electron:build:all\n```\n\n安装包会输出到 `release\u002F` 文件夹。预编译的二进制文件也可在[发布页面](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases)下载。\n\n## 🏗️ 架构\n\n该应用是一个基于 **Next.js 单体仓库**，共享 `packages\u002Fstudio` 组件库。\n\n```\nOpen-Generative-AI\u002F\n├── app\u002F                        # Next.js App Router\n│   ├── layout.js               # 根布局（Tailwind、字体）\n│   ├── page.js                 # 重定向至 \u002Fstudio\n│   └── studio\u002F\n│       └── page.js             # Studio 页面 — 渲染 StandaloneShell\n├── components\u002F\n│   ├── StandaloneShell.js      # 标签导航 + BYOK（从 localStorage 获取 API 密钥）\n│   └── ApiKeyModal.js          # API 密钥输入模态框\n├── packages\u002F\n│   └── studio\u002F                 # 共享 React 组件库\n│       └── src\u002F\n│           ├── index.js        # 导出：ImageStudio、VideoStudio、LipSyncStudio、CinemaStudio\n│           ├── models.js       # 200 多种模型定义（唯一真实来源）\n│           ├── muapi.js        # API 客户端（命名导出，apiKey 作为第一个参数）\n│           └── components\u002F\n│               ├── ImageStudio.jsx    # 双模式 t2i\u002Fi2i 工作室\n│               ├── VideoStudio.jsx    # 双模式 t2v\u002Fi2v 工作室\n│               ├── LipSyncStudio.jsx  # 人像\u002F视频 + 音频 → 谈话视频\n│               └── CinemaStudio.jsx   # 带摄像机控制的专业工作室\n├── next.config.mjs             # transpilePackages: ['studio']\n├── tailwind.config.js\n└── package.json                # workspaces: [\"packages\u002Fstudio\"]\n```\n\n`packages\u002Fstudio` 库也被托管版本 [muapi.ai](https:\u002F\u002Fmuapi.ai) 所使用——在 `packages\u002Fstudio\u002Fsrc\u002Fmodels.js` 中进行的模型更新会自动应用于自托管应用和托管版本。\n\n## 🔌 API 集成\n\n该应用使用两步模式与 [Muapi.ai](https:\u002F\u002Fmuapi.ai) 通信：\n\n1. **提交** — `POST \u002Fapi\u002Fv1\u002F{model-endpoint}`，附带提示和参数\n2. **轮询** — `GET \u002Fapi\u002Fv1\u002Fpredictions\u002F{request_id}\u002Fresult`，直到状态变为 `completed`\n\n身份验证使用 `x-api-key` 头部。在开发过程中，Vite 代理通过将 `\u002Fapi` 请求路由到 `https:\u002F\u002Fapi.muapi.ai` 来处理 CORS。\n\n文件上传使用 `POST \u002Fapi\u002Fv1\u002Fupload_file`（multipart\u002Fform-data），返回一个托管 URL，并将其传递给图像条件模型。对于多图片模型，整个 `images_list` 数组会在一次请求中转发到 API。\n\n唇形同步任务也采用相同的两步模式：专门的 `processLipSync()` 方法接受 `image_url` 或 `video_url` 以及 `audio_url`，将其发送到模型端点，并轮询直至输出视频 URL 可用。\n\n## 🎨 支持的模型类别\n\n| 类别 | 数量 | 示例 |\n|---|---|---|\n| **文本到图像** | 50+ | Flux Dev、Nano Banana 2、Seedream 5.0、Ideogram v3、Midjourney v7、GPT-4o、SDXL |\n| **图像到图像** | 55+ | Nano Banana 2 Edit（×14）、Flux Kontext Pro、GPT-4o Edit、Seededit v3、放大器、背景移除器 |\n| **文本到视频** | 40+ | Kling v3、Sora 2、Veo 3、Wan 2.6、Seedance 2.0、Seedance 2.0 Extend、Seedance Pro、Hailuo 2.3、Runway Gen-3 |\n| **图像到视频** | 60+ | Kling v2.1 I2V、Veo3 I2V、Runway I2V、Seedance 2.0 I2V、Midjourney v7 I2V、Hunyuan I2V、Wan2.2 I2V |\n| **唇形同步** | 9 | Infinite Talk I2V、Wan 2.2 语音转视频、LTX 2.3 唇形同步、LTX 2 19B 唇形同步、Sync、LatentSync、Creatify、Veed、Infinite Talk V2V |\n\n## 🛠️ 技术栈\n\n- **Next.js 14** — App Router、服务器组件、快速开发服务器\n- **React 18** — 工作室 UI 组件\n- **Tailwind CSS v3** — 实用优先的样式\n- **npm 工作空间** — 单体仓库，共享 `packages\u002Fstudio` 库\n- **Muapi.ai** — AI 模型 API 网关\n\n## 🤔 这与 Higgsfield AI、Freepik、Krea、Openart AI 有何不同？\n\n**Open Generative AI** 是一个社区驱动的开源替代方案，提供类似的创作能力，但没有封闭的生态系统：\n\n| | 其他提供商 | Open Generative AI |\n| :--- | :--- | :--- |\n| **成本** | 订阅制 | 免费（开源） |\n| **内容过滤** | 是 — 提示会被阻止或修改 | 否 — 完全无审查 |\n| **限制** | 平台护栏强制执行 | 无限制的创作自由 |\n| **模型** | 专有 | 200 多种开放及商业模型 |\n| **多图片输入** | 有限 | 每次请求最多 14 张图片 |\n| **唇形同步** | 否 | 9 种模型，支持图像和视频模式 |\n| **托管版本** | 订阅 | 免费于 [muapi.ai\u002Fopen-generative-ai](https:\u002F\u002Fmuapi.ai\u002Fopen-generative-ai) |\n| **自托管** | 否 | 是 |\n| **可定制性** | 否 | 完全可 hack |\n| **数据隐私** | 基于云 | 您的数据保留在本地 |\n| **源代码** | 封闭 | MIT 许可 |\n\n## 📄 许可证\n\nMIT\n\n## 🙏 致谢\n\n由 [Muapi.ai](https:\u002F\u002Fmuapi.ai) 构建——一款面向 AI 图像与视频生成模型的统一 API。\n\n---\n**深度解析**：如需了解更多关于“AI 影响者”引擎、即将推出的“爆米花”分镜功能，以及该项目的未来规划，请阅读[完整的技术概述](https:\u002F\u002Fmedium.com\u002F@anilmatcha\u002F)。\n\n---\n*正在寻找免费、无审查的 Higgsfield AI、Freepik、Krea、Openart AI 替代方案吗？Open Generative AI 是一个开源、不受限制的 AI 图像与视频生成工作室——它可作为 Higgsfield AI、Freepik、Krea、Openart AI 的替代品，不含内容过滤器，支持自行部署、定制和扩展。*\n\n本项目是一项独立、实验性的开源计划，与 Higgsfield Inc.、Freepik、Krea AI、OpenArt AI 及其任何关联公司、产品或服务均无隶属关系、未获其认可或关联。所有对第三方平台、模型或技术的引用，仅出于互操作性、基准测试、研究或教育目的。所有商标、标识及品牌名称均为其各自所有者的财产。若本仓库中的任何内容造成混淆或引发疑虑，请联系我们，我们将立即审核并予以处理。","# Open-Generative-AI 快速上手指南\n\nOpen-Generative-AI 是一个免费、开源且无内容过滤限制的 AI 生成工作室，支持图像、视频、口型同步及电影级镜头生成。它集成了 200+ 种前沿模型（如 Flux, Kling, Sora, Seedream 等），可作为 Higgsfield AI、Freepik 等商业工具的本地替代方案。\n\n## 环境准备\n\n本工具提供桌面客户端和在线版本，无需配置复杂的 Node.js 或 Python 环境即可使用。\n\n### 系统要求\n*   **macOS**: \n    *   Apple Silicon (M1\u002FM2\u002FM3\u002FM4) 或 Intel (x64) 处理器。\n    *   macOS 10.15 或更高版本。\n*   **Windows**: \n    *   Windows 10\u002F11 (x64 或 ARM64)。\n*   **Linux**: \n    *   Ubuntu 20.04+ (推荐 22.04\u002F24.04)，x64 架构。\n    *   若使用 AppImage，需确保系统支持 FUSE。\n*   **浏览器版**: 任意现代浏览器 (Chrome, Edge, Firefox, Safari)。\n\n### 前置依赖与注意事项\n*   **API Key**: 工具本身是前端界面，生成能力由后端提供。你需要拥有 [Muapi.ai](https:\u002F\u002Fmuapi.ai) 的 API Key（在应用设置中配置，密钥仅存储于本地）。\n*   **Linux 用户注意**: \n    *   Ubuntu 24.04+ 用户若遇到应用无法启动，可能需要调整内核安全策略（见安装步骤）。\n    *   旧版系统若运行 AppImage 失败，需安装 `libfuse2`。\n\n## 安装步骤\n\n你可以选择直接使用在线版，或下载桌面客户端以获得更好的性能和离线体验。\n\n### 方式一：在线使用（无需安装）\n直接访问托管版本，注册免费账号即可开始使用：\n[https:\u002F\u002Fdev.muapi.ai\u002Fopen-generative-ai](https:\u002F\u002Fdev.muapi.ai\u002Fopen-generative-ai)\n\n### 方式二：桌面客户端安装\n\n#### 1. macOS 安装\n1.  下载对应芯片版本的 `.dmg` 文件：\n    *   [Apple Silicon (M1-M4)](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI-1.0.0-arm64.dmg)\n    *   [Intel (x64)](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI-1.0.0.dmg)\n2.  将应用拖入 `\u002FApplications` 文件夹。\n3.  **首次运行授权**（因应用未签名，需手动放行）：\n    *   **方法 A (终端)**: 打开终端运行以下命令移除隔离属性：\n        ```bash\n        xattr -cr \"\u002FApplications\u002FOpen Generative AI.app\"\n        ```\n        随后双击打开应用。\n    *   **方法 B (图形界面)**: 双击打开被拦截的应用 -> 进入 `系统设置` -> `隐私与安全性` -> 找到拦截记录 -> 点击 `仍要打开`。\n\n#### 2. Windows 安装\n1.  下载安装程序：[Open Generative AI Setup 1.0.0.exe](https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Freleases\u002Fdownload\u002Fv1.0.0\u002FOpen.Generative.AI.Setup.1.0.0.exe)\n2.  运行安装包。若出现 **SmartScreen** 警告：\n    *   点击 `详细信息` (More info)。\n    *   点击 `仍要运行` (Run anyway)。\n3.  应用将静默安装至 `%LocalAppData%` 并在开始菜单创建快捷方式。\n\n#### 3. Linux (Ubuntu) 安装\n**选项 A：使用 .deb 包（推荐，自动处理权限）**\n若官方 Release 页面暂无预编译 deb 包，可本地构建：\n```bash\nnpm run electron:build:linux\n```\n构建完成后在 `release\u002F` 目录找到 `.deb` 文件并安装：\n```bash\nsudo apt install .\u002Frelease\u002Fopen-generative-ai_*_amd64.deb\n```\n\n**选项 B：使用 AppImage**\n下载或构建 AppImage 文件，赋予执行权限并运行：\n```bash\nchmod +x \"release\u002FOpen Generative AI-*.AppImage\"\n.\u002Frelease\u002FOpen\\ Generative\\ AI-*.AppImage\n```\n*注：若提示缺少 fuse，请运行 `sudo apt install libfuse2`。*\n\n**Ubuntu 24.04+ 特殊修复**\n若应用启动即崩溃（因 AppArmor 限制），执行以下命令临时放宽限制：\n```bash\nsudo sysctl -w kernel.apparmor_restrict_unprivileged_userns=0\n```\n如需永久生效：\n```bash\necho 'kernel.apparmor_restrict_unprivileged_userns=0' | sudo tee \u002Fetc\u002Fsysctl.d\u002F99-userns.conf\n```\n\n## 基本使用\n\n安装完成后，启动应用并按照以下步骤进行第一次生成。\n\n### 1. 配置 API Key\n*   打开应用，进入设置（通常在侧边栏或齿轮图标）。\n*   输入你的 **Muapi.ai API Key**。\n*   *安全提示：Key 仅存储在本地浏览器缓存中，不会上传至其他服务器。*\n\n### 2. 图像生成 (Image Studio)\n应用会根据是否上传图片自动切换模式：\n*   **文生图 (Text-to-Image)**:\n    1.  确保未上传参考图。\n    2.  在提示词框输入描述，例如：`A cyberpunk city street at night, neon lights, realistic, 8k`。\n    3.  选择模型（如 `Flux`, `Nano Banana 2`）。\n    4.  调整宽高比和质量，点击 **Generate**。\n*   **图生图 (Image-to-Image)**:\n    1.  上传一张参考图片（支持最多 14 张多图输入，适用于 `Nano Banana 2 Edit` 等模型）。\n    2.  输入修改指令（可选），例如：`Change the style to watercolor painting`。\n    3.  点击 **Generate**。\n\n### 3. 视频生成 (Video Studio)\n*   **文生视频**: 输入提示词，选择 `Kling`, `Sora`, `Seedance 2.0` 等模型，设置时长（5s\u002F10s\u002F15s），点击生成。\n*   **图生视频**: 上传首帧图片，让静态图像动起来。\n\n### 4. 口型同步 (Lip Sync Studio)\n*   **模式**: 选择 `Portrait Image` (人像 + 音频) 或 `Video` (现有视频 + 音频)。\n*   **操作**: 上传人像\u002F视频文件和对应的音频文件，选择模型（如 `Infinite Talk`, `LTX Lipsync`），点击生成即可获得说话视频。\n\n### 5. 管理与导出\n*   **历史记录**: 所有生成记录保存在 `Generation History` 面板中，可随时查看或重新下载。\n*   **下载**: 点击生成结果下方的下载图标，即可保存高分辨率原图或视频到本地。","一位独立游戏开发者正在为一款赛博朋克风格的成人向视觉小说创作关键剧情插图和过场动画，需要高度自由且风格统一的素材。\n\n### 没有 Open-Generative-AI 时\n- **创意受限严重**：主流平台的内容过滤机制频繁拦截涉及暴力、黑暗或成人主题的提示词，导致无法生成符合剧本设定的关键画面。\n- **成本高昂且分散**：为了获得不同风格（如 Flux 绘图、Kling 视频），需同时订阅多个付费服务，每月支出巨大且工作流在不同网页间割裂。\n- **隐私与版权担忧**：担心上传的未公开剧情概念图被云端模型训练窃取，且封闭生态下的生成内容版权归属模糊，不利于商业发行。\n- **部署门槛高**：若想本地部署开源模型以规避限制，需配置复杂的 Python 环境和依赖库，耗费大量开发时间而非专注于创作。\n\n### 使用 Open-Generative-AI 后\n- **创作完全解禁**：凭借无内容过滤特性，开发者可直接输入大胆的剧情描述，利用内置的 200+ 模型（包括 Flux 和 Kling）一次性生成所有所需的敏感题材素材。\n- **一站式免费工作流**：通过桌面端一键安装，直接在本地集成图像、视频及口型同步工作室，无需任何订阅费即可调用顶尖模型，大幅降低制作成本。\n- **数据自主可控**：基于 MIT 许可的自托管架构确保所有数据留在本地，彻底消除泄露风险，并明确拥有生成内容的完整商业版权。\n- **零配置即时启动**：无需编写代码或配置环境，下载即用，让开发者能将精力完全集中在叙事打磨和美术调优上。\n\nOpen-Generative-AI 通过提供无审查、本地化且免费的一站式生成方案，彻底解放了创作者在敏感题材与商业落地上的双重束缚。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAnil-matcha_Open-Generative-AI_19f0e070.png","Anil-matcha","Anil Chandra Naidu Matcha","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FAnil-matcha_3887666f.jpg","Curious ",null,"https:\u002F\u002Fgithub.com\u002FAnil-matcha",[22,26,30],{"name":23,"color":24,"percentage":25},"JavaScript","#f1e05a",98.8,{"name":27,"color":28,"percentage":29},"CSS","#663399",1.1,{"name":31,"color":32,"percentage":33},"HTML","#e34c26",0.1,5114,954,"2026-04-18T04:40:29",1,"macOS (Apple Silicon M1\u002FM2\u002FM3\u002FM4, Intel x64), Windows (x64, ARM64), Linux (Ubuntu x64)","未说明 (基于云端 API 运行，本地无需 GPU)","未说明",{"notes":42,"python":43,"dependencies":44},"该工具为桌面客户端或在线服务，核心计算依赖 Muapi.ai 云端 API，因此本地运行不需要安装 Python、Node.js、CUDA 或高性能 GPU。Linux 用户若使用 AppImage 在 Ubuntu 24.04+ 上运行，可能需要安装 libfuse2 或调整内核参数 (kernel.apparmor_restrict_unprivileged_userns=0) 以解决沙箱限制问题。macOS 首次运行需手动解除 Gatekeeper 拦截。使用时需自行配置 API Key。","未说明 (桌面版无需安装 Python 或 Node.js)",[],[46,47,48],"插件","图像","视频",[50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69],"ai-image-generation","ai-video-generation","generative-ai","higgsfield","muapi","text-to-video","creative-tools","flux-1","image-to-video","javascript","kling-ai","open-source","sora-alternative","wan-video","ai-art-generator","higgsfield-ai","midjourney-alternative","higgsfield-alternative","uncensored","unrestricted",2,"ready","2026-03-27T02:49:30.150509","2026-04-18T17:04:11.933169",[75,80,85,90,95,100,105],{"id":76,"question_zh":77,"answer_zh":78,"source_url":79},40454,"点击生成按钮后没有任何反应，或者提示需要付费，这个项目真的是免费的吗？","项目界面本身是完全免费且开源的。它采用 BYOK (Bring Your Own Key) 模式，意味着你需要自己提供 API 密钥。默认配置可能指向 muapi.ai，该服务需要充值积分才能使用模型。你可以选择：1. 在 muapi.ai 注册并充值；2. 修改代码配置，替换为你自己的其他 API 提供商（如 OpenAI 等），这样只需支付对应服务商的费用，没有额外的平台加价。","https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Fissues\u002F31",{"id":81,"question_zh":82,"answer_zh":83,"source_url":84},40455,"如何获取和设置 API 密钥？遇到 'Not Authenticated' 错误怎么办？","你需要先创建一个账户并生成 API 密钥。具体步骤如下：\n1. 访问 https:\u002F\u002Fmuapi.ai (或你选择的其他提供商)。\n2. 注册账户。\n3. 在后台创建 API Key。\n4. 将生成的 Key 填入项目的设置中。\n注意：如果使用 muapi，确保账户内有足够的积分（credits）来运行模型。","https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Fissues\u002F71",{"id":86,"question_zh":87,"answer_zh":88,"source_url":89},40456,"安装时遇到 'Could not build wheels for hnswlib' 错误如何解决？","这通常是由于 Python 版本兼容性或缺少编译环境导致的。可以尝试以下解决方案：\n1. 将 Python 版本降级到 3.10.10。\n2. 设置环境变量以跳过原生构建：\n   export HNSWLIB_NO_NATIVE=1\n3. 重新安装库：\n   pip install HNSWLIB\n如果问题依旧，请尝试升级 pip 到最新版本。","https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Fissues\u002F6",{"id":91,"question_zh":92,"answer_zh":93,"source_url":94},40457,"遇到 'maximum context length is 4097 tokens' 错误该如何处理？","这个错误表示你的输入内容（Prompt + 文档）超过了模型的限制（4097 tokens）。解决方法有：\n1. 减少输入的文本长度或缩短 Prompt。\n2. 切换到支持更长上下文（如 16K tokens）的模型，但这通常会增加使用成本。\n该项目目前是将整个文件发送给模型，不同于某些高级应用的分段索引机制，因此需要注意输入长度限制。","https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Fissues\u002F11",{"id":96,"question_zh":97,"answer_zh":98,"source_url":99},40458,"生成图片或视频后设置会被重置，必须重新配置才能再次生成吗？","这是一个已知的工作流体验问题。维护者已在最近的提交（commit）中修复了此问题。如果你遇到这种情况，请拉取最新的代码更新并在本地重新运行，生成后设置应当会被保留，无需重复配置。","https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Fissues\u002F63",{"id":101,"question_zh":102,"answer_zh":103,"source_url":104},40459,"API 请求失败或在使用云端版本时报错怎么办？","如果遇到 API 请求失败，请首先确认你是否已正确设置了 API 密钥。即使是使用托管在 muapi 上的云端版本，也需要在设置中填入有效的 API Key 才能正常工作。请检查密钥是否复制完整，以及账户是否有剩余积分。维护者表示此类问题通常在最新更新的版本中已得到修复，建议更新至最新版。","https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Fissues\u002F59",{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},40460,"如何添加唇形同步（Lipsync）模型，如 InfiniteTalk 或 OmniHuman？","维护者已响应该功能请求。InfiniteTalk 和 OmniHuman 等唇形同步模型已被添加或计划在接下来的更新中加入。请确保你使用的是最新版本的代码以获取这些新功能。","https:\u002F\u002Fgithub.com\u002FAnil-matcha\u002FOpen-Generative-AI\u002Fissues\u002F30",[111,116],{"id":112,"version":113,"summary_zh":114,"released_at":115},323887,"v1.0.1","## 新增功能\n\n- **修复 AI 视频效果**：效果类型（名称）和提示词字段现已正确发送至 API，解决了用户此前遇到的 422 无法处理的实体错误。\n- 在视频工作室控件中新增了一个 **效果** 下拉菜单，用户可从中选择所有可用效果（360 度旋转、蛋糕化、火焰等）。\n\n## 下载\n\n| 平台 | 文件 |\n|----------|------|\n| macOS Intel (x64) | Open Generative AI-1.0.1.dmg |\n| macOS Apple Silicon (arm64) | Open Generative AI-1.0.1-arm64.dmg |\n\n> Windows 版本即将推出。","2026-04-14T18:52:38",{"id":117,"version":118,"summary_zh":119,"released_at":120},323888,"v1.0.0","## 桌面应用 — 一键安装程序\n\n请下载适用于您平台的安装程序：\n\n| 平台 | 架构 | 文件 |\n|---|---|---|\n| macOS | Apple Silicon (M1\u002FM2\u002FM3\u002FM4) | `Open Higgsfield AI-1.0.0-arm64.dmg` |\n| macOS | Intel (x64) | `Open Higgsfield AI-1.0.0.dmg` |\n| Windows | x64 + ARM64 | `Open Higgsfield AI Setup 1.0.0.exe` |\n\n### 安装步骤\n\n**macOS：** 打开 `.dmg` 文件，将应用拖拽至 `\u002FApplications` 目录。如果 macOS 显示“未识别的开发者”警告，请右键单击该应用 → **打开**。\n\n**Windows：** 运行 `.exe` 文件——它会静默安装到 `%LocalAppData%` 目录，并在开始菜单中创建快捷方式。\n\n### 系统要求\n- 一个 [Muapi.ai](https:\u002F\u002Fmuapi.ai) API 密钥（首次启动时可通过设置界面输入）\n- macOS 10.12 及以上版本或 Windows 10 及以上版本\n\n> 当前应用尚未签名。首次运行时，macOS 的 Gatekeeper 和 Windows 的 SmartScreen 可能会显示警告——这是未签名版本的正常现象。","2026-03-18T06:29:05",[122,134,142,150,158,166],{"id":123,"name":124,"github_repo":125,"description_zh":126,"stars":127,"difficulty_score":128,"last_commit_at":129,"category_tags":130,"status":71},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[131,132,47,133],"Agent","开发框架","数据工具",{"id":135,"name":136,"github_repo":137,"description_zh":138,"stars":139,"difficulty_score":128,"last_commit_at":140,"category_tags":141,"status":71},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[132,47,131],{"id":143,"name":144,"github_repo":145,"description_zh":146,"stars":147,"difficulty_score":37,"last_commit_at":148,"category_tags":149,"status":71},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,"2026-04-16T14:50:03",[131,46],{"id":151,"name":152,"github_repo":153,"description_zh":154,"stars":155,"difficulty_score":70,"last_commit_at":156,"category_tags":157,"status":71},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[132,47,131],{"id":159,"name":160,"github_repo":161,"description_zh":162,"stars":163,"difficulty_score":70,"last_commit_at":164,"category_tags":165,"status":71},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[46,131,47,132],{"id":167,"name":168,"github_repo":169,"description_zh":170,"stars":171,"difficulty_score":70,"last_commit_at":172,"category_tags":173,"status":71},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[46,132]]