[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kakaobrain--kogpt":3,"tool-kakaobrain--kogpt":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":10,"env_os":90,"env_gpu":91,"env_ram":92,"env_deps":93,"category_tags":100,"github_topics":101,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":109,"updated_at":110,"faqs":111,"releases":142},1168,"kakaobrain\u002Fkogpt","kogpt","KakaoBrain KoGPT (Korean Generative Pre-trained Transformer)","Kogpt 是一个针对韩语优化的生成式预训练语言模型，能够理解和生成自然流畅的韩语文本。它解决了韩语自然语言处理中数据稀缺和模型泛化能力不足的问题，适用于需要韩语文本生成、对话理解或内容创作的场景。开发者和研究人员可以利用 Kogpt 进行文本生成、问答系统、机器翻译等任务。该模型支持多种版本，包括全精度和半精度，适应不同硬件环境。Kogpt 采用旋转位置编码（RoPE）技术，提升了长文本处理能力，是韩语 NLP 领域的重要工具。","# KakaoBrain project KoGPT\n[![KakaoBrain](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FKakao-Brain-ffcd00.svg)](http:\u002F\u002Fkakaobrain.com\u002F)\n[![Github: kogpt](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGithub-kogpt-000000.svg)](https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt)\n[![License: Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-blue.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0)   \n[![huggingface: KoGPT-6B](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fhuggingface-KoGPT_6B_ryan1.5b-ffcd00.svg)](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b)\n[![huggingface: KoGPT-6B](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fhuggingface-KoGPT_6B_ryan1.5b_(float16)-ffcd00.svg)](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b-float16)\n[![License: CC BY-NC-ND 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-CC%20BY--NC--ND%204.0-lightgrey.svg)](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002F)\n\n\n* KakaoBrain project KoGPT (Korean Generative Pre-trained Transformer)\n  * [https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt](https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt)\n  * [https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt)\n\n\n## Model Descriptions\n\n### KoGPT6B-ryan1.5b\n\n* [\\[huggingface\\]\\[kakaobrain\u002Fkogpt\\]\\[KoGPT6B-ryan1.5b\\]](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b)\n* [\\[huggingface\\]\\[kakaobrain\u002Fkogpt\\]\\[KoGPT6B-ryan1.5b-float16\\]](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b-float16)\n\n| Hyperparameter       | Value         |\n|:---------------------|--------------:|\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{parameters}\"> | 6,166,502,400 |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{layers}\">     | 28            |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=d_{model}\">      | 4,096         |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=d_{ff}\">         | 16,384        |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{heads}\">      | 16            |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=d_{head}\">       | 256           |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{ctx}\">        | 2,048         |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{vocab}\">      | 64,512        |\n| Positional Encoding  | [Rotary Position Embedding (RoPE)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864) |\n| RoPE Dimensions      | 64            |\n\n\n## Hardware requirements\n\n### KoGPT6B-ryan1.5b\n\n#### GPU\nThe following is the recommended minimum GPU hardware guidance for a handful of example KoGPT.\n* `32GB GPU RAM` in the required minimum memory size\n\n### KoGPT6B-ryan1.5b-float16\n\n#### GPU\nThe following is the recommended minimum GPU hardware guidance for a handful of example KoGPT.\n* half-precision requires NVIDIA GPUS based on Volta, Turing or Ampere\n* `16GB GPU RAM` in the required minimum memory size\n\n\n## Usage\n\n### prompt\n```bash\npython -m kogpt --help\nusage: KoGPT inference [-h] [--model MODEL] [--revision {KoGPT6B-ryan1.5b}]\n                       [--device {cpu,cuda}] [-d]\n\nKakaoBrain Korean(hangul) Generative Pre-Training Model\n\noptional arguments:\n  -h, --help            show this help message and exit\n  --model MODEL         huggingface repo (default:kakaobrain\u002Fkogpt)\n  --revision {KoGPT6B-ryan1.5b}\n  --device {cpu,cuda}   (default:cuda)\n  -d, --debug\n```\n\n```bash\npython -m kogpt\nprompt> 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던\ntemperature(0.8)> \nmax_length(128)> 64\n인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상\n\nprompt>  \n...\n```\n\n\n### python\n```python\nimport torch\nfrom transformers import AutoTokenizer, AutoModelForCausalLM \n\ntokenizer = AutoTokenizer.from_pretrained(\n  'kakaobrain\u002Fkogpt', revision='KoGPT6B-ryan1.5b-float16',  # or float32 version: revision=KoGPT6B-ryan1.5b\n  bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]'\n)\nmodel = AutoModelForCausalLM.from_pretrained(\n  'kakaobrain\u002Fkogpt', revision='KoGPT6B-ryan1.5b-float16',  # or float32 version: revision=KoGPT6B-ryan1.5b\n  pad_token_id=tokenizer.eos_token_id,\n  torch_dtype='auto', low_cpu_mem_usage=True\n).to(device='cuda', non_blocking=True)\n_ = model.eval()\n\nprompt = '인간처럼 생각하고, 행동하는 \\'지능\\'을 통해 인류가 이제까지 풀지 못했던'\nwith torch.no_grad():\n  tokens = tokenizer.encode(prompt, return_tensors='pt').to(device='cuda', non_blocking=True)\n  gen_tokens = model.generate(tokens, do_sample=True, temperature=0.8, max_length=64)\n  generated = tokenizer.batch_decode(gen_tokens)[0]\n  \nprint(generated)  # print: 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던 문제의 해답을 찾을 수 있을 것이다. 과학기술이 고도로 발달한 21세기를 살아갈 우리 아이들에게 가장 필요한 것은 사고력 훈련이다. 사고력 훈련을 통해, 세상\n```\n\n\n## Experiments\n\n### In-context Few-Shots\n\n| Models        | #params | NSMC (Acc.) | YNAT (F1) | KLUE-STS (F1) |\n|:--------------|--------:|------------:|----------:|--------------:|\n| HyperCLOVA[1] |    1.3B |        83.9 |      58.7 |          60.9 |\n| HyperCLOVA[1] |    6.9B |        83.8 |      67.5 |          59.3 |\n| HyperCLOVA[1] |   13.0B |        87.9 |      67.9 |          60.0 |\n| HyperCLOVA[1] |   39.0B |        88.0 |      71.4 |          61.6 |\n| HyperCLOVA[1] |   82.0B |    **88.2** |      72.7 |      **65.1** |\n| **Ours**      |    6.0B |        87.8 |  **78.0** |          64.3 |\n\n\n### Finetuning \u002F P-Tuning\n\nWe have been reported to have issues(https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F17) with our downstream evaluation.\n\nThe previously published performance evaluation table was deleted because it was difficult to see it as a fair comparison because the comparison target algorithm was different and the performance measurement method could not be confirmed.\n\nYou can refer to the above issue link for the existing performance evaluation table and troubleshooting results.\n\n\n## Limitations\n\nKakaoBrain `KoGPT` was trained on raw data, a dataset known to contain profanity, lewd, political changed, and other harsh language.\nTherefore, `KoGPT` can generate socially unacceptable texts. As with all language models, It is difficult to predict in advance how `KoGPT` will response to particular prompts and offensive content without warning.\n\nPrimarily Korean: `KoGPT` is primarily trained on Korean texts, and is best for classifying, searching, summarizing or generating such texts.\n`KoGPT` by default perform worse on inputs that are different from the data distribution it is trained on, including non-Korean as well as specific dialects of Korean that are not well represented in the training data.\n\nIf abnormal or socially unacceptable text is generated during testing, please send a \"prompt\" and the \"generated text\" to [opensource+kogpt@kakaobrain.com](mailto:opensource+kogpt@kakaobrain.com).  \n\n\n\n카카오브레인 `KoGPT`는 AI커뮤니티를 위한 연구용으로 욕설, 음란, 정치적 내용 및 기타 거친 언어에 대한 처리를 하지 않은 원시 데이터로 학습하였습니다.\n따라서 `KoGPT`는 사회적으로 용인되지 않은 텍스트를 생성할 수 있습니다. 다른 언어 모델과 마찬가지로 특정 프롬프트와 공격적인 콘텐츠에 어떠한 결과를 생성할지 사전에 파악하기 어렵습니다.\n\n`KoGPT`는 주로 한국어 텍스트로 학습을 하였으며 이러한 텍스트를 분류, 검색, 요약 또는 생성하는데 가장 적합합니다.\n기본적으로 `KoGPT`는 학습 데이터에 잘 나타나지 않는 방언뿐만아니라 한국어가 아닌 경우와 같이 학습 데이터에서 발견하기 어려운 입력에서 좋지 않은 성능을 보입니다.\n\n본 KoGPT를 활용한 연구, 개발, 테스트 등에 있어 위의 부분을 꼭 유의하시기 바랍니다.  \n테스트중에 발생한 비정상적인 혹은 사회적으로 용인되지 않는 텍스트가 생성된 경우 [opensource+kogpt@kakaobrain.com](mailto:opensource+kogpt@kakaobrain.com)로 \"prompt\"와 \"생성된 문장\"을 함께 보내주시기 바랍니다.\n\n\n## Citation\n\nIf you apply this library or model to any project and research, please cite our code:\n\n```\n@misc{kakaobrain2021kogpt,\n  title         = {KoGPT: KakaoBrain Korean(hangul) Generative Pre-trained Transformer},\n  author        = {Ildoo Kim and Gunsoo Han and Jiyeon Ham and Woonhyuk Baek},\n  year          = {2021},\n  howpublished  = {\\url{https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt}},\n}\n```\n\n\n## Contact\n\nThis is released as an open source in the hope that it will be helpful to many research institutes and startups for research purposes. We look forward to contacting us from various places who wish to cooperate with us. \n\n[contact@kakaobrain.com](mailto:contact@kakaobrain.com)\n\n\n## License\n\nThe `source code` of KakaoBrain `KoGPT` are licensed under [Apache 2.0](LICENSE.apache-2.0) License.   \nThe `pretrained weights` of KakaoBrain `KoGPT` are licensed under [CC-BY-NC-ND 4.0 License](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002F) License.\n\n카카오브레인 `KoGPT`의 `소스코드(source code)`는 [Apache 2.0](LICENSE.apache-2.0) 라이선스 하에 공개되어 있습니다.   \n카카오브레인 `KoGPT`의 `사전학습된 가중치(pretrained weights)`는 [CC-BY-NC-ND 4.0 라이선스](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002F) 라이선스 하에 공개되어 있습니다.   \n모델 및 코드, 사전학습된 가중치를 사용할 경우 라이선스 내용을 준수해 주십시오. 라이선스 전문은 [Apache 2.0](LICENSE.apache-2.0), [LICENSE.cc-by-nc-nd-4.0](LICENSE.cc-by-nc-nd-4.0) 파일에서 확인하실 수 있습니다.\n\n### Obligation to use\n\nWhile Open Source software may be free to use, that does not mean it is free of obligation. To determine whether your intended use of KoGPT is suitable for the Apache 2.0 (or CC-BY-NC-ND 4.0), please consider the license guide. If you violate the license, you may be subject to legal action such as prohibition of use or claim for damages depending on the use.\n\n오픈소스 소프트웨어는 무료로 사용할 수 있지만 이것이 의무가 없다는 의미는 아닙니다. KoGPT의 사용에 앞서 라이선스 가이드를 살펴보고 예정한 사용이 Apache 2.0 (또는 CC-BY-NC-ND 4.0)를 준수하는지 여부를 먼저 확인하시기 바랍니다. 라이선스를 위반하는 경우, 내용에 따라 사용금지, 손해배상 청구 등의 법적 조치를 취할 수 있습니다.\n\n\n## References\n\n[1] [HyperCLOVA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.04650): Kim, Boseop, et al. \"What changes can large-scale language models bring? intensive study on hyperclova: Billions-scale korean generative pretrained transformers.\" arXiv preprint arXiv:2109.04650 (2021).   \n\n\n----\n\n\n## Contribution\n\n### Disclaimer\nThe contribution section is not an official KakaoBrain product.\n\n### AK391's Web Demo on Huggingface Spaces\n* see demo: https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fakhaliq\u002Fkogpt\n  * Web Demo is integrated to [Huggingface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces) with [Gradio](https:\u002F\u002Fgithub.com\u002Fgradio-app\u002Fgradio).\n  * Contributors: [AK391](https:\u002F\u002Fgithub.com\u002FAK391)\n\n\n","# KakaoBrain 项目 KoGPT\n[![KakaoBrain](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FKakao-Brain-ffcd00.svg)](http:\u002F\u002Fkakaobrain.com\u002F)\n[![Github: kogpt](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGithub-kogpt-000000.svg)](https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt)\n[![License: Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-blue.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0)   \n[![huggingface: KoGPT-6B](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fhuggingface-KoGPT_6B_ryan1.5b-ffcd00.svg)](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b)\n[![huggingface: KoGPT-6B](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fhuggingface-KoGPT_6B_ryan1.5b_(float16)-ffcd00.svg)](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b-float16)\n[![License: CC BY-NC-ND 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-CC%20BY--NC--ND%204.0-lightgrey.svg)](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002F)\n\n\n* KakaoBrain 项目 KoGPT（韩语生成式预训练 Transformer）\n  * [https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt](https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt)\n  * [https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt)\n\n\n## 模型描述\n\n### KoGPT6B-ryan1.5b\n\n* [\\[huggingface\\]\\[kakaobrain\u002Fkogpt\\]\\[KoGPT6B-ryan1.5b\\]](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b)\n* [\\[huggingface\\]\\[kakaobrain\u002Fkogpt\\]\\[KoGPT6B-ryan1.5b-float16\\]](https:\u002F\u002Fhuggingface.co\u002Fkakaobrain\u002Fkogpt\u002Ftree\u002FKoGPT6B-ryan1.5b-float16)\n\n| 超参数       | 值         |\n|:---------------------|--------------:|\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{parameters}\"> | 6,166,502,400 |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{layers}\">     | 28            |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=d_{model}\">      | 4,096         |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=d_{ff}\">         | 16,384        |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{heads}\">      | 16            |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=d_{head}\">       | 256           |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{ctx}\">        | 2,048         |\n| \u003Cimg src=\"https:\u002F\u002Frender.githubusercontent.com\u002Frender\u002Fmath?math=n_{vocab}\">      | 64,512        |\n| 位置编码  | [旋转位置嵌入 (RoPE)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864) |\n| RoPE 维度      | 64            |\n\n\n## 硬件要求\n\n### KoGPT6B-ryan1.5b\n\n#### GPU\n以下是针对少量示例 KoGPT 的推荐最低 GPU 硬件配置。\n* 必需的最小显存为 `32GB GPU RAM`\n\n### KoGPT6B-ryan1.5b-float16\n\n#### GPU\n以下是针对少量示例 KoGPT 的推荐最低 GPU 硬件配置。\n* 半精度计算需要基于 Volta、Turing 或 Ampere 架构的 NVIDIA GPU\n* 必需的最小显存为 `16GB GPU RAM`\n\n\n## 使用方法\n\n### 命令行\n```bash\npython -m kogpt --help\nusage: KoGPT 推理 [-h] [--model MODEL] [--revision {KoGPT6B-ryan1.5b}]\n                       [--device {cpu,cuda}] [-d]\n\nKakaoBrain 韩语（韩文）生成式预训练模型\n\n可选参数:\n  -h, --help            显示此帮助信息并退出\n  --model MODEL         huggingface 仓库（默认：kakaobrain\u002Fkogpt）\n  --revision {KoGPT6B-ryan1.5b}\n  --device {cpu,cuda}   （默认：cuda）\n  -d, --debug\n```\n\n```bash\npython -m kogpt\n提示> 人类一样思考和行动的“智能”通过，人类至今未能解决的\n温度(0.8)> \n最大长度(128)> 64\n人类一样思考和行动的“智能”通过，人类至今未能解决的问题的答案将能够被找到。科学技术高度发达的21世纪生活的我们孩子们最需要的是思维能力训练。通过思维能力训练，世界\n\n提示>  \n...\n```\n\n\n### Python\n```python\nimport torch\nfrom transformers import AutoTokenizer, AutoModelForCausalLM \n\ntokenizer = AutoTokenizer.from_pretrained(\n  'kakaobrain\u002Fkogpt', revision='KoGPT6B-ryan1.5b-float16',  # 或者 float32 版本：revision=KoGPT6B-ryan1.5b\n  bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]'\n)\nmodel = AutoModelForCausalLM.from_pretrained(\n  'kakaobrain\u002Fkogpt', revision='KoGPT6B-ryan1.5b-float16',  # 或者 float32 版本：revision=KoGPT6B-ryan1.5b\n  pad_token_id=tokenizer.eos_token_id,\n  torch_dtype='auto', low_cpu_mem_usage=True\n).to(device='cuda', non_blocking=True)\n_ = model.eval()\n\nprompt = '人类一样思考和行动的“智能”通过，人类至今未能解决的'\nwith torch.no_grad():\n  tokens = tokenizer.encode(prompt, return_tensors='pt').to(device='cuda', non_blocking=True)\n  gen_tokens = model.generate(tokens, do_sample=True，temperature=0.8，max_length=64)\n  generated = tokenizer.batch_decode(gen_tokens)[0]\n  \nprint(generated)  # 输出：人类一样思考和行动的“智能”通过，人类至今未能解决的问题的答案将能够被找到。科学技术高度发达的21世纪生活的我们孩子们最需要的是思维能力训练。通过思维能力训练，世界\n```\n\n\n## 实验\n\n### 上下文少样本学习\n\n| 模型        | 参数量 | NSMC (准确率) | YNAT (F1) | KLUE-STS (F1) |\n|:--------------|--------:|------------:|----------:|--------------:|\n| HyperCLOVA[1] |    1.3B |        83.9 |      58.7 |          60.9 |\n| HyperCLOVA[1] |    6.9B |        83.8 |      67.5 |          59.3 |\n| HyperCLOVA[1] |   13.0B |        87.9 |      67.9 |          60.0 |\n| HyperCLOVA[1] |   39.0B |        88.0 |      71.4 |          61.6 |\n| HyperCLOVA[1] |   82.0B |    **88.2** |      72.7 |      **65.1** |\n| **我们**      |    6.0B |        87.8 |  **78.0** |          64.3 |\n\n\n### 微调 \u002F P-Tuning\n\n我们曾报告过下游评估方面的问题（https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F17）。\n\n之前发布的性能评估表已被删除，因为比较对象算法不同且无法确认性能测量方法，难以将其视为公平的比较。\n\n您可以通过上述问题链接查看现有的性能评估表及故障排除结果。\n\n## 局限性\n\nKakaoBrain `KoGPT` 是基于原始数据进行训练的，而该数据集中已知包含脏话、低俗内容、政治敏感信息及其他不当语言。因此，`KoGPT` 可能会生成社会上不可接受的文本。与所有语言模型一样，在没有事先警告的情况下，很难预测 `KoGPT` 将如何响应特定的提示词以及潜在的冒犯性内容。\n\n主要面向韩语：`KoGPT` 主要以韩语文本为训练数据，最适合用于此类文本的分类、搜索、摘要或生成任务。默认情况下，`KoGPT` 对于与其训练数据分布不同的输入表现较差，这包括非韩语文本以及在训练数据中未充分覆盖的韩语方言。\n\n如果在测试过程中生成了异常或社会上不可接受的文本，请将“提示词”和“生成的文本”发送至 [opensource+kogpt@kakaobrain.com](mailto:opensource+kogpt@kakaobrain.com)。\n\n\n\n卡카오브레인 `KoGPT` 是为了人工智能社区的研究目的而开发的，使用未经处理的原始数据进行训练，这些数据可能包含脏话、淫秽内容、政治敏感信息以及其他粗俗的语言。\n因此，`KoGPT` 有可能生成不符合社会规范的文本。与其他语言模型类似，我们难以提前预知它会对特定的提示词或攻击性内容作出何种回应。\n\n`KoGPT` 主要基于韩语文本进行训练，因此在处理韩语文本的分类、检索、摘要或生成任务时效果最佳。\n通常情况下，`KoGPT` 在面对与训练数据分布差异较大的输入时，性能会有所下降，例如非韩语文本，或者在训练数据中代表性不足的韩语方言。\n\n请在使用 `KoGPT` 进行研究、开发或测试时，务必注意上述事项。若在测试过程中生成了异常或不符合社会规范的文本，请将“提示词”和“生成的文本”一并发送至 [opensource+kogpt@kakaobrain.com](mailto:opensource+kogpt@kakaobrain.com)。\n\n\n## 引用\n\n如果您在任何项目或研究中使用本库或模型，请引用我们的代码：\n\n```\n@misc{kakaobrain2021kogpt,\n  title         = {KoGPT: KakaoBrain 韩语（韩文）生成式预训练 Transformer},\n  author        = {Ildoo Kim 和 Gunsoo Han 和 Jiyeon Ham 和 Woonhyuk Baek},\n  year          = {2021},\n  howpublished  = {\\url{https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt}},\n}\n```\n\n\n## 联系方式\n\n本项目以开源形式发布，旨在为众多研究机构和初创企业提供研究支持。我们期待与各界伙伴开展合作，并欢迎随时与我们联系。\n\n[contact@kakaobrain.com](mailto:contact@kakaobrain.com)\n\n\n## 许可协议\n\nKakaoBrain `KoGPT` 的 `源代码` 采用 [Apache 2.0](LICENSE.apache-2.0) 许可协议授权。\nKakaoBrain `KoGPT` 的 `预训练权重` 则采用 [CC-BY-NC-ND 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002F) 许可协议授权。\n\n卡카오브레인 `KoGPT` 的 `源代码` 依据 [Apache 2.0](LICENSE.apache-2.0) 许可协议开放使用。\n卡카오브레인 `KoGPT` 的 `预训练权重` 则依据 [CC-BY-NC-ND 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-nd\u002F4.0\u002F) 许可协议开放使用。\n在使用本模型、代码及预训练权重时，请务必遵守相关许可协议的规定。许可协议全文可在 [Apache 2.0](LICENSE.apache-2.0) 和 [LICENSE.cc-by-nc-nd-4.0](LICENSE.cc-by-nc-nd-4.0) 文件中查阅。\n\n### 使用义务\n\n尽管开源软件可以免费使用，但这并不意味着使用者没有任何义务。在决定您对 KoGPT 的使用是否符合 Apache 2.0（或 CC-BY-NC-ND 4.0）许可协议的要求时，请仔细阅读许可指南。若违反许可协议，根据具体使用情况，可能会面临使用禁令或损害赔偿等法律后果。\n\n\n## 参考文献\n\n[1] [HyperCLOVA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.04650): Kim, Boseop 等人。“大规模语言模型能带来哪些改变？关于 HyperCLOVA 的深入研究：数十亿参数级韩语生成式预训练 Transformer。” arXiv 预印本 arXiv:2109.04650 (2021)。   \n\n\n----\n\n\n## 贡献\n\n### 免责声明\n本贡献部分并非 KakaoBrain 的官方产品。\n\n### AK391 在 Huggingface Spaces 上的网页演示\n* 查看演示：https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fakhaliq\u002Fkogpt\n  * 该网页演示通过 [Gradio](https:\u002F\u002Fgithub.com\u002Fgradio-app\u002Fgradio) 集成到 [Huggingface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces) 平台。\n  * 贡献者：[AK391](https:\u002F\u002Fgithub.com\u002FAK391)","# KoGPT 快速上手指南\n\n## 环境准备\n\n### 系统要求\n- 操作系统：Linux 或 macOS（Windows 需要额外配置）\n- Python 版本：3.8+\n\n### 前置依赖\n- PyTorch（建议使用 1.10+ 版本）\n- Transformers 库（由 Hugging Face 提供）\n- 其他依赖可通过 pip 自动安装\n\n> 推荐使用国内镜像源加速安装，例如：\n> ```bash\n> pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple transformers torch\n> ```\n\n## 安装步骤\n\n```bash\npip install kogpt\n```\n\n或者从源码安装：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt.git\ncd kogpt\npip install -e .\n```\n\n## 基本使用\n\n### 命令行使用（CLI）\n\n```bash\npython -m kogpt\nprompt> 인간처럼 생각하고, 행동하는 '지능'을 통해 인류가 이제까지 풀지 못했던\ntemperature(0.8)> \nmax_length(128)> 64\n```\n\n### Python 代码示例\n\n```python\nimport torch\nfrom transformers import AutoTokenizer, AutoModelForCausalLM \n\ntokenizer = AutoTokenizer.from_pretrained(\n  'kakaobrain\u002Fkogpt', revision='KoGPT6B-ryan1.5b-float16',  # 或使用 float32: revision=KoGPT6B-ryan1.5b\n  bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]'\n)\nmodel = AutoModelForCausalLM.from_pretrained(\n  'kakaobrain\u002Fkogpt', revision='KoGPT6B-ryan1.5b-float16',  # 或使用 float32: revision=KoGPT6B-ryan1.5b\n  pad_token_id=tokenizer.eos_token_id,\n  torch_dtype='auto', low_cpu_mem_usage=True\n).to(device='cuda', non_blocking=True)\n_ = model.eval()\n\nprompt = '인간처럼 생각하고, 행동하는 \\'지능\\'을 통해 인류가 이제까지 풀지 못했던'\nwith torch.no_grad():\n  tokens = tokenizer.encode(prompt, return_tensors='pt').to(device='cuda', non_blocking=True)\n  gen_tokens = model.generate(tokens, do_sample=True, temperature=0.8, max_length=64)\n  generated = tokenizer.batch_decode(gen_tokens)[0]\n  \nprint(generated)\n```","某科技公司正在开发一款面向韩国市场的智能客服系统，旨在通过自然语言处理技术提升用户交互体验。团队需要一个能够理解并生成高质量韩语回复的模型，以支持复杂对话场景。\n\n### 没有 kogpt 时  \n- 需要依赖国外预训练模型，但对韩语语境和文化背景理解不足，导致回复生硬不自然  \n- 自行训练模型成本高昂，数据收集和标注耗时耗力  \n- 对话逻辑不够连贯，难以处理多轮复杂问题  \n- 模型推理速度慢，影响用户体验  \n\n### 使用 kogpt 后  \n- 直接使用 kogpt 生成符合韩语习惯的自然回复，提升对话流畅度与准确性  \n- 减少数据标注工作量，节省大量时间和资源  \n- 支持多轮对话理解和上下文关联，增强交互逻辑性  \n- 利用优化后的模型版本，推理效率显著提升，响应更快  \n\nkogpt 为韩语场景下的智能对话系统提供了高效、精准且本地化的解决方案。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkakaobrain_kogpt_c113acfe.png","kakaobrain","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkakaobrain_a00b2530.png","Kakao Brain Corp.",null,"https:\u002F\u002Fkakaobrain.com","https:\u002F\u002Fgithub.com\u002Fkakaobrain",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,1014,138,"2026-04-02T05:28:33","NOASSERTION","Linux, macOS","需要 NVIDIA GPU，显存 16GB+（float16 版本）或 32GB+（float32 版本），CUDA 11.7+","未说明",{"notes":94,"python":95,"dependencies":96},"建议使用 conda 管理环境，首次运行需下载约 5GB 模型文件。float16 版本需要支持半精度计算的 GPU（如 Volta、Turing 或 Ampere 架构）。","3.8+",[97,98,99],"torch","transformers","accelerate",[14,15,26],[102,103,104,98,105,67,75,106,107,108],"deeplearning","gpt","nlp","huggingface","korean","generative-model","gpt3","2026-03-27T02:49:30.150509","2026-04-06T07:10:07.956196",[112,117,122,127,132,137],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},5295,"KoGPT 模型生成的内容是否可能包含不当内容？","是的，KoGPT 是基于包含不当语言的数据集训练的，因此可能会生成不适当的内容。建议通过邮件 contact@kakaobrain.com 提供具体提示（prompt）和生成文本，以帮助收集问题案例。","https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F5",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},5296,"如何降低 KoGPT 的 GPU 内存占用？","可以使用 `torch_dtype=torch.float16` 和 `low_cpu_mem_usage=True` 参数来减少内存需求。此外，还可以将模型保存为 FP16 格式，例如通过修改模型权重并保存为 `fp16.pth` 文件。","https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F6",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},5297,"如何获取 KoGPT 的分类、搜索和摘要示例代码？","可以参考 [KNU-BrainAI 研究室](https:\u002F\u002Fgithub.com\u002FKNU-BrainAI) 提供的示例代码，或查看 [DeepSE\u002Fgpt_playground](https:\u002F\u002Fgithub.com\u002FDeepSE\u002Fgpt_playground) 中的相关示例，包括一元摘要、情感分析等任务。","https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F8",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},5298,"加载 KoGPT 模型时出现错误，如何解决？","尝试删除 Hugging Face 缓存文件并重新下载模型。如果问题仍然存在，可能是文件损坏或路径配置错误。","https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F25",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},5299,"KoGPT 在微调时需要多少 GPU 内存？","根据用户反馈，即使使用 40GB A100 GPU，也可能遇到内存不足（OOM）的问题。建议使用更高效的优化方法或调整批量大小。","https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F19",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},5300,"KoGPT 的下游任务评估结果是否准确？","在 NSMC 任务中发现了一些准确性问题，已确认是数据处理或评估代码中的问题。维护者计划尽快发布修复后的评估结果。","https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fkogpt\u002Fissues\u002F17",[143],{"id":144,"version":145,"summary_zh":146,"released_at":147},104792,"KoGPT6B-ryan1.5b","release: KoGPT6B-ryan1.5b","2021-11-12T13:58:28"]