[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-cltk--cltk":3,"tool-cltk--cltk":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",147882,2,"2026-04-09T11:32:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":64,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":97,"forks":98,"last_commit_at":99,"license":100,"difficulty_score":32,"env_os":101,"env_gpu":102,"env_ram":103,"env_deps":104,"category_tags":110,"github_topics":111,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":122,"updated_at":123,"faqs":124,"releases":160},5926,"cltk\u002Fcltk","cltk","The Classical Language Toolkit","cltk（Classical Language Toolkit）是一个专为处理古代语言而设计的 Python 自然语言处理库。它主要解决了现有 NLP 工具大多基于现代口语假设，难以有效分析拉丁语、古希腊语等“前现代”历史语言的痛点，填补了古典学研究中的技术空白。\n\n这款工具非常适合从事数字人文研究的学者、计算语言学家以及需要处理古籍文本的开发者使用。无论是进行文本分词、词形还原，还是复杂的句法分析，cltk 都能提供专业支持。其独特的技术亮点在于灵活的架构设计：不仅内置了针对古典语言的专用算法，还创新性地集成了生成式 AI 能力。用户既可以调用 OpenAI 等云端大模型进行智能标注，也能通过 Ollama 本地部署开源大模型（如 Llama 3.1、Qwen 等），在保护数据隐私的同时享受前沿 AI 带来的效率提升。对于希望用现代技术手段探索古老文明的研究者而言，cltk 是一座连接传统学术与人工智能的坚实桥梁。","The Classical Language Toolkit (CLTK) is a Python library offering natural language processing (NLP) for pre-modern languages.\n\n## Installation\n\nFor the CLTK's latest version:\n\n```bash\npip install cltk\n```\n\nOptional extras\n\n- GenAI (OpenAI-backed annotation):\n\n```bash\npip install \"cltk[openai]\"\n```\n\n- Stanza (discriminative NLP backends powered by Stanford Stanza):\n\n```bash\npip install \"cltk[stanza]\"\n```\n\nYou can combine extras, for example:\n\n```bash\npip install \"cltk[openai,stanza]\"\n\n# or include local LLM support as well\npip install \"cltk[openai,stanza,ollama]\"\n```\n\n- Local LLMs via Ollama:\n\nInstall the optional extra and ensure an Ollama server is running locally:\n\n```bash\npip install \"cltk[ollama]\"\n```\n\nBy default, when using `backend='ollama'`, CLTK uses the model `llama3.1:8b`. To choose a different local model, pass the `model` parameter to `NLP(...)`, e.g. `qwen2.5:14b`, `gemma2:27b`, `llama3.1:70b`, or any Ollama model string.\n\n### Choosing a model\n\n- OpenAI backend (GenAI in the cloud):\n\n```python\nfrom cltk import NLP\n\n# Default model is \"gpt-5-mini\" when backend='openai'\nnlp = NLP('lati1261', backend='openai')\n\n# Choose a specific model\nnlp_big = NLP('lati1261', backend='openai', model='gpt-5')\n\n# Requires OPENAI_API_KEY to be set in the environment\n# (e.g., via a .env file or shell env var)\n```\n\n- Ollama backend (local LLMs):\n\n```python\nfrom cltk import NLP\n\n# Default model is \"llama3.1:8b\" when backend='ollama'\nnlp_local = NLP('lati1261', backend='ollama')\n\n# Choose a specific local model (any installed\u002Fpullable Ollama model)\nnlp_qwen = NLP('lati1261', backend='ollama', model='qwen2.5:14b')\n\n# To use the hosted Ollama Cloud, set OLLAMA_CLOUD_API_KEY\n# and choose backend='ollama-cloud'. The same model strings apply.\n```\n\nFor more information, see [Installation docs](https:\u002F\u002Fdocs.cltk.org\u002Fen\u002Flatest\u002Finstallation.html) or, to install from source, [Development](https:\u002F\u002Fdocs.cltk.org\u002Fen\u002Flatest\u002Fdevelopment.html).\n\nPre-1.0 software remains available on the [branch v0.1.x](https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Ftree\u002Fv0.1.x) and docs at \u003Chttps:\u002F\u002Flegacy.cltk.org>. Install it with `pip install \"cltk\u003C1.0\"`.\n\n## Documentation\n\nDocumentation at \u003Chttps:\u002F\u002Fdocs.cltk.org>.\n\n## Citation\n\nWhen using the CLTK, please cite [the following publication](https:\u002F\u002Faclanthology.org\u002F2021.acl-demo.3), including the DOI:\n\nJohnson, Kyle P., Patrick J. Burns, John Stewart, Todd Cook, Clément Besnier, and William J. B. Mattingly. \"The Classical Language Toolkit: An NLP Framework for Pre-Modern Languages.\" In *Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations*, pp. 20-29. 2021. 10.18653\u002Fv1\u002F2021.acl-demo.3\n\nThe complete BibTeX entry:\n\n```bibtex\n@inproceedings{johnson-etal-2021-classical,\n    title = \"The {C}lassical {L}anguage {T}oolkit: {A}n {NLP} Framework for Pre-Modern Languages\",\n    author = \"Johnson, Kyle P.  and\n      Burns, Patrick J.  and\n      Stewart, John  and\n      Cook, Todd  and\n      Besnier, Cl{\\'e}ment  and\n      Mattingly, William J. B.\",\n    booktitle = \"Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations\",\n    month = aug,\n    year = \"2021\",\n    address = \"Online\",\n    publisher = \"Association for Computational Linguistics\",\n    url = \"https:\u002F\u002Faclanthology.org\u002F2021.acl-demo.3\",\n    doi = \"10.18653\u002Fv1\u002F2021.acl-demo.3\",\n    pages = \"20--29\",\n    abstract = \"This paper announces version 1.0 of the Classical Language Toolkit (CLTK), an NLP framework for pre-modern languages. The vast majority of NLP, its algorithms and software, is created with assumptions particular to living languages, thus neglecting certain important characteristics of largely non-spoken historical languages. Further, scholars of pre-modern languages often have different goals than those of living-language researchers. To fill this void, the CLTK adapts ideas from several leading NLP frameworks to create a novel software architecture that satisfies the unique needs of pre-modern languages and their researchers. Its centerpiece is a modular processing pipeline that balances the competing demands of algorithmic diversity with pre-configured defaults. The CLTK currently provides pipelines, including models, for almost 20 languages.\",\n}\n```\n\n## License\n\nCopyright (c) 2014–present Kyle P. Johnson under the [MIT License](https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fblob\u002Fmaster\u002FLICENSE).\n","古典语言工具包（CLTK）是一个 Python 库，为前现代语言提供自然语言处理（NLP）功能。\n\n## 安装\n\n安装 CLTK 的最新版本：\n\n```bash\npip install cltk\n```\n\n可选扩展：\n\n- GenAI（由 OpenAI 提供支持的标注）：\n\n```bash\npip install \"cltk[openai]\"\n```\n\n- Stanza（基于斯坦福 Stanza 的判别式 NLP 后端）：\n\n```bash\npip install \"cltk[stanza]\"\n```\n\n您可以组合使用这些扩展，例如：\n\n```bash\npip install \"cltk[openai,stanza]\"\n\n# 或者同时包含本地 LLM 支持\npip install \"cltk[openai,stanza,ollama]\"\n```\n\n- 通过 Ollama 使用本地 LLM：\n\n安装可选扩展，并确保本地已运行 Ollama 服务器：\n\n```bash\npip install \"cltk[ollama]\"\n```\n\n默认情况下，当 `backend='ollama'` 时，CLTK 使用模型 `llama3.1:8b`。要选择其他本地模型，可以将 `model` 参数传递给 `NLP(...)`，例如 `qwen2.5:14b`、`gemma2:27b`、`llama3.1:70b`，或任何 Ollama 模型名称。\n\n### 选择模型\n\n- OpenAI 后端（云端 GenAI）：\n\n```python\nfrom cltk import NLP\n\n# 默认模型是 \"gpt-5-mini\"，当 backend='openai' 时\nnlp = NLP('lati1261', backend='openai')\n\n# 选择特定模型\nnlp_big = NLP('lati1261', backend='openai', model='gpt-5')\n\n# 需要在环境中设置 OPENAI_API_KEY\n# （例如通过 .env 文件或 shell 环境变量）\n```\n\n- Ollama 后端（本地 LLM）：\n\n```python\nfrom cltk import NLP\n\n# 默认模型是 \"llama3.1:8b\"，当 backend='ollama' 时\nnlp_local = NLP('lati1261', backend='ollama')\n\n# 选择特定本地模型（任何已安装或可拉取的 Ollama 模型）\nnlp_qwen = NLP('lati1261', backend='ollama', model='qwen2.5:14b')\n\n# 若要使用托管的 Ollama Cloud，需设置 OLLAMA_CLOUD_API_KEY\n# 并选择 backend='ollama-cloud'。同样适用上述模型名称。\n```\n\n如需更多信息，请参阅 [安装文档](https:\u002F\u002Fdocs.cltk.org\u002Fen\u002Flatest\u002Finstallation.html)，或从源代码安装，请参考 [开发指南](https:\u002F\u002Fdocs.cltk.org\u002Fen\u002Flatest\u002Fdevelopment.html)。\n\n1.0 版本之前的软件仍可在 [v0.1.x 分支](https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Ftree\u002Fv0.1.x) 上找到，相关文档位于 \u003Chttps:\u002F\u002Flegacy.cltk.org>。可通过 `pip install \"cltk\u003C1.0\"` 进行安装。\n\n## 文档\n\n文档位于 \u003Chttps:\u002F\u002Fdocs.cltk.org>。\n\n## 引用\n\n在使用 CLTK 时，请引用以下出版物，并注明 DOI：\n\nJohnson, Kyle P., Patrick J. Burns, John Stewart, Todd Cook, Clément Besnier, 和 William J. B. Mattingly. “古典语言工具包：面向前现代语言的 NLP 框架。” 载于《第 59 届计算语言学协会年会暨第 11 届国际自然语言处理联合会议：系统演示》，页 20–29。2021 年。10.18653\u002Fv1\u002F2021.acl-demo.3\n\n完整的 BibTeX 条目如下：\n\n```bibtex\n@inproceedings{johnson-etal-2021-classical,\n    title = \"The {C}lassical {L}anguage {T}oolkit: {A}n {NLP} Framework for Pre-Modern Languages\",\n    author = \"Johnson, Kyle P.  and\n      Burns, Patrick J.  and\n      Stewart, John  and\n      Cook, Todd  and\n      Besnier, Cl{\\'e}ment  and\n      Mattingly, William J. B.\",\n    booktitle = \"Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations\",\n    month = aug,\n    year = \"2021\",\n    address = \"Online\",\n    publisher = \"Association for Computational Linguistics\",\n    url = \"https:\u002F\u002Faclanthology.org\u002F2021.acl-demo.3\",\n    doi = \"10.18653\u002Fv1\u002F2021.acl-demo.3\",\n    pages = \"20--29\",\n    abstract = \"本文宣布古典语言工具包（CLTK）1.0 版本的发布，该工具包是一个用于前现代语言的 NLP 框架。目前大多数 NLP 技术及其算法和软件都是基于对现代语言的假设而设计的，因此忽略了大量非口语历史语言的一些重要特性。此外，研究前现代语言的学者通常与研究现代语言的研究者有着不同的目标。为了填补这一空白，CLTK 借鉴了几种领先的 NLP 框架的思想，构建了一种新颖的软件架构，以满足前现代语言及其研究者的独特需求。其核心是一个模块化的处理流程，能够在算法多样性与预设默认值之间取得平衡。CLTK 目前为近 20 种语言提供了包括模型在内的处理流程。\"\n}\n```\n\n## 许可证\n\n版权所有 © 2014–至今 Kyle P. Johnson，采用 [MIT 许可证](https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fblob\u002Fmaster\u002FLICENSE)。","# CLTK 快速上手指南\n\nCLTK（Classical Language Toolkit）是一个专为前现代语言（如拉丁语、古希腊语等）设计的 Python 自然语言处理（NLP）库。\n\n## 环境准备\n\n- **操作系统**：支持 Windows、macOS 和 Linux。\n- **Python 版本**：建议使用 Python 3.8 或更高版本。\n- **前置依赖**：\n  - 若使用 OpenAI 后端，需准备 `OPENAI_API_KEY`。\n  - 若使用本地大模型（Ollama），需先在本地安装并运行 [Ollama](https:\u002F\u002Follama.com) 服务。\n\n## 安装步骤\n\n### 1. 基础安装\n安装最新版本的 CLTK：\n```bash\npip install cltk\n```\n> **国内加速建议**：如遇下载缓慢，可使用清华或阿里镜像源：\n> ```bash\n> pip install cltk -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 2. 可选扩展安装\n根据需求安装额外功能模块：\n\n- **GenAI (OpenAI 云端标注)**：\n  ```bash\n  pip install \"cltk[openai]\"\n  ```\n\n- **Stanza (斯坦福判别式 NLP 后端)**：\n  ```bash\n  pip install \"cltk[stanza]\"\n  ```\n\n- **本地大模型支持 (Ollama)**：\n  ```bash\n  pip install \"cltk[ollama]\"\n  ```\n\n- **组合安装示例**（同时支持 OpenAI、Stanza 和本地 Ollama）：\n  ```bash\n  pip install \"cltk[openai,stanza,ollama]\"\n  ```\n\n## 基本使用\n\n以下示例展示如何初始化 NLP 管道并选择不同后端模型。代码中的语言代码 `'lati1261'` 代表拉丁语。\n\n### 1. 使用 OpenAI 后端（云端）\n需确保环境变量中已设置 `OPENAI_API_KEY`。\n\n```python\nfrom cltk import NLP\n\n# 使用默认模型 (gpt-5-mini)\nnlp = NLP('lati1261', backend='openai')\n\n# 指定特定模型\nnlp_big = NLP('lati1261', backend='openai', model='gpt-5')\n```\n\n### 2. 使用 Ollama 后端（本地运行）\n需确保本地 Ollama 服务正在运行。默认模型为 `llama3.1:8b`。\n\n```python\nfrom cltk import NLP\n\n# 使用默认本地模型\nnlp_local = NLP('lati1261', backend='ollama')\n\n# 指定其他已安装的本地模型 (如 qwen2.5:14b)\nnlp_qwen = NLP('lati1261', backend='ollama', model='qwen2.5:14b')\n```\n\n### 3. 使用 Ollama Cloud（云端托管）\n若使用托管版 Ollama，需设置 `OLLAMA_CLOUD_API_KEY` 并更改后端名称。\n\n```python\nfrom cltk import NLP\n\n# 连接到 Ollama Cloud\nnlp_cloud = NLP('lati1261', backend='ollama-cloud', model='llama3.1:70b')\n```\n\n更多详细文档请访问：[https:\u002F\u002Fdocs.cltk.org](https:\u002F\u002Fdocs.cltk.org)","一位数字人文研究员正在处理数千份未经标点的中世纪拉丁文手稿，试图从中提取人名、地名及动词变位以构建历史知识图谱。\n\n### 没有 cltk 时\n- 通用 NLP 工具（如 spaCy）完全无法识别拉丁文的复杂屈折变化，导致分词和词性标注准确率极低。\n- 研究者需手动编写大量正则表达式来匹配特定的语法结构，耗时数周且难以覆盖古语的特殊拼写变异。\n- 缺乏针对古典语言的预训练模型，若要引入 AI 辅助，必须从零收集语料并训练专用模型，技术门槛过高。\n- 不同时期的拉丁文（如古典期与中世纪）差异巨大，单一规则库无法适配，导致跨时代文本分析经常报错或失效。\n\n### 使用 cltk 后\n- 直接调用 cltk 内置的拉丁语专用流水线，瞬间完成高精度的分词、词干提取及形态学分析，无需自定义规则。\n- 利用 cltk 集成的 OpenAI 或 Ollama 后端，通过几行代码即可让大模型对生僻的古拉丁词汇进行上下文消歧和注释。\n- 轻松切换针对不同历史时期优化的语言模型，同一套代码即可流畅处理从西塞罗到修道院抄本的各种文本风格。\n- 原本需要数月的数据清洗工作缩短至几天，研究者能将精力集中在历史逻辑推演而非底层算法调试上。\n\ncltk 将古典语言研究的门槛从“精通计算语言学”降低为“掌握基础 Python\"，让历史学者能直接驾驭现代 AI 力量挖掘古籍价值。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcltk_cltk_c3e712d0.png","Classical Language Toolkit","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fcltk_2db57df1.png","Natural language processing for Classical languages",null,"kyle@kyle-p-johnson.com","CLTKorg","http:\u002F\u002Fcltk.org","https:\u002F\u002Fgithub.com\u002Fcltk",[81,85,89,93],{"name":82,"color":83,"percentage":84},"Python","#3572A5",99.4,{"name":86,"color":87,"percentage":88},"HTML","#e34c26",0.4,{"name":90,"color":91,"percentage":92},"Makefile","#427819",0.2,{"name":94,"color":95,"percentage":96},"TeX","#3D6117",0,904,339,"2026-04-08T15:12:54","MIT","未说明","非必需。若使用本地大语言模型（Ollama 后端），需根据所选模型（如 llama3.1:70b）配置相应的 GPU 显存；若仅使用 OpenAI 云端或 Stanza 判别式后端，无明确 GPU 要求。","未说明（取决于是否运行本地大模型及模型大小）",{"notes":105,"python":101,"dependencies":106},"该工具主要支持预现代语言的 NLP 处理。安装时可通过 pip extras 选择不同功能模块：'openai'用于云端生成式注解，'stanza'用于斯坦福判别式后端，'ollama'用于本地大模型支持。若使用 Ollama 后端，需确保本地已安装并运行 Ollama 服务器，默认模型为 llama3.1:8b，也可自定义其他 Ollama 模型。使用 OpenAI 后端需设置 OPENAI_API_KEY 环境变量。",[64,107,108,109],"openai (可选)","stanza (可选)","ollama (可选)",[15,16,14,35,13],[112,113,114,115,116,117,118,119,120,121],"nlp","ai","python","nltk","latin","greek","stanza","ling","historical-linguistics","spacy","2026-03-27T02:49:30.150509","2026-04-09T23:49:05.408893",[125,130,135,140,145,150,155],{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},26889,"如何为梵语（Sanskrit）添加停用词列表？需要包含哪些词类？","梵语停用词列表应至少包含代词、限定词、upasarga（动词前缀\u002F介词）和 nipāta（粒子）。此外，还应添加连词、粒子和感叹词。在添加时，需要注意名词需涵盖所有格、性和数（单数、双数、复数），通常每个实体应有 72 种形式。对于动词，其变位结构完全不同，需特别小心。如果不确定某些词（如'ज्ञा'意为'知道'，'परि'是前缀无声调变化）的处理方式，应在提交前与维护者确认。","https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fissues\u002F359",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},26890,"如何实现希腊语的 IPA 音标转写？代码应该放在哪里？","实现希腊语 IPA 转写需要建立一个希腊字母到 IPA 音标的映射表（例如：'α': 'a', 'θ': 'tʰ'）。需注意相邻字符会影响发音（例如：'γ'通常为'ɡ'，但在['κ', 'χ', 'γ', 'μ']之前变为'ŋ'）。建议先完成阿提卡方言（Attic），再扩展至其他方言。代码架构上，转写映射和逻辑应放入 `cltk\u002Fphonetics\u002Fgreek\u002Ftranscription.py`，或者在 `cltk\u002Fphonetics\u002Ftranscription.py` 创建通用入口并指定语言和方言。完成后请查阅相关文档以获取更多信息。","https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fissues\u002F313",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},26891,"CLTK 是否支持文言文（Classical Chinese）语料库？有哪些推荐工具？","社区对文言文语料库有需求。目前推荐使用基于 BERT 的模型（如 Ancient-Chinese-Segmentation），该模型在 Daizhige 语料库上预训练效果良好。此外，可以使用 UD-Kanbun 项目，它基于 MeCab 和 UDPipe，许可证为 MIT、BSD 和 MPL，允许自由导入到 CLTK 中使用。用户可关注 UD-Kanbun 的 GitHub 或 PyPI 页面以获取最新的词典和模型更新。","https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fissues\u002F619",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},26892,"从哪里可以抓取《薄伽梵歌》和《罗摩衍那》的梵语 - 英语双语数据？","可以从以下两个网站抓取数据：\n1. 《薄伽梵歌》(Srimad-bhagavadgita): http:\u002F\u002Fwww.gitasupersite.iitk.ac.in\u002Fsrimad\n2. 《罗摩衍那》(Valmiki Ramayana): http:\u002F\u002Fwww.valmiki.iitk.ac.in\u002F\n这些数据已被社区成员成功抓取并用于构建新语料库。","https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fissues\u002F214",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},26893,"GRETIL 网站有哪些可用的语料资源？如何提取？","GRETIL 网站 (http:\u002F\u002Fgretil.sub.uni-goettingen.de) 包含梵语、巴利语和藏语文本，可作为语料库来源。社区成员已覆盖该 Issue 中提到的大部分语料。如果有新的文本需要提取或发现遗漏，欢迎贡献代码。相关提取工作已通过 Pull Request #431 合并。","https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fissues\u002F410",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},26894,"如何为古典泰卢固语（Classical Telugu）添加语料库？数据来源在哪里？","古典泰卢固语的语料可以从泰卢固语维基文库 (https:\u002F\u002Fte.wikisource.org\u002Fwiki) 抓取，内容包括史诗 (ithihasas)、往世书 (puranas)、吠陀 (vedas) 和赞歌 (stothras) 等。在解析文本时，建议同时补充作者的拉丁字母拼写名称以及公元前\u002F公元后 (BC\u002FAD) 的年代信息，以便完善元数据。","https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fissues\u002F220",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},26895,"制作古英语（Old English）停用词列表时应遵循什么原则？","制作古英语停用词列表主要有两种方法：基于统计（高频词）或基于语法（冠词、代词等封闭类词）。在选择具体词汇时存在理论争议，例如单词'onmiddan'（意为'amid'）虽然罕见且主要用于拉丁文翻译，但是否应作为停用词移除取决于具体研究需求。建议参考相关学术文献（如关于介词的论文），并 defer 给古英语学者决定。如果没有现成的优质列表，需要进行额外研究来确定最佳方案。","https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fissues\u002F266",[161,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255],{"id":162,"version":163,"summary_zh":75,"released_at":164},172162,"2.0.0a3","2025-09-21T19:41:57",{"id":166,"version":167,"summary_zh":168,"released_at":169},172163,"v1.5.0","# 版本 1.5.0\n\n## 安装\n使用 `pip install cltk==1.5.0` 安装新版本。\n\n## 更改\n* 更新了 `stanza`，修复了与 `torch` 相关的问题 (#1277)。\n* 移除了 `stringcase`，因为它已不再维护 (#1276)。\n* 支持 Python 3.12 (#1277)。","2025-05-04T21:33:45",{"id":171,"version":172,"summary_zh":173,"released_at":174},172164,"v1.4.0","# 版本 1.4.0\n\n## 安装\n使用 `pip install cltk==1.4.0` 安装新版本。\n\n## 更改\n* 添加由 @pharos-alexandria、@kylepjohnson 和 @clemsciences 使用 SpaCy 为古希腊语提供的 SpaCy 处理器 (#1243)。\n* 启用 @kylepjohnson 提供的 Stanza 1.9 用于拉丁语 (#1269)。","2025-05-04T21:24:57",{"id":176,"version":177,"summary_zh":178,"released_at":179},172165,"v1.3.0","# 版本 1.3.0\n\n## 安装\n使用 `pip install cltk==1.3.0` 安装新版本。\n\n## 更改内容\n* 添加了 odyCy 模型，用于处理古希腊语文本。\n  * [OdyCy on spaCy](https:\u002F\u002Fspacy.io\u002Funiverse\u002Fproject\u002Fodycy)\n  * [Hugging Face 的模型卡片](https:\u002F\u002Fhuggingface.co\u002Fchcaa\u002Fgrc_odycy_joint_trf)\n  * [OdyCy 的论文](https:\u002F\u002Faclanthology.org\u002F2023.latechclfl-1.14\u002F)\n\nOdyCy 代码示例：\n```python\nfrom cltk.languages.example_texts import get_example_text\nspacy_wrapper: SpacyWrapper = SpacyWrapper(language=\"grc\")\ngreek_spacy_doc: SpacyDoc = spacy_wrapper.parse(get_example_text(\"grc\"))\nfor token in greek_spacy_doc.doc:\n    print(token.orth_, token.lemma_,token.is_stop, token.pos_, token.morph, token.dep_, token.head)\n```","2024-05-12T23:08:01",{"id":181,"version":182,"summary_zh":183,"released_at":184},172166,"v1.2.6","# 版本 1.2.6\r\n## 安装\r\n使用 `pip install cltk==1.2.6` 安装新版本。\n\n## 更改\n* 支持对 Doc 对象进行序列化（修复 #1250，@clemsciences 在 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1257 中提出）","2024-05-13T16:48:36",{"id":186,"version":187,"summary_zh":188,"released_at":189},172167,"v1.2.5","# 版本 1.2.5\n\n## 安装\n使用 `pip install cltk==1.2.5` 安装新版本。\n\n## 更改\n* 注释掉移除特殊字符的代码（@kylepjohnson 在 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1254 中）。\n* 添加对 `scipy` 的版本限制，以解决 `gensim` 的问题。（@nkprasad12 在 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1255 中）\n* 重新启用移除花式引号的功能（@kylepjohnson 在 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1256 中）。\n\n\n[在此处查看完整变更日志](https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fcompare\u002Fv1.2.2...v1.2.5)","2024-05-13T07:53:35",{"id":191,"version":192,"summary_zh":193,"released_at":194},172168,"v1.2.2","# 版本 1.2.2\n\n## 安装\n使用 `pip install cltk==1.2.2` 安装新版本。\n\n## 更改\n* 更新 precommit 配置 (@kylepjohnson 在 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1241 中)，\n* 在所有代码中添加类型注解 (@kylepjohnson 在 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1242 中)，\n* 古希腊语韵律分析调整 #1246 (@SDCLA 在 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1252 中)，\n\n## 新贡献者\n* @SDCLA 的首次贡献见于 https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fpull\u002F1252\n\n[在此处查看完整变更日志](https:\u002F\u002Fgithub.com\u002Fcltk\u002Fcltk\u002Fcompare\u002Fv1.2.1...v1.2.2)。","2024-05-13T07:53:56",{"id":196,"version":197,"summary_zh":198,"released_at":199},172169,"v1.2.1","# 版本 1.2.1\n\n## 安装\n使用 `pip install cltk==1.2.1` 安装新版本。\n\n## 更改\n* 更新了 mypy。\n* 改进了 CLTK 版本的打印输出。","2023-12-27T08:38:14",{"id":201,"version":202,"summary_zh":203,"released_at":204},172170,"v1.2.0","# 版本 1.2.0\n\n## 安装\n使用 `pip install cltk==1.2.0` 安装新版本。\n\n## 变更\n* 将 spaCy 更新至 3.7.2 版。\n* 添加了 spaCy 封装器 #1195 #1239。可以使用 spaCy 模型对文本进行解析，并将数据从 spaCy 的 `Doc` 转换为 CLTK 的 `Word` 列表。\n* LatinCy 已作为首个 spaCy 模型集成到 CLTK 中。这是拉丁语中 spaCy 模型的默认模型 #1239。\n* **破坏性变更** 重命名了两个导致导入错误的文件：\n  * 之前：`from cltk.dependency.stanza import StanzaWrapper`\n  * 之后：`from cltk.dependency.stanza_wrapper import StanzaWrapper`, `from cltk.dependency.spacy_wrapper import SpacyWrapper`","2023-12-27T08:05:07",{"id":206,"version":207,"summary_zh":208,"released_at":209},172171,"v1.1.7","# 版本 1.1.7\n\n## 安装\n使用 `pip install cltk==1.1.7` 安装新版本；如果这是 cltk 的最后一个版本，则只需运行 `pip install cltk` 即可。\n\n## 更改内容：\n- **破坏性更改**：不再支持 Python 3.8。\n- 现在支持 Python 3.11。修复 #1224。\n- 移除了 `python-Levenshtein`，并用 `rapidfuzz` 取代。\n- 将 `stanza` 更新至 1.6.0。这带来了新的训练模型和新的形态-句法特征值。修复 #1235、#1232、#1229。\n- 将 `spacy` 更新至 3.6.1。下个版本将提供 `spaCy` 模型的封装器。\n- 更新了其他包 #1233。\n- 添加了更多类型注解。\n- **破坏性更改**：修正了拼写错误，将 `PrononimalType` 改为 `PronominalType`。","2023-11-04T10:32:32",{"id":211,"version":212,"summary_zh":213,"released_at":214},172172,"v1.1.7a6","使用 `pip install cltk==1.1.7a6` 安装预发布版本：https:\u002F\u002Fpypi.org\u002Fproject\u002Fcltk\u002F1.1.7a6\u002F。\n* 修复了 Python 3.11 的默认管道（使用 `@dataclass(frozen=True)`，详见 https:\u002F\u002Fdocs.python.org\u002F3\u002Flibrary\u002Fdataclasses.html#dataclasses.dataclass）。\n* 修复了 CircleCI 构建（详见 https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch\u002Fissues\u002F100974）。","2023-11-01T23:47:38",{"id":216,"version":217,"summary_zh":218,"released_at":219},172173,"v1.1.7a4","* Updated Universal Dependencies.\r\n* Fixed `download_all_models.py` script.","2023-10-27T08:02:03",{"id":221,"version":222,"summary_zh":223,"released_at":224},172174,"v1.1.7a3","* Added `InflClass` class to better manage Latin Universal Dependencies.","2023-10-27T08:01:52",{"id":226,"version":227,"summary_zh":228,"released_at":229},172175,"v1.1.7a2","* Fixed `stanza_wrapper.py`\r\n* Dispatched main tests into several languages.","2023-10-27T08:01:44",{"id":231,"version":232,"summary_zh":233,"released_at":234},172176,"v1.1.7a1","- Versions of Python supported: 3.9 to 3.12.\r\n- Updated `stanza` and `spacy`.\r\n- Fixed dataclasses structure.\r\n- Fixed model paths for Old French and Latin.\r\n- Replaced python-Levenshtein by rapidfuzz.\r\n- Refactored some tests.\r\n- Updated .readthedocs.yml.","2023-10-23T22:55:57",{"id":236,"version":237,"summary_zh":238,"released_at":239},172177,"1.0.15","CLTK release version 1.0.15 triggered on 10\u002F06\u002F2021 at 16:34:40.","2021-06-10T16:34:40",{"id":241,"version":242,"summary_zh":243,"released_at":244},172178,"1.0.14","CLTK release version 1.0.14 triggered on 21\u002F05\u002F2021 at 17:15:17.","2021-05-21T17:15:17",{"id":246,"version":247,"summary_zh":248,"released_at":249},172179,"1.0.13","CLTK release version 1.0.13 triggered on 21\u002F05\u002F2021 at 16:27:34.","2021-05-21T16:27:35",{"id":251,"version":252,"summary_zh":253,"released_at":254},172180,"1.0.12","CLTK release version 1.0.12 triggered on 30\u002F04\u002F2021 at 15:16:53.","2021-04-30T15:16:53",{"id":256,"version":257,"summary_zh":258,"released_at":259},172181,"1.0.11","CLTK release version 1.0.11 triggered on 13\u002F04\u002F2021 at 02:45:22.","2021-04-13T02:45:23"]