[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Kyubyong--wordvectors":3,"tool-Kyubyong--wordvectors":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",154349,2,"2026-04-13T23:32:16",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":96,"env_os":97,"env_gpu":98,"env_ram":98,"env_deps":99,"category_tags":108,"github_topics":110,"view_count":32,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":152},7327,"Kyubyong\u002Fwordvectors","wordvectors","Pre-trained word vectors of 30+ languages","wordvectors 是一个专注于提供 30 多种语言预训练词向量的开源项目。在自然语言处理领域，英语资源极为丰富，但非英语语言的高质量词向量模型却相对匮乏。wordvectors 正是为了解决这一不平衡问题而生，它填补了多语言 NLP 资源的空白，让开发者能轻松获取包括中文、法语、日语、韩语等在内的多种语言词向量。\n\n该项目主要面向自然语言处理领域的研究人员和开发者。无论是进行文本分类、情感分析还是机器翻译，用户都可以直接下载并使用项目中提供的现成模型，无需从头收集语料和训练，从而大幅节省时间和计算资源。此外，项目还详细公开了基于维基百科数据构建词向量的完整工作流程，适合希望深入了解数据预处理和模型训练细节的学习者。\n\nwordvectors 的独特之处在于其双模型支持策略：同时提供了基于 Word2Vec 和 fastText 两种主流算法训练的向量模型。这两种方法各有优势，Word2Vec 擅长捕捉词汇的语义关系，而 fastText 在处理未登录词和形态丰富的语言时表现更佳。这种设计让用户可以根据具体任务需求灵活选择最合适的模型，为多语言智能应用开发提供了坚实且灵活的基础支持","wordvectors 是一个专注于提供 30 多种语言预训练词向量的开源项目。在自然语言处理领域，英语资源极为丰富，但非英语语言的高质量词向量模型却相对匮乏。wordvectors 正是为了解决这一不平衡问题而生，它填补了多语言 NLP 资源的空白，让开发者能轻松获取包括中文、法语、日语、韩语等在内的多种语言词向量。\n\n该项目主要面向自然语言处理领域的研究人员和开发者。无论是进行文本分类、情感分析还是机器翻译，用户都可以直接下载并使用项目中提供的现成模型，无需从头收集语料和训练，从而大幅节省时间和计算资源。此外，项目还详细公开了基于维基百科数据构建词向量的完整工作流程，适合希望深入了解数据预处理和模型训练细节的学习者。\n\nwordvectors 的独特之处在于其双模型支持策略：同时提供了基于 Word2Vec 和 fastText 两种主流算法训练的向量模型。这两种方法各有优势，Word2Vec 擅长捕捉词汇的语义关系，而 fastText 在处理未登录词和形态丰富的语言时表现更佳。这种设计让用户可以根据具体任务需求灵活选择最合适的模型，为多语言智能应用开发提供了坚实且灵活的基础支持。","# Pre-trained word vectors of 30+ languages\n\nThis project has two purposes. First of all, I'd like to share some of my experience in nlp tasks such as segmentation or word vectors. The other, which is more important, is that probably some people are searching for pre-trained word vector models for non-English languages. Alas! English has gained much more attention than any other languages has done. Check [this](https:\u002F\u002Fgithub.com\u002F3Top\u002Fword2vec-api) to see how easily you can get a variety of pre-trained English word vectors without efforts. I think it's time to turn our eyes to a multi language version of this.\n\n\u003Cb>Nearing the end of the work, I happened to know that there is already a similar job named `polyglot`. I strongly encourage you to check [this great project](https:\u002F\u002Fsites.google.com\u002Fsite\u002Frmyeid\u002Fprojects\u002Fpolyglot). How embarrassing! Nevertheless, I decided to open this project. You will know that my job has its own flavor, after all.\u003C\u002Fb>\n\n## Requirements\n* nltk >= 1.11.1\n* regex >= 2016.6.24\n* lxml >= 3.3.3\n* numpy >= 1.11.2\n* konlpy >= 0.4.4 (Only for Korean)\n* mecab (Only for Japanese)\n* pythai >= 0.1.3 (Only for Thai)\n* pyvi >= 0.0.7.2 (Only for Vietnamese)\n* jieba >= 0.38 (Only for Chinese)\n* gensim > =0.13.1 (for Word2Vec)\n* fastText (for [fasttext](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FfastText))\n\t\n## Background \u002F References\n* Check [this](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FWord_embedding) to know what word embedding is.\n* Check [this](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FWord2vec) to quickly get a picture of Word2vec.\n* Check [this](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FfastText) to install fastText.\n* Watch [this](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=T8tQZChniMk&index=2&list=PL_6hBtWGKk2KdY3ANaEYbxL3N5YhRN9i0) to really understand what's happening under the hood of Word2vec.\n* Go get various English word vectors [here](https:\u002F\u002Fgithub.com\u002F3Top\u002Fword2vec-api) if needed.\n\n## Work Flow\n* STEP 1. Download the [wikipedia database backup dumps](https:\u002F\u002Fdumps.wikimedia.org\u002Fbackup-index.html) of the language you want.\n* STEP 2. Extract running texts to `data\u002F` folder.\n* STEP 3. Run `build_corpus.py`.\n* STEP 4-1. Run `make_wordvector.sh` to get Word2Vec word vectors.\n* STEP 4-2. Run `fasttext.sh` to get fastText word vectors. \n\n## Pre-trained models\nTwo types of pre-trained models are provided. `w` and `f` represent `word2vec` and `fastText` respectively.\n\n| Language  |  ISO 639-1 | Vector Size | Corpus Size  | Vocabulary Size | \n| ---       |---        |---           |---           |---           |\n|[Bengali (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KX01rR2dyRWpHNTA) \\| [Bengali (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fxmi5xhqlu60bwfa\u002Fbn.tar.gz?dl=0)|bn|300|147M |10059| negative sampling |\n|[Catalan (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KYkd5OVExR3o1V1k) \\| [Catalan (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fpd59l1mwvg4hocp\u002Fca.tar.gz?dl=0) |ca|300| 967M|50013| negative sampling |\n|[Chinese (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KNER5UHNDY19pbzQ) \\| [Chinese (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fil7syxqmnusul8c\u002Fzh.tar.gz?dl=0) |zh|300|1G |50101| negative sampling |\n|[Danish (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KcW1aTGloZnpCMGM) \\| [Danish (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fx2ekc79m8p6ycue\u002Fda.tar.gz?dl=0) |da|300| 295M|30134| negative sampling |\n|[Dutch (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KQnNvcm9UUUxPVXc) \\| [Dutch (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F8i6y29f38b7nb5s\u002Fnl.tar.gz?dl=0) |nl|300| 1G|50160| negative sampling |\n|[Esperanto (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KblhZYmdReE9vMXM) \\| [Esperanto (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fpomn7ozppq3xmi1\u002Feo.tar.gz?dl=0) |eo|300|1G |50597| negative sampling |\n|[Finnish (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KVnFyem4yQkxJUFk) \\| [Finnish (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fex0ne7rel49wtl2\u002Ffi.tar.gz?dl=0) |fi|300|467M |30029| negative sampling |\n|[French (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KM0pVTktxdG15TkE) \\| [French (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fiz3qo3cwbba0qfz\u002Ffr.tar.gz?dl=0) |fr|300|1G |50130| negative sampling |\n|[German (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KLVVLRWt0a3VmbDg) \\| [German (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fjy6taiacmptr537\u002Fde.tar.gz?dl=0) |de|300|1G |50006| negative sampling |\n|[Hindi (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KZkhLLXJvbXVhbzQ) \\| [Hindi (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fpq50ca4o3phi9ks\u002Fhi.tar.gz?dl=0) |hi|300|323M|30393|negative sampling |\n|[Hungarian (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KX2xLamRlRDJ3N1U) \\| [Hungarian (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fjtshcott8othxf2\u002Fhu.tar.gz?dl=0) |hu|300|692M |40122| negative sampling |\n|[Indonesian (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KQWxEemNNUHhnTWc) \\| [Indonesian (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F9vabe1vci7cnt57\u002Fid.tar.gz?dl=0) |id|300|402M |30048| negative sampling |\n|[Italian (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KTlM3Qm1Ta2FBaTg) \\| [Italian (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Forqfu6mb9cj9ewr\u002Fit.tar.gz?dl=0) |it|300|1G |50031| negative sampling |\n|[Japanese (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KMzRjbnE4ZHJmcWM) \\| [Japanese (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F7digqy9ag3b9xeu\u002Fja.tar.gz?dl=0) |ja|300| 1G|50108| negative sampling |\n|[Javanese (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KVVNDS0lqdGNOSGM) \\| [Javanese (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fa9kmi5r7lr35kji\u002Fjv.tar.gz?dl=0) |jv|100|31M |10019| negative sampling |\n|[Korean (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KbDhXdWg1Q2RydlU) \\| [Korean (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fstt4y0zcp2c0iyb\u002Fko.tar.gz?dl=0) |ko|200|339M|30185| negative sampling |\n|[Malay (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KelpKdHktXzlNQzQ) \\| [Malay (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fnl3ljdgxsgbsm6l\u002Fms.tar.gz?dl=0) |ms|100|173M |10010| negative sampling |\n|[Norwegian (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KOEZ4OThyS3gxZHM) \\| [Norwegian (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fmag6beltx2q23aa\u002Fno.tar.gz?dl=0) |no|300|1G |50209| negative sampling |\n|[Norwegian Nynorsk (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KOWdOYk5KaVhrX2c) \\| [Norwegian Nynorsk (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F1qsywdv3zqybklm\u002Fnn.tar.gz?dl=0) |nn|100|114M |10036| negative sampling |\n|[Polish (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KbFlmMy1PUHBSZ0E) \\| [Polish (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fcibxhnsqk6gn1d8\u002Fpl.tar.gz?dl=0) |pl|300|1G |50035| negative sampling |\n|[Portuguese (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KRDcwcV9IVWFTeUE) \\| [Portuguese (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fnl7l8kqky0x94cv\u002Fpt.tar.gz?dl=0) |pt|300|1G |50246| negative sampling |\n|[Russian (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KMUJxZ0w0WjRGdnc) \\| [Russian (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F0x7oxso6x93efzj\u002Fru.tar.gz?dl=0) |ru|300|1G |50102| negative sampling |\n|[Spanish (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KNGNrTE4tVXRUZFU) \\| [Spanish (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Firpirphmieg4klv\u002Fes.tar.gz?dl=0) |es|300|1G |50003| negative sampling |\n|[Swahili (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2Kcl90XzBYZ0lxMkE) \\| [Swahili (f)](https:\u002F\u002Fdl.dropboxusercontent.com\u002Fu\u002F42868014\u002Fwordvectors\u002Ffasttext\u002Fmodels\u002Fsw.tar.gz) |sw|100|24M |10222| negative sampling |\n|[Swedish (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KNk1odTJtNkUxcEk) \\| [Swedish (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F7tbm0a0u31lvw25\u002Fsw.tar.gz?dl=0) |sv|300|1G |50052| negative sampling |\n|[Tagalog (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KajRzX2VuYkVtYzQ) \\| [Tagalog (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F4dm7k4sq43dqovx\u002Ftl.tar.gz?dl=0) |tl|100| 38M |10068|negative sampling |\n|[Thai (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KV1FJN0xRX1FxaFE) \\| [Thai (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fxj1ujw3es0umvzh\u002Fth.tar.gz?dl=0) |th|300|696M|30225| negative sampling |\n|[Turkish (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KVDNLallXdlVQbUE) \\| [Turkish (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F9v6h6mz3dv5xgsh\u002Ftr.tar.gz?dl=0) |tr|200|370M|30036|negative sampling |\n|[Vietnamese (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KUHZZZkVwd1RoVmc) \\| [Vietnamese (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F7de79czdc85pe8u\u002Fvi.tar.gz?dl=0) |vi|100|74M |10087| negative sampling |\n","# 30多种语言的预训练词向量\n\n该项目有两个目的。首先，我想分享我在分词、词向量等自然语言处理任务中的一些经验。另一个更重要的目的是，可能有些人正在寻找非英语语言的预训练词向量模型。遗憾的是，英语相比其他语言获得了更多的关注。请查看[这个链接](https:\u002F\u002Fgithub.com\u002F3Top\u002Fword2vec-api)，你会发现获取各种预训练英语词向量是多么容易。我认为现在是时候将目光转向多语言版本了。\n\n\u003Cb>在工作接近尾声时，我偶然得知已经有一个名为`polyglot`的类似项目。我强烈建议你去看看这个优秀的项目[这里](https:\u002F\u002Fsites.google.com\u002Fsite\u002Frmyeid\u002Fprojects\u002Fpolyglot)。真是有点尴尬！尽管如此，我还是决定公开这个项目。毕竟，我的工作也有其独特之处。\u003C\u002Fb>\n\n## 需求\n* nltk >= 1.11.1\n* regex >= 2016.6.24\n* lxml >= 3.3.3\n* numpy >= 1.11.2\n* konlpy >= 0.4.4（仅适用于韩语）\n* mecab（仅适用于日语）\n* pythai >= 0.1.3（仅适用于泰语）\n* pyvi >= 0.0.7.2（仅适用于越南语）\n* jieba >= 0.38（仅适用于中文）\n* gensim >= 0.13.1（用于Word2Vec）\n* fastText（用于[fastText](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FfastText)）\n\n## 背景 \u002F 参考资料\n* 请查阅[这篇维基百科文章](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FWord_embedding)，了解什么是词嵌入。\n* 请查阅[这篇维基百科文章](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FWord2vec)，快速了解Word2Vec的基本概念。\n* 请查阅[Facebook的fastText项目](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FfastText)，以安装fastText。\n* 观看[这个视频](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=T8tQZChniMk&index=2&list=PL_6hBtWGKk2KdY3ANaEYbxL3N5YhRN9i0)，深入理解Word2Vec背后的机制。\n* 如果需要，可以前往[这里](https:\u002F\u002Fgithub.com\u002F3Top\u002Fword2vec-api)获取各种英语词向量。\n\n## 工作流程\n* 第一步：下载你所需语言的[Wikipedia数据库备份文件](https:\u002F\u002Fdumps.wikimedia.org\u002Fbackup-index.html)。\n* 第二步：提取纯文本内容并存入`data\u002F`文件夹。\n* 第三步：运行`build_corpus.py`脚本。\n* 第四步-1：运行`make_wordvector.sh`脚本以生成Word2Vec词向量。\n* 第四步-2：运行`fasttext.sh`脚本以生成fastText词向量。\n\n## 预训练模型\n提供了两种类型的预训练模型。`w` 和 `f` 分别代表 `word2vec` 和 `fastText`。\n\n| 语言  | ISO 639-1 | 向量维度 | 语料库大小  | 词汇表大小 | \n| ---       |---        |---           |---           |---           |\n|[孟加拉语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KX01rR2dyRWpHNTA) \\| [孟加拉语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fxmi5xhqlu60bwfa\u002Fbn.tar.gz?dl=0)|bn|300|1.47亿 |10,059| 负采样 |\n|[加泰罗尼亚语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KYkd5OVExR3o1V1k) \\| [加泰罗尼亚语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fpd59l1mwvg4hocp\u002Fca.tar.gz?dl=0) |ca|300| 9.67亿|50,013| 负采样 |\n|[中文 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KNER5UHNDY19pbzQ) \\| [中文 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fil7syxqmnusul8c\u002Fzh.tar.gz?dl=0) |zh|300|10亿 |50,101| 负采样 |\n|[丹麦语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KcW1aTGloZnpCMGM) \\| [丹麦语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fx2ekc79m8p6ycue\u002Fda.tar.gz?dl=0) |da|300| 2.95亿|30,134| 负采样 |\n|[荷兰语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KQnNvcm9UUUxPVXc) \\| [荷兰语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F8i6y29f38b7nb5s\u002Fnl.tar.gz?dl=0) |nl|300| 10亿|50,160| 负采样 |\n|[世界语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KblhZYmdReE9vMXM) \\| [世界语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fpomn7ozppq3xmi1\u002Feo.tar.gz?dl=0) |eo|300|10亿 |50,597| 负采样 |\n|[芬兰语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KVnFyem4yQkxJUFk) \\| [芬兰语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fex0ne7rel49wtl2\u002Ffi.tar.gz?dl=0) |fi|300|4.67亿 |30,029| 负采样 |\n|[法语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KM0pVTktxdG15TkE) \\| [法语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fiz3qo3cwbba0qfz\u002Ffr.tar.gz?dl=0) |fr|300|10亿 |50,130| 负采样 |\n|[德语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KLVVLRWt0a3VmbDg) \\| [德语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fjy6taiacmptr537\u002Fde.tar.gz?dl=0) |de|300|10亿 |50,006| 负采样 |\n|[印地语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KZkhLLXJvbXVhbzQ) \\| [印地语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fpq50ca4o3phi9ks\u002Fhi.tar.gz?dl=0) |hi|300|3.23亿|30,393| 负采样 |\n|[匈牙利语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KX2xLamRlRDJ3N1U) \\| [匈牙利语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fjtshcott8othxf2\u002Fhu.tar.gz?dl=0) |hu|300|6.92亿 |40,122| 负采样 |\n|[印尼语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KQWxEemNNUHhnTWc) \\| [印尼语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F9vabe1vci7cnt57\u002Fid.tar.gz?dl=0) |id|300|4.02亿 |30,048| 负采样 |\n|[意大利语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KTlM3Qm1Ta2FBaTg) \\| [意大利语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Forqfu6mb9cj9ewr\u002Fit.tar.gz?dl=0) |it|300|10亿 |50,031| 负采样 |\n|[日语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KMzRjbnE4ZHJmcWM) \\| [日语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F7digqy9ag3b9xeu\u002Fja.tar.gz?dl=0) |ja|300| 10亿|50,108| 负采样 |\n|[爪哇语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KVVNDS0lqdGNOSGM) \\| [爪哇语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fa9kmi5r7lr35kji\u002Fjv.tar.gz?dl=0) |jv|100|3.1亿 |10,019| 负采样 |\n|[韩语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KbDhXdWg1Q2RydlU) \\| [韩语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fstt4y0zcp2c0iyb\u002Fko.tar.gz?dl=0) |ko|200|3.39亿|30,185| 负采样 |\n|[马来语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KelpKdHktXzlNQzQ) \\| [马来语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fnl3ljdgxsgbsm6l\u002Fms.tar.gz?dl=0) |ms|100|1.73亿 |10,010| 负采样 |\n|[挪威语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KOEZ4OThyS3gxZHM) \\| [挪威语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fmag6beltx2q23aa\u002Fno.tar.gz?dl=0) |no|300|10亿 |50,209| 负采样 |\n|[挪威新诺尔斯基语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KOWdOYk5KaVhrX2c) \\| [挪威新诺尔斯基语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F1qsywdv3zqybklm\u002Fnn.tar.gz?dl=0) |nn|100|1.14亿 |10,036| 负采样 |\n|[波兰语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KbFlmMy1PUHBSZ0E) \\| [波兰语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fcibxhnsqk6gn1d8\u002Fpl.tar.gz?dl=0) |pl|300|10亿 |50,035| 负采样 |\n|[葡萄牙语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KRDcwcV9IVWFTeUE) \\| [葡萄牙语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fnl7l8kqky0x94cv\u002Fpt.tar.gz?dl=0) |pt|300|10亿 |50,246| 负采样 |\n|[俄语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KMUJxZ0w0WjRGdnc) \\| [俄语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F0x7oxso6x93efzj\u002Fru.tar.gz?dl=0) |ru|300|10亿 |50,102| 负采样 |\n|[西班牙语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KNGNrTE4tVXRUZFU) \\| [西班牙语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Firpirphmieg4klv\u002Fes.tar.gz?dl=0) |es|300|10亿 |50,003| 负采样 |\n|[斯瓦希里语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2Kcl90XzBYZ0lxMkE) \\| [斯瓦希里语 (f)](https:\u002F\u002Fdl.dropboxusercontent.com\u002Fu\u002F42868014\u002Fwordvectors\u002Ffasttext\u002Fmodels\u002Fsw.tar.gz) |sw|100|2.4亿 |10,222| 负采样 |\n|[瑞典语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KNk1odTJtNkUxcEk) \\| [瑞典语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F7tbm0a0u31lvw25\u002Fsw.tar.gz?dl=0) |sv|300|10亿 |50,052| 负采样 |\n|[他加禄语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KajRzX2VuYkVtYzQ) \\| [他加禄语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F4dm7k4sq43dqovx\u002Ftl.tar.gz?dl=0) |tl|100| 3.8亿 |10,068| 负采样 |\n|[泰语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KV1FJN0xRX1FxaFE) \\| [泰语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fxj1ujw3es0umvzh\u002Fth.tar.gz?dl=0) |th|300|6.96亿|30,225| 负采样 |\n|[土耳其语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KVDNLallXdlVQbUE) \\| [土耳其语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F9v6h6mz3dv5xgsh\u002Ftr.tar.gz?dl=0) |tr|200|3.7亿|30,036| 负采样 |\n|[越南语 (w)](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KUHZZZkVwd1RoVmc) \\| [越南语 (f)](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002F7de79czdc85pe8u\u002Fvi.tar.gz?dl=0) |vi|100|7.4亿 |10,087| 负采样 |","# wordvectors 快速上手指南\n\n`wordvectors` 是一个提供 30+ 种非英语语言预训练词向量（Word Embeddings）的开源项目，旨在弥补英文以外语言资源的不足。它支持 **Word2Vec** 和 **fastText** 两种主流模型格式。\n\n## 环境准备\n\n在开始之前，请确保您的系统已安装 Python，并准备好以下依赖库。部分语言需要特定的分词工具。\n\n### 核心依赖\n```bash\npip install nltk>=1.11.1 regex>=2016.6.24 lxml>=3.3.3 numpy>=1.11.2 gensim>=0.13.1\n```\n\n### 特定语言依赖（按需安装）\n如果您处理以下语言，需额外安装对应库：\n*   **中文**: `jieba` (`pip install jieba>=0.38`)\n*   **韩语**: `konlpy` (`pip install konlpy>=0.4.4`)\n*   **日语**: `mecab` (需系统级安装)\n*   **泰语**: `pythai` (`pip install pythai>=0.1.3`)\n*   **越南语**: `pyvi` (`pip install pyvi>=0.0.7.2`)\n\n### fastText 支持\n若需使用 fastText 模型或自行训练，请安装 Facebook 官方工具：\n```bash\n# 推荐通过源码编译安装以获得最佳性能\ngit clone https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FfastText.git\ncd fastText\nmake\nsudo make install\n```\n\n## 安装与模型获取\n\n本项目主要目的是**直接使用预训练模型**，而非必须从头训练。您可以直接下载作者提供的预训练模型文件。\n\n### 1. 下载预训练模型\n项目提供了多种语言的 Word2Vec (`w`) 和 fastText (`f`) 模型。请访问项目 README 中的表格链接下载（部分链接为 Google Drive 或 Dropbox）。\n\n*   **中文模型示例**:\n    *   Word2Vec: [下载链接](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B0ZXk88koS2KNER5UHNDY19pbzQ)\n    *   fastText: [下载链接](https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Fil7syxqmnusul8c\u002Fzh.tar.gz?dl=0)\n\n> **提示**：由于源文件托管在海外，国内用户下载可能较慢。建议下载后解压，将模型文件（通常为 `.vec` 或 `.bin` 格式）放置在项目目录下的 `models\u002F` 文件夹中。\n\n### 2. (可选) 从头训练模型\n如果您需要使用未提供的语言或自定义语料，可按以下流程操作：\n\n1.  **获取语料**：从 [Wikipedia Dumps](https:\u002F\u002Fdumps.wikimedia.org\u002Fbackup-index.html) 下载目标语言的数据库备份。\n2.  **提取文本**：将纯文本内容提取至 `data\u002F` 文件夹。\n3.  **构建语料**：\n    ```bash\n    python build_corpus.py\n    ```\n4.  **训练模型**：\n    *   生成 Word2Vec 向量：\n        ```bash\n        bash make_wordvector.sh\n        ```\n    *   生成 fastText 向量：\n        ```bash\n        bash fasttext.sh\n        ```\n\n## 基本使用\n\n下载并解压预训练模型后，您可以使用 Python 的 `gensim` 库直接加载并进行词向量操作。\n\n### 加载 Word2Vec 模型示例\n\n```python\nfrom gensim.models import KeyedVectors\n\n# 加载预训练的 Word2Vec 模型 (以中文为例)\n# 请将路径替换为您实际下载的文件路径\nmodel_path = \"path\u002Fto\u002Fyour\u002Fzh.word2vec\" \n\n# 加载模型\nwv_model = KeyedVectors.load_word2vec_format(model_path, binary=False) \n# 如果是 binary 格式，请设置 binary=True\n\n# 基本使用示例\nword = \"中国\"\nif word in wv_model:\n    # 获取词向量\n    vector = wv_model[word]\n    print(f\"{word} 的向量维度：{vector.shape}\")\n    \n    # 查找相似词\n    similar_words = wv_model.most_similar(word, topn=5)\n    print(f\"与 '{word}' 最相似的词：{similar_words}\")\nelse:\n    print(f\"词汇 '{word}' 不在词典中\")\n```\n\n### 加载 fastText 模型示例\n\n```python\nfrom gensim.models import FastText\n\n# 加载 fastText 模型\nft_model_path = \"path\u002Fto\u002Fyour\u002Fzh.fasttext.bin\"\nft_model = FastText.load_fasttext_format(ft_model_path)\n\n# 获取词向量 (fastText 支持未登录词)\nvector = ft_model.wv[\"人工智能\"]\nprint(f\"向量前 5 维：{vector[:5]}\")\n```","一家跨境电商公司的数据团队正在构建多语言评论情感分析系统，需要处理包括泰语、越南语和韩语在内的非英语用户反馈。\n\n### 没有 wordvectors 时\n- **资源获取极难**：网上几乎找不到现成的泰语或越南语预训练词向量，团队不得不从零开始收集海量语料进行训练，耗时数周。\n- **分词门槛高**：针对韩语、日语和泰语等无空格分隔的语言，团队需单独研究并集成 Mecab、PyThaiNLP 等复杂分词工具，开发调试成本巨大。\n- **模型效果差**：由于缺乏高质量的非英语语料库，自训练的模型词汇覆盖率低，导致对当地俚语和常用词的语义理解偏差严重。\n- **维护成本高**：每增加一种新语言支持，都需要重复搭建整套数据处理流水线，人力和时间投入呈线性增长。\n\n### 使用 wordvectors 后\n- **即取即用**：直接下载项目中提供的泰语、越南语等 30+ 种语言的预训练模型（Word2Vec 或 fastText），将环境部署时间从数周缩短至几小时。\n- **流程标准化**：利用项目内置的 `build_corpus.py` 和脚本自动处理特定语言的分词依赖（如自动调用 jieba 处理中文、konlpy 处理韩语），大幅降低工程复杂度。\n- **语义更精准**：基于维基百科大规模语料训练的向量包含丰富的上下文信息，显著提升了对非英语评论中细微情感色彩的识别准确率。\n- **扩展更灵活**：新增语言支持时，只需按照标准工作流下载对应维基百科 dump 并运行脚本即可，实现了多语言能力的快速复制。\n\nwordvectors 通过提供开箱即用的多语言预训练模型和标准化构建流程，彻底打破了非英语 NLP 任务的数据与工程壁垒。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKyubyong_wordvectors_3a8b2d12.png","Kyubyong","Kyubyong Park","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FKyubyong_1c5ad752.jpg","Lives in Seoul, Korea. \r\nStudied Linguistics at SNU and Univ. of Hawaii.","TUNiB","Seoul, Korea","kbpark.linguist@gmail.com",null,"https:\u002F\u002Fwww.facebook.com\u002Fkyubyong","https:\u002F\u002Fgithub.com\u002FKyubyong",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",70.7,{"name":89,"color":90,"percentage":91},"Shell","#89e051",29.3,2235,390,"2026-04-08T16:40:14","MIT",4,"","未说明",{"notes":100,"python":98,"dependencies":101},"部分语言需要额外的特定依赖：韩语需 konlpy>=0.4.4，日语需安装 mecab，泰语需 pythai>=0.1.3，越南语需 pyvi>=0.0.7.2，中文需 jieba>=0.38。工作流程涉及下载维基百科数据备份并运行脚本构建语料库和词向量模型。",[102,103,104,105,106,107],"nltk>=1.11.1","regex>=2016.6.24","lxml>=3.3.3","numpy>=1.11.2","gensim>=0.13.1","fastText",[16,35,14,109],"音频",[111,112,113,114],"vector","word2vec","language","fasttext","2026-03-27T02:49:30.150509","2026-04-14T12:31:38.237907",[118,123,128,133,138,143,148],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},32906,"加载预训练的二进制 word2vec 模型时出现 'UnicodeDecodeError' 或 'AttributeError' 错误怎么办？","这通常是由于 Gensim 版本不兼容导致的。解决方案有两种：\n1. 降级 Gensim 版本：将 Gensim 从 3.6+ 降级到 3.0 版本。\n2. 更改加载方法：不要使用 load_word2vec_format，而是直接使用 load 方法。代码如下：\n   model = gensim.models.KeyedVectors.load('path\u002Fto\u002Fmodel.bin')\n   注意：此方法适用于 Gensim 3.x 版本。","https:\u002F\u002Fgithub.com\u002FKyubyong\u002Fwordvectors\u002Fissues\u002F9",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},32907,"如何在 Python 中正确加载这些预训练的 word2vec 模型文件（.bin）？","正确的加载方式是使用 Gensim 的 KeyedVectors.load 方法，而不是 load_word2vec_format。示例代码如下：\n   path = 'data\u002Fca.bin'\n   word_vectors = KeyedVectors.load(path)\n   请确保路径正确，并且使用的是兼容的 Gensim 版本（建议 3.x）。","https:\u002F\u002Fgithub.com\u002FKyubyong\u002Fwordvectors\u002Fissues\u002F8",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},32908,"加载模型时提示缺少 '.syn1neg.npy' 文件（No such file or directory）如何解决？","这是因为下载的文件包中遗漏了必要的 numpy 文件。维护者已更新资源，请重新下载最新的 ZIP 压缩包，其中应包含 .bin 文件及对应的 .npy 文件（如 pt.bin.syn1neg.npy）。替换旧文件后即可正常加载。","https:\u002F\u002Fgithub.com\u002FKyubyong\u002Fwordvectors\u002Fissues\u002F2",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},32909,"使用余弦相似度查找最相似单词时结果不准确，代码逻辑是否有误？","是的，常见错误包括未排除单词自身、相似度比较逻辑颠倒等。正确的 Julia 实现逻辑如下：\n1. 初始化最大相似度为负无穷（如 -1000）。\n2. 遍历词表时，跳过输入单词本身（if A == word[1] continue）。\n3. 计算余弦相似度，若当前相似度大于记录的最大值则更新。\n   核心修正点：寻找最大值（max_sim）而非最小值，并排除自身匹配。","https:\u002F\u002Fgithub.com\u002FKyubyong\u002Fwordvectors\u002Fissues\u002F20",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},32910,"日语（Japanese）的词向量链接指向了错误的语言（爪哇语 Javanese）怎么办？","这是一个资源链接标签错误。原本标记为日语（ja）的链接实际指向了爪哇语（jv）的数据。维护者已确认该问题并表示链接需要互换。用户在使用时应检查文件名和内容，或等待仓库更新修复后的正确链接。","https:\u002F\u002Fgithub.com\u002FKyubyong\u002Fwordvectors\u002Fissues\u002F5",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},32911,"该仓库的模型支持哪些版本的 Gensim？升级到 Gensim 4.x 会有问题吗？","该仓库中的模型仅在 Gensim 3.8.3 及以下版本中正常工作。如果您迁移到 Gensim 4.x 或更高版本，可能会遇到兼容性错误。建议在使用这些预训练模型时，将环境限制在 gensim\u003C=3.8.3。","https:\u002F\u002Fgithub.com\u002FKyubyong\u002Fwordvectors\u002Fissues\u002F25",{"id":149,"question_zh":150,"answer_zh":151,"source_url":127},32912,"如何获取特定单词的词向量？","在成功加载模型后（使用 KeyedVectors.load），可以直接通过字典方式访问单词向量。假设模型对象为 model，获取单词 'example' 的向量为：\n   vector = model['example']\n   如果单词不在词汇表中，会抛出 KeyError，建议先用 'example' in model 进行判断。",[]]