[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-1e0ng--simhash":3,"tool-1e0ng--simhash":65},[4,18,28,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":24,"last_commit_at":34,"category_tags":35,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,"2026-04-18T11:00:28",[15,16,36,27,13,37,38,14,39],"视频","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":17},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[38,16,37],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":17},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[37,15,16,14],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":24,"last_commit_at":63,"category_tags":64,"status":17},7347,"lobehub","lobehub\u002Flobehub","LobeHub 是一个致力于工作与生活的智能体协作平台，旨在帮助用户发现、构建并与不断成长的 AI 智能体队友协同工作。它解决了当前 AI 应用中单点交互效率低、难以形成规模化协作网络的问题，将“智能体”确立为工作的基本单元，让人类与 AI 能够共同进化。\n\n无论是开发者、研究人员还是普通用户，都能通过 LobeHub 轻松设计多智能体协作流程。平台支持一键安装 MCP 插件、访问丰富的智能体市场，并提供本地与云端数据库管理、多用户协作等高级功能。其独特的技术亮点包括对多种大模型服务商的兼容、本地大模型部署支持、视觉识别、语音对话（TTS\u002FSTT）、文生图以及思维链（Chain of Thought）等能力。此外，LobeHub 还具备分支对话、工件生成、文件上传与知识库集成等实用特性，并适配桌面端、移动端及 PWA 场景，支持自定义主题。\n\n通过开源与自托管选项，LobeHub 为构建人机共演的未来协作网络提供了灵活、可扩展的基础设施。",75141,"2026-04-13T22:06:32",[38,16,13,14,15],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":46,"env_os":89,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":93,"github_topics":78,"view_count":24,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":94,"updated_at":95,"faqs":96,"releases":132},9965,"1e0ng\u002Fsimhash","simhash","A Python Implementation of Simhash Algorithm","simhash 是一个基于 Python 语言实现的 Simhash 算法开源库，其核心功能是为海量文本数据生成紧凑的指纹特征。它主要解决了在大规模数据集（如网页、新闻或社交媒体内容）中快速识别近似重复内容的难题。与传统哈希算法不同，即使两个文本存在细微差异，simhash 生成的指纹依然保持高度相似，从而能高效判断内容是否“大体相同”，广泛应用于搜索引擎去重、垃圾信息过滤及版权监测等场景。\n\n这款工具特别适合后端开发者、数据工程师以及从事自然语言处理的研究人员使用。对于需要处理百万级甚至亿级文档的用户而言，simhash 提供了极高的计算效率和极低的存储开销。其独特的技术亮点在于将变长文本映射为固定长度的二进制串，并利用海明距离（Hamming Distance）快速量化文本相似度，使得在无需逐字比对的情况下，也能以亚线性时间复杂度完成近邻搜索。作为对谷歌经典论文的忠实复现，simhash 代码结构清晰、易于集成，是构建高性能内容去重系统的理想基础组件。","simhash\n===========\n\nThis is a Python implementation of [Simhash](http:\u002F\u002Fstatic.googleusercontent.com\u002Fmedia\u002Fresearch.google.com\u002Fen\u002F\u002Fpubs\u002Farchive\u002F33026.pdf).\n\n## Getting Started\n\n\u003Chttp:\u002F\u002Fleons.im\u002Fposts\u002Fa-python-implementation-of-simhash-algorithm\u002F>\n\n## Build Status\n\n![Build Status](https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Factions\u002Fworkflows\u002Fmain.yml\u002Fbadge.svg?branch=master)\n","simhash\n===========\n\n这是一个 [Simhash](http:\u002F\u002Fstatic.googleusercontent.com\u002Fmedia\u002Fresearch.google.com\u002Fen\u002F\u002Fpubs\u002Farchive\u002F33026.pdf) 的 Python 实现。\n\n## 入门指南\n\n\u003Chttp:\u002F\u002Fleons.im\u002Fposts\u002Fa-python-implementation-of-simhash-algorithm\u002F>\n\n## 构建状态\n\n![构建状态](https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Factions\u002Fworkflows\u002Fmain.yml\u002Fbadge.svg?branch=master)","# Simhash 快速上手指南\n\nSimhash 是一种局部敏感哈希算法，常用于海量数据去重（如网页去重、文本相似度检测）。本项目提供了该算法的 Python 实现。\n\n## 环境准备\n\n- **操作系统**：Linux, macOS, Windows\n- **Python 版本**：Python 3.6+\n- **前置依赖**：无特殊系统级依赖，仅需标准 Python 环境\n\n## 安装步骤\n\n推荐使用 pip 直接安装最新稳定版：\n\n```bash\npip install simhash\n```\n\n若国内下载速度较慢，可使用清华或阿里云镜像源加速安装：\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple simhash\n```\n\n或者使用阿里云镜像：\n\n```bash\npip install -i https:\u002F\u002Fmirrors.aliyun.com\u002Fpypi\u002Fsimple\u002F simhash\n```\n\n## 基本使用\n\n以下是最简单的文本相似度检测示例：\n\n```python\nfrom simhash import Simhash, SimhashIndex\n\n# 计算单个文本的 simhash 值\ntext = \"这是一个用于测试的中文句子\"\nhash_value = Simhash(text)\nprint(hash_value.value)\n\n# 比较两个文本的相似度（海明距离）\ntext1 = \"今天天气不错\"\ntext2 = \"今天天气很好\"\nh1 = Simhash(text1)\nh2 = Simhash(text2)\n\ndistance = h1.distance(h2)\nprint(f\"海明距离：{distance}\")  # 距离越小，内容越相似\n\n# 使用索引进行快速去重查询\ndata = {\n    '1': '第一篇文章内容',\n    '2': '第二篇相似文章',\n    '3': '完全不同的内容'\n}\n\nindex = SimhashIndex([], k=3)\n\nfor key, value in data.items():\n    index.add(key, Simhash(value))\n\n# 查找与目标文本相似的条目（海明距离 \u003C= 3）\ntarget = \"第一篇文章内容略有修改\"\nresult = index.get_near_dups(Simhash(target))\nprint(f\"相似条目 ID: {result}\")\n```","某大型电商平台的运营团队每天需从全网抓取数万条商品评论，以识别并清理重复或高度相似的刷单内容。\n\n### 没有 simhash 时\n- 只能依靠精确字符串匹配来去重，导致大量仅修改了标点、表情或少量词语的变种刷单评论无法被识别。\n- 面对海量数据，采用两两比对的传统算法计算复杂度极高，处理一次全量数据需要数小时甚至更久，严重滞后。\n- 人工审核压力巨大，审核员需要在成千上万条看似不同实则雷同的评论中肉眼排查，效率低下且容易漏网。\n- 由于无法实时拦截相似内容，虚假好评在页面上停留时间过长，直接误导消费者并损害平台信誉。\n\n### 使用 simhash 后\n- 利用 simhash 将文本转化为指纹特征值，即使评论被微调（如替换同义词、调整语序），也能通过海明距离快速判定为相似内容。\n- 算法将比对复杂度从线性级降低至近常数级，万条数据的去重处理时间从数小时缩短至秒级，实现准实时清洗。\n- 系统自动聚合高相似度评论簇，审核员只需抽检每组的代表条目，工作量减少 90% 以上，同时大幅降低漏判率。\n- 刷单内容在发布瞬间即被标记拦截，有效净化了商品评价区，提升了用户决策的准确性和对平台的信任度。\n\nsimhash 通过将非结构化文本转化为可高效比对的数字指纹，解决了海量数据下近似重复检测的性能与精度难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002F1e0ng_simhash_66aef683.png","1e0ng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002F1e0ng_b9b70880.png",null,"https:\u002F\u002Fgithub.com\u002F1e0ng",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,1036,223,"2026-04-19T09:08:30","MIT","未说明",{"notes":91,"python":89,"dependencies":92},"这是一个 Simhash 算法的 Python 实现，README 中未详细列出具体的运行环境需求、依赖库或硬件要求。建议参考提供的博客链接获取更详细的安装和使用指南。由于 Simhash 通常为纯 CPU 算法，一般无需 GPU 支持。",[],[16],"2026-03-27T02:49:30.150509","2026-04-20T12:55:30.217359",[97,102,107,112,117,122,127],{"id":98,"question_zh":99,"answer_zh":100,"source_url":101},44755,"Simhash 库是否支持不同语言的分词？如何处理多语言文本？","该项目独立于分词算法。您可以选择任何适合您需求的分词算法（如 jieba 用于中文，nltk 用于英文等）。在将句子分割成 token（词元）列表后，直接将该列表传递给 `Simhash` 函数即可。例如：`Simhash(['word1', 'word2', ...])`。","https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Fissues\u002F40",{"id":103,"question_zh":104,"answer_zh":105,"source_url":106},44756,"导入时出现 'ImportError: cannot import name Simhash' 或 'AttributeError: module simhash has no attribute Simhash' 错误怎么办？","这通常是因为您的当前工作目录下存在一个名为 `simhash.py` 的文件，导致 Python 导入了本地文件而不是安装的库。请检查并删除或重命名该文件。此外，确保您是通过 `pip install simhash` 正确安装了库，如果问题依旧，尝试卸载后重新安装。","https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Fissues\u002F39",{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},44757,"为什么无法通过 pip 安装最新版本的 simhash（如 2.1.0）？","这可能是发布脚本出现问题导致特定版本未正确上传。如果遇到找不到版本的情况，请尝试安装更新的修复版本。例如，维护者已修复并发布 `2.1.1` 版本，您可以运行 `pip3 install simhash==2.1.1` 来成功安装。","https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Fissues\u002F68",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},44758,"SimhashIndex 的 get_near_dups 方法返回空列表，或者添加数据后仍无法找到重复项，原因是什么？","请确保初始化 `Simhash` 对象和查询时传入的数据格式一致。如果索引是基于分词列表构建的，查询时也必须传入分词列表（如 `string.split()`），而不是原始字符串。另外，该方法不考虑单词的顺序，仅基于特征集合计算相似度。如果仍然无效，可能需要调整特征提取方法或哈希参数。","https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Fissues\u002F8",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},44759,"Simhash 计算结果与其他实现（如 C++ 或 JS 版本）不一致，距离计算有误怎么办？","这是一个已知的实现差异问题，已在后续版本中修复。旧版本中当计数向量为 0 时可能错误地设置了位。如果您发现生成的哈希值与其他标准实现（如 simhash-cpp）对相同字符串产生不同结果，请确保升级到最新的 simhash 库版本以获取正确的算法实现。","https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Fissues\u002F26",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},44760,"运行测试或代码时出现 'Big Bucket Found' 警告，这对结果有什么影响？如何解决？","该警告表示哈希桶过大，可能会影响去重效率，但不一定直接影响结果的准确性。默认值 64 适用于小规模语料库。如果您的数据量较大（如超过几千条字符串），建议优化哈希函数或特征列表生成函数，或者根据实际数据规模调整相关参数以减少冲突。","https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Fissues\u002F4",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},44761,"在本地运行测试脚本时出现 'tuple object has no attribute encode' 错误，如何解决？","这通常是因为环境中存在多个 simhash 版本冲突，或者系统自带的 simhash 包与本地代码不兼容。请尝试卸载系统级别的 simhash 包，确保只使用当前项目目录下的版本。命令参考：先卸载 `pip uninstall simhash`，然后在项目根目录重新安装或直接运行。","https:\u002F\u002Fgithub.com\u002F1e0ng\u002Fsimhash\u002Fissues\u002F15",[]]