[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-huoyijie--AdvancedEAST":3,"tool-huoyijie--AdvancedEAST":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",152630,2,"2026-04-12T23:33:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":90,"env_os":91,"env_gpu":92,"env_ram":91,"env_deps":93,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":120,"updated_at":121,"faqs":122,"releases":157},7020,"huoyijie\u002FAdvancedEAST","AdvancedEAST"," AdvancedEAST is an algorithm used for Scene image text detect, which is primarily based on EAST, and the significant improvement was also made, which make long text predictions more accurate.https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002Fraspberrypi-car","AdvancedEAST 是一款专注于自然场景图像文本检测的开源算法，旨在精准识别图片中的文字区域及其位置。它基于经典的 EAST 检测器进行了深度优化，核心解决了原算法在处理长文本时顶点坐标预测不准的痛点。传统方法在计算四边形顶点时容易受干扰，导致长条状文字的起止端定位偏差较大，而 AdvancedEAST 通过改进的后处理机制，利用边界像素的加权平均来回归顶点，显著提升了长文本的检测精度。\n\n该项目采用 Keras 框架编写，代码结构清晰，易于阅读和运行，同时提供了完整的数据预处理、标签生成、模型训练及预测流程，降低了复现和改进的门槛。其独特的技术亮点在于重新定义了网络输出层，通过区分文本框的“头”与“尾”边界像素，分别预测短边两端的顶点坐标，从而更准确地勾勒出文本框形状。\n\nAdvancedEAST 非常适合计算机视觉领域的开发者、研究人员以及需要部署高精度文字检测功能的技术团队使用。无论是进行学术研究、算法对比，还是开发如车牌识别、文档数字化等实际应用，它都是一个高效且可靠的基准工具。项目遵循 MIT 协议开源，支持自定义配置与训练，方便用户根据特定数据集进行微调。","# AdvancedEAST\nAdvancedEAST is an algorithm used for Scene image text detect,\nwhich is primarily based on\n[EAST:An Efficient and Accurate Scene Text Detector](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2),\nand the significant improvement was also made,\nwhich make long text predictions more accurate.\nIf this project is helpful to you, welcome to star.\nAnd if you have any problem, please contact me.\n* email:yijie.huo@foxmail.com\n* website:[https:\u002F\u002Fhuoyijie.cn](https:\u002F\u002Fhuoyijie.cn)\n\n# advantages\n* writen in keras, easy to read and run\n* base on EAST, an advanced text detect algorithm\n* easy to train the model\n* significant improvement was made, long text predictions more accurate.(please\nsee 'demo results' part bellow,\nand pay attention to the activation image,\nwhich starts with yellow grids, and ends with green grids.) \n\nIn my experiments,\nAdvancedEast has obtained much better prediction accuracy then East,\nespecially on long text. Since East calculates final vertexes coordinates with\nweighted mean values of predicted vertexes coordinates of all pixels. It is too\ndifficult to predict the 2 vertexes from the other side of the quadrangle.\nSee East limitations picked from original paper bellow.\n![East limitations](image\u002FEast.limitations.png \"East limitations\")\n\n# project files\n* config file:cfg.py,control parameters\n* pre-process data:\n    preprocess.py,resize image\n* label data:\n    label.py,produce label info\n* define network\n    network.py\n* define loss function\n    losses.py\n* execute training\n    advanced_east.py and data_generator.py\n* predict\n    predict.py and nms.py\n    \n**后置处理过程说明参见\n[后置处理(含原理图)](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F82c8e470-7562-11ea-98d3-6d733527e90f\u002Fplay)**\n\n# network arch\n* AdvancedEast\n\n![AdvancedEast network arch](image\u002FAdvancedEast.network.png \"AdvancedEast network arch\")\n\n**网络输出说明：\n输出层分别是1位score map, 是否在文本框内；2位vertex code，是否属于文本框边界像素以及是头还是尾；4位geo，是边界像素可以预测的2个顶点坐标。所有像素构成了文本框形状，然后只用边界像素去预测回归顶点坐标。边界像素定义为黄色和绿色框内部所有像素，是用所有的边界像素预测值的加权平均来预测头或尾的短边两端的两个顶点。头和尾部分边界像素分别预测2个顶点，最后得到4个顶点坐标。**\n\n[原理简介(含原理图)](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F9a37ea00-755f-11ea-98d3-6d733527e90f\u002Fplay)\n\n* East\n\n![East network arch](image\u002FEast.network.png \"East network arch\")\n\n\n# setup\n* python 3.6.3+\n* tensorflow-gpu 1.5.0+(or tensorflow 1.5.0+)\n* keras 2.1.4+\n* numpy 1.14.1+\n* tqdm 4.19.7+\n\n# training\n* tianchi ICPR dataset download\n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1NSyc-cHKV3IwDo6qojIrKA 密码: ye9y\n\n* prepare training data:make data root dir(icpr),\ncopy images to root dir, and copy txts to root dir,\ndata format details could refer to 'ICPR MTWI 2018 挑战赛二：网络图像的文本检测',\n[Link](https:\u002F\u002Ftianchi.aliyun.com\u002Fcompetition\u002Fintroduction.htm?spm=5176.100066.0.0.3bcad780oQ9Ce4&raceId=231651)\n* modify config params in cfg.py, see default values.\n* python preprocess.py, resize image to 256*256,384*384,512*512,640*640,736*736,\nand train respectively could speed up training process.\n* python label.py\n* python advanced_east.py, train entrance\n* python predict.py -p demo\u002F001.png, to predict\n* pretrain model download(use for test)\n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1KO7tR_MW767ggmbTjIJpuQ 密码: kpm2\n\n# demo results\n![001原图](demo\u002F001.png \"001原图\")\n![001激活图](demo\u002F001.png_act.jpg \"001激活图\")\n![001预测图](demo\u002F001.png_predict.jpg \"001预测图\")\n\n![004原图](demo\u002F004.jpg \"004原图\")\n![004激活图](demo\u002F004.jpg_act.jpg \"004激活图\")\n![004预测图](demo\u002F004.jpg_predict.jpg \"004预测图\")\n\n![005原图](demo\u002F005.png \"005原图\")\n![005激活图](demo\u002F005.png_act.jpg \"005激活图\")\n![005预测图](demo\u002F005.png_predict.jpg \"005预测图\")\n\n* compared with east based on vgg16\n\nAs you can see, although the text area prediction is very accurate, the vertex coordinates are not accurate enough.\n\n![001激活图](demo\u002F001.png_act_east.jpg \"001激活图\")\n![001预测图](demo\u002F001.png_predict_east.jpg \"001预测图\")\n\n# License\nThe codes are released under the MIT License.\n\n# references\n* [EAST:An Efficient and Accurate Scene Text Detector](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2)\n\n* [CTPN:Detecting Text in Natural Image with Connectionist Text Proposal Network](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.03605)\n\n* [Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.01425)\n\n\n**网络输出说明：\n输出层分别是1位score map, 是否在文本框内；2位vertex code，是否属于文本框边界像素以及是头还是尾；4位geo，是边界像素可以预测的2个顶点坐标。所有像素构成了文本框形状，然后只用边界像素去预测回归顶点坐标。边界像素定义为黄色和绿色框内部所有像素，是用所有的边界像素预测值的加权平均来预测头或尾的短边两端的两个顶点。头和尾部分边界像素分别预测2个顶点，最后得到4个顶点坐标。**\n\n[原理简介(含原理图)](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F9a37ea00-755f-11ea-98d3-6d733527e90f\u002Fplay)\n\n**后置处理过程说明参见\n[后置处理(含原理图)](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F82c8e470-7562-11ea-98d3-6d733527e90f\u002Fplay)**\n\n[A Simple RaspberryPi Car Project](https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002Fraspberrypi-car)\n","# AdvancedEAST\nAdvancedEAST 是一种用于场景图像文本检测的算法，\n其主要基于\n[EAST:一种高效准确的场景文本检测器](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2)，\n并在原基础上进行了显著改进，\n使得长文本的预测更加准确。\n如果这个项目对您有所帮助，欢迎点赞。\n如果您有任何问题，请随时联系我。\n* 邮箱：yijie.huo@foxmail.com\n* 网站：[https:\u002F\u002Fhuoyijie.cn](https:\u002F\u002Fhuoyijie.cn)\n\n# 优势\n* 使用 Keras 编写，易于阅读和运行\n* 基于 EAST 这一先进的文本检测算法\n* 模型训练简单\n* 进行了显著改进，长文本预测更准确。（请参阅下方的“demo 结果”部分，\n并注意以黄色网格开始、绿色网格结束的激活图。）\n\n在我的实验中，\nAdvancedEast 在预测精度上远超 EAST，\n尤其是在处理长文本时表现尤为突出。由于 EAST 是通过所有像素预测顶点坐标的加权平均来计算最终顶点坐标，因此很难准确预测四边形另一侧的两个顶点。\n以下是摘自原始论文的 EAST 局限性说明：\n![East limitations](image\u002FEast.limitations.png \"East limitations\")\n\n# 项目文件\n* 配置文件：cfg.py，控制参数\n* 数据预处理：\n    preprocess.py，调整图像大小\n* 标签数据生成：\n    label.py，生成标签信息\n* 定义网络结构：\n    network.py\n* 定义损失函数：\n    losses.py\n* 执行训练：\n    advanced_east.py 和 data_generator.py\n* 文本预测：\n    predict.py 和 nms.py\n\n**后处理流程说明参见\n[后处理（含原理图）](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F82c8e470-7562-11ea-98d3-6d733527e90f\u002Fplay)**\n\n# 网络架构\n* AdvancedEast\n\n![AdvancedEast 网络架构](image\u002FAdvancedEast.network.png \"AdvancedEast 网络架构\")\n\n**网络输出说明：\n输出层分别为：1位分数图，表示该像素是否位于文本框内；2位顶点编码，表示该像素是否属于文本框边界以及是头部还是尾部；4位几何信息，表示边界像素可预测的两个顶点坐标。所有像素共同构成文本框形状，而只有边界像素参与顶点坐标的回归预测。边界像素定义为黄色和绿色框内部的所有像素，通过这些边界像素预测值的加权平均来预测头部或尾部短边两端的两个顶点。头部和尾部的边界像素分别预测2个顶点，最终得到4个顶点坐标。**\n\n[原理简介（含原理图）](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F9a37ea00-755f-11ea-98d3-6d733527e90f\u002Fplay)\n\n* EAST\n\n![East 网络架构](image\u002FEast.network.png \"East 网络架构\")\n\n\n# 环境配置\n* Python 3.6.3+\n* tensorflow-gpu 1.5.0+（或 tensorflow 1.5.0+）\n* Keras 2.1.4+\n* numpy 1.14.1+\n* tqdm 4.19.7+\n\n# 训练\n* 天池 ICPR 数据集下载\n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1NSyc-cHKV3IwDo6qojIrKA 密码: ye9y\n\n* 准备训练数据：创建数据根目录（icpr），\n将图片和标注文件复制到根目录下，\n数据格式详情可参考“ICPR MTWI 2018 挑战赛二：网络图像的文本检测”，\n[链接](https:\u002F\u002Ftianchi.aliyun.com\u002Fcompetition\u002Fintroduction.htm?spm=5176.100066.0.0.3bcad780oQ9Ce4&raceId=231651)\n* 修改 cfg.py 中的配置参数，可参考默认值。\n* 使用 python preprocess.py 将图像分别调整为 256*256、384*384、512*512、640*640、736*736 的尺寸，\n然后分别进行训练，可以加快训练速度。\n* 使用 python label.py 生成标签数据。\n* 使用 python advanced_east.py 开始训练。\n* 使用 python predict.py -p demo\u002F001.png 进行预测。\n* 预训练模型下载（用于测试）\n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1KO7tR_MW767ggmbTjIJpuQ 密码: kpm2\n\n# demo 结果\n![001 原图](demo\u002F001.png \"001 原图\")\n![001 激活图](demo\u002F001.png_act.jpg \"001 激活图\")\n![001 预测图](demo\u002F001.png_predict.jpg \"001 预测图\")\n\n![004 原图](demo\u002F004.jpg \"004 原图\")\n![004 激活图](demo\u002F004.jpg_act.jpg \"004 激活图\")\n![004 预测图](demo\u002F004.jpg_predict.jpg \"004 预测图\")\n\n![005 原图](demo\u002F005.png \"005 原图\")\n![005 激活图](demo\u002F005.png_act.jpg \"005 激活图\")\n![005 预测图](demo\u002F005.png_predict.jpg \"005 预测图\")\n\n* 与基于 VGG16 的 EAST 对比\n\n如您所见，尽管文本区域的预测非常准确，但顶点坐标却不够精确。\n\n![001 激活图](demo\u002F001.png_act_east.jpg \"001 激活图\")\n![001 预测图](demo\u002F001.png_predict_east.jpg \"001 预测图\")\n\n# 许可证\n代码采用 MIT 许可证发布。\n\n# 参考文献\n* [EAST:一种高效准确的场景文本检测器](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2)\n\n* [CTPN:利用连接主义文本提案网络检测自然图像中的文本](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.03605)\n\n* [深度匹配先验网络：迈向更精确的多方向文本检测](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.01425)\n\n\n**网络输出说明：\n输出层分别为：1位分数图，表示该像素是否位于文本框内；2位顶点编码，表示该像素是否属于文本框边界以及是头部还是尾部；4位几何信息，表示边界像素可预测的两个顶点坐标。所有像素共同构成文本框形状，而只有边界像素参与顶点坐标的回归预测。边界像素定义为黄色和绿色框内部的所有像素，通过这些边界像素预测值的加权平均来预测头部或尾部短边两端的两个顶点。头部和尾部的边界像素分别预测2个顶点，最终得到4个顶点坐标。**\n\n[原理简介（含原理图）](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F9a37ea00-755f-11ea-98d3-6d733527e90f\u002Fplay)\n\n**后处理流程说明参见\n[后处理（含原理图）](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F82c8e470-7562-11ea-98d3-6d733527e90f\u002Fplay)**\n\n[A Simple RaspberryPi Car Project](https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002Fraspberrypi-car)","# AdvancedEAST 快速上手指南\n\nAdvancedEAST 是一种基于 EAST 算法改进的场景文本检测工具，特别优化了长文本的检测精度。本项目使用 Keras 编写，易于阅读、运行和训练。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux \u002F Windows \u002F macOS\n*   **Python 版本**: 3.6.3+\n*   **核心依赖**:\n    *   tensorflow-gpu 1.5.0+ (或 tensorflow 1.5.0+)\n    *   keras 2.1.4+\n    *   numpy 1.14.1+\n    *   tqdm 4.19.7+\n\n> **提示**：建议使用 `pip` 安装依赖。国内用户可使用清华源加速安装：\n> ```bash\n> pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple tensorflow-gpu keras numpy tqdm\n> ```\n\n## 安装与数据准备\n\n1.  **克隆项目代码**\n    ```bash\n    git clone \u003C项目仓库地址>\n    cd AdvancedEAST\n    ```\n\n2.  **准备训练数据**\n    *   下载数据集（以天池 ICPR 数据集为例）：\n        *   链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1NSyc-cHKV3IwDo6qojIrKA 密码：ye9y\n    *   创建数据根目录（例如 `icpr`），将图片文件和对应的标注 txt 文件放入该目录。\n    *   数据格式详情参考：[ICPR MTWI 2018 挑战赛二](https:\u002F\u002Ftianchi.aliyun.com\u002Fcompetition\u002Fintroduction.htm?spm=5176.100066.0.0.3bcad780oQ9Ce4&raceId=231651)\n\n3.  **配置参数**\n    *   打开 `cfg.py` 文件，根据实际需求修改配置参数（默认值通常可直接使用）。\n\n4.  **数据预处理**\n    执行以下命令将图像调整为多种尺寸（256~736），分别训练可加速收敛：\n    ```bash\n    python preprocess.py\n    ```\n\n5.  **生成标签**\n    ```bash\n    python label.py\n    ```\n\n*(可选) 下载预训练模型用于测试：*\n*   链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1KO7tR_MW767ggmbTjIJpuQ 密码：kpm2\n\n## 基本使用\n\n### 1. 训练模型\n运行主训练脚本开始训练：\n```bash\npython advanced_east.py\n```\n\n### 2. 推理预测\n使用训练好的模型对单张图片进行文本检测。以下命令将对 `demo\u002F001.png` 进行预测：\n\n```bash\npython predict.py -p demo\u002F001.png\n```\n\n**输出说明：**\n程序运行后将生成激活图（展示黄色\u002F绿色边界像素网格）和预测结果图（展示最终文本框）。AdvancedEAST 通过加权平均边界像素的预测值来回归顶点坐标，相比原版 EAST 能更准确地定位长文本的四角顶点。\n\n> **原理深入**：如需了解网络输出细节（Score map, Vertex code, Geo）及后置处理原理，请访问作者博客：\n> *   [原理简介](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F9a37ea00-755f-11ea-98d3-6d733527e90f\u002Fplay)\n> *   [后置处理说明](https:\u002F\u002Fhuoyijie.cn\u002Fblog\u002F82c8e470-7562-11ea-98d3-6d733527e90f\u002Fplay)","某智慧物流团队正在开发一套自动分拣系统，需要从高速传送带拍摄的包裹图像中精准识别并提取长条形的快递面单地址信息。\n\n### 没有 AdvancedEAST 时\n- **长文本检测断裂**：面对横跨画面的长地址行，传统 EAST 算法常因难以预测远端顶点坐标，导致检测框断裂或无法完整覆盖整行文字。\n- **顶点定位偏差大**：算法采用全像素加权平均计算顶点，在长文本场景下误差累积严重，生成的检测框往往歪斜或尺寸不符，切割出的图像包含大量背景噪声。\n- **后续 OCR 识别率低**：由于输入给文字识别引擎的图像区域不精准，导致地址关键信息（如门牌号、街道名）频繁识别错误或漏识。\n- **人工复核成本高**：系统自动化率不足，不得不安排大量人力对识别失败的包裹进行二次人工录入，严重拖慢分拣效率。\n\n### 使用 AdvancedEAST 后\n- **长文本完整捕获**：AdvancedEAST 通过改进的边界像素机制（黄色至绿色网格），能精准回归长文本两端的顶点，确保整行地址被一个完整的检测框囊括。\n- **几何定位高精度**：利用边界像素的加权平均策略替代全图计算，显著提升了四边形顶点的拟合度，即使面对倾斜或超长的面单也能输出规整的检测框。\n- **OCR 识别准确率跃升**：提供给识别引擎的图像裁剪区干净且完整，使得长地址串的字符识别准确率大幅提升，减少了因截断导致的乱码。\n- **全流程自动化落地**：极高的检测精度让系统无需人工干预即可处理绝大多数复杂面单，显著降低了运营成本并提升了包裹吞吐速度。\n\nAdvancedEAST 通过解决长文本顶点预测难题，将场景文字检测从“大概框选”升级为“精准定位”，成为高难度工业视觉落地的关键引擎。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhuoyijie_AdvancedEAST_9973d832.png","huoyijie","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fhuoyijie_f2bf30c1.png","Senior Programmer & AI炼丹师","Loading...","Shanghai, China","yijie.huo@foxmail.com",null,"https:\u002F\u002Fhuoyijie.cn","https:\u002F\u002Fgithub.com\u002Fhuoyijie",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,1227,379,"2026-04-11T12:03:52","MIT",4,"未说明","需要 NVIDIA GPU (基于 tensorflow-gpu 1.5.0+)，具体型号和显存大小未说明",{"notes":94,"python":95,"dependencies":96},"该项目基于较旧的 TensorFlow 1.x 和 Keras 2.1.4 版本。训练前需准备 ICPR MTWI 2018 数据集，并运行 preprocess.py 将图像调整为多种分辨率（如 256x256 至 736x736）以加速训练。提供有预训练模型供测试使用。","3.6.3+",[97,98,99,100],"tensorflow-gpu>=1.5.0","keras>=2.1.4","numpy>=1.14.1","tqdm>=4.19.7",[15,14],[103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119],"scene","text-detect","east","keras","tensorflow","python","deep-learning","machine-learning","computer-vision","tianchi","tian-chi","icpr","advancedeast","advancedeast-network-arch","text-predictions","algorithm","bellow","2026-03-27T02:49:30.150509","2026-04-13T13:58:26.970239",[123,128,133,138,143,148,152],{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},31599,"Label 标签中后四位 geo 数据的具体含义是什么？为什么要计算这些距离？","在 AdvancedEAST 的标签制作中，gt[i, j, 3:7] 存储的是当前像素点 [px, py] 到文本框长边上两个顶点（side vertices）的相对坐标偏移量。具体来说：\n1. gt[i, j, 3:5] 表示当前点到长边第一个顶点的向量差 (x1-px, y1-py)。\n2. gt[i, j, 5:7] 表示当前点到长边第二个顶点的向量差 (x2-px, y2-py)。\n计算这些距离（偏移量）是为了让网络回归出文本框的四个角点坐标，从而构建四边形检测框，而不仅仅是矩形框。这有助于处理场景文本中常见的倾斜和多方向情况。","https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002FAdvancedEAST\u002Fissues\u002F69",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},31600,"检测结果出现“有头无尾”、“无头无尾”或相邻文本行粘连分不开的情况，如何解决？","这是训练不充分或阈值设置不当的常见现象。解决方案包括：\n1. **调整阈值**：在预测阶段，尝试调整像素置信度阈值（pixel threshold）和侧边顶点阈值（side threshold），降低阈值可能找回丢失的头尾部分。\n2. **增加边界语义**：参考 ECCV 相关论文（如\"Accurate Scene Text Detection through Border Semantics Awareness...\"），在标注时给文本框四周加上额外的 boundary（边界），并在模型输出中对应增加边界预测通道，这能有效分离相邻行。\n3. **检查训练收敛**：确认验证集损失（val_loss）是否已充分收敛，如果未收敛需继续训练或调整学习率。\n4. **数据集增强**：确保训练数据包含足够的多样本，特别是针对容易粘连的密集文本场景。","https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002FAdvancedEAST\u002Fissues\u002F51",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},31601,"加载预训练权重时报错\"ValueError: You are trying to load a weight file containing X layers into a model with Y layers\"，怎么办？","该错误通常是因为代码中的网络结构与预训练权重文件的层数不匹配（例如作者更新了网络结构但权重文件未更新，或本地代码被修改）。\n解决方法：\n1. **使用 by_name=True**：在加载权重时添加 `by_name=True` 参数，只加载名称匹配的层：`east_network.load_weights(weights_path, by_name=True)`。\n2. **同步代码与权重**：确保使用的代码版本与下载的权重文件版本一致。如果作者修复了 bug 导致层数变化，需要重新下载最新的权重文件或回退代码到旧版本。\n3. **重新训练**：如果结构差异过大，建议使用现有权重初始化（如果可能）或直接从头开始在自己的数据集上训练。","https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002FAdvancedEAST\u002Fissues\u002F24",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},31602,"运行代码时遇到\"ImportError: cannot import name 'abs'\"错误，是什么原因？","这通常是由于 TensorFlow 或 Keras 版本不兼容导致的。在某些新版本中，API 发生了变化或移动。\n解决方法：\n1. **检查版本**：确保安装的 TensorFlow 和 Keras 版本与项目要求的环境一致（通常 AdvancedEAST 基于较旧的 TF 1.x 版本）。\n2. **修复导入**：如果是代码问题，检查是否错误地从某个模块导入了 `abs`，Python 内置的 `abs` 不需要从库导入。如果是库内部错误，可能需要降级 TensorFlow 版本。\n3. **获取最新修复**：查看作者是否已上传修复了网络 Bug 的新模型文件或代码补丁，有时作者会因修复此类兼容性问题的而更新仓库。","https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002FAdvancedEAST\u002Fissues\u002F18",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},31603,"自己训练模型后，predict 检测不出任何文本框，可能是什么原因？","如果训练完成但无法检测到任何框，主要原因及排查步骤如下：\n1. **检查 Loss 收敛**：查看训练过程中的 `val_loss` 是否下降并收敛。如果 Loss 很高或不下降，说明模型未学会特征，需检查数据预处理（preprocess）和标签制作（label）是否正确。\n2. **阈值过高**：预测时的置信度阈值设置得太高，过滤掉了所有结果。尝试大幅降低阈值进行测试。\n3. **数据预处理一致性**：确保预测时的图片预处理流程（如归一化、尺寸缩放）与训练时完全一致。\n4. **标签格式错误**：检查生成的训练标签是否符合模型输入要求，错误的标签会导致模型学到错误映射。","https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002FAdvancedEAST\u002Fissues\u002F46",{"id":149,"question_zh":150,"answer_zh":151,"source_url":127},31604,"如何理解损失函数中的 side_vertex_code_loss 及其计算方式？","AdvancedEAST 的损失函数主要由三部分组成：\n1. **文本分类损失**：预测像素是否为文本（第 1 通道），使用交叉熵损失。\n2. **侧边顶点分类损失**：预测像素是否为文本框的侧边顶点（第 2、3 通道），同样使用交叉熵损失。公式 `tf.reduce_sum(tf.reduce_sum(pos + neg, axis=-1) * positive_weights) \u002F ...` 意在计算正负样本的加权交叉熵，用于判断哪些像素点是构成四边形角点的关键点。\n3. **几何回归损失**：预测四个顶点的相对坐标偏移量（第 4-7 通道），使用 Smooth L1 Loss。\n如果要修改网络以回归更多点（如上下边界点），通常只需修改标签制作部分（Label generation）以包含新点的坐标，并调整输出通道数，损失函数的基本形式（分类用交叉熵，回归用 Smooth L1）通常无需大幅改动，只需对应增加计算项。",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},31605,"在哪里可以找到 AdvancedEAST 的详细原理介绍和代码注释？","作者提供了详细的博客文章来解释算法原理和实现细节。可以参考以下资源：\n1. **原理简介**：访问作者的个人博客页面，搜索\"AdvancedEAST 文本检测原理简介\"，其中详细讲解了从 EAST 到 AdvancedEAST 的改进点、网络结构及标签生成逻辑。\n2. **代码阅读**：对于具体的代码实现疑问，建议结合博客中的流程图阅读 `label.py` 和 `network.py`。如果遇到长文本检测受限（感受野问题）或单字符检测问题，博客中也有针对性的讨论和解决思路（如通过收缩机制恢复等）。","https:\u002F\u002Fgithub.com\u002Fhuoyijie\u002FAdvancedEAST\u002Fissues\u002F5",[]]