[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-argman--EAST":3,"similar-argman--EAST":104},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":15,"owner_company":15,"owner_location":15,"owner_email":17,"owner_twitter":15,"owner_website":15,"owner_url":18,"languages":19,"stars":42,"forks":43,"last_commit_at":44,"license":45,"difficulty_score":46,"env_os":47,"env_gpu":48,"env_ram":49,"env_deps":50,"category_tags":56,"github_topics":59,"view_count":64,"oss_zip_url":15,"oss_zip_packed_at":15,"status":65,"created_at":66,"updated_at":67,"faqs":68,"releases":103},6446,"argman\u002FEAST","EAST","A tensorflow implementation of EAST text detector","EAST 是一款基于 TensorFlow 实现的高效场景文本检测开源工具，专为从复杂背景图像中精准定位文字区域而设计。它有效解决了传统方法在多角度、多尺度自然场景下检测速度慢或精度不足的痛点，能够快速识别并框选出图片中的文本内容（RBOX 模式）。\n\n该工具特别适合计算机视觉开发者、OCR 研究人员以及需要集成文本检测功能的工程师使用。其核心技术亮点在于采用了 ResNet-50 作为骨干网络，并结合 Dice Loss 优化分割效果，显著提升了检测准确率；同时，项目集成了作者提供的 C++ 版局部感知非极大值抑制（NMS）算法，大幅降低了后处理耗时。在 GTX 1080 Ti 显卡上，EAST 处理 720p 图像的帧率可达约 16 FPS，相比早期实现速度提升近十倍。此外，它在仅使用 ICDAR 2013 和 2015 训练数据的情况下，便在权威挑战赛中取得了 80.83 的 F1 分数，展现了卓越的泛化能力。无论是用于学术研究验证，还是构建实际的文档分析、街景识别应用，EAST 都是一个兼具速度与精度的可靠选择。","# EAST: An Efficient and Accurate Scene Text Detector\n\n### Introduction\nThis is a tensorflow re-implementation of [EAST: An Efficient and Accurate Scene Text Detector](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2).\nThe features are summarized blow:\n+ Online demo\n\t+ http:\u002F\u002Feast.zxytim.com\u002F\n\t+ Result example: http:\u002F\u002Feast.zxytim.com\u002F?r=48e5020a-7b7f-11e7-b776-f23c91e0703e\n\t+ CAVEAT: There's only one cpu core on the demo server. Simultaneous access will degrade response time.\n+ Only **RBOX** part is implemented.\n+ A fast Locality-Aware NMS in C++ provided by the paper's author.\n+ The pre-trained model provided achieves **80.83** F1-score on ICDAR 2015\n\tIncidental Scene Text Detection Challenge using only training images from ICDAR 2015 and 2013.\n  see [here](http:\u002F\u002Frrc.cvc.uab.es\u002F?ch=4&com=evaluation&view=method_samples&task=1&m=29855&gtv=1) for the detailed results.\n+ Differences from original paper\n\t+ Use ResNet-50 rather than PVANET\n\t+ Use dice loss (optimize IoU of segmentation) rather than balanced cross entropy\n\t+ Use linear learning rate decay rather than staged learning rate decay\n+ Speed on 720p (resolution of 1280x720) images:\n\t+ Now\n\t\t+ Graphic card: GTX 1080 Ti\n\t\t+ Network fprop: **~50 ms**\n\t\t+ NMS (C++): **~6ms**\n\t\t+ Overall: **~16 fps**\n\t+ Then\n\t\t+ Graphic card: K40\n\t\t+ Network fprop: ~150 ms\n\t\t+ NMS (python): ~300ms\n\t\t+ Overall: ~2 fps\n\nThanks for the author's ([@zxytim](https:\u002F\u002Fgithub.com\u002Fzxytim)) help!\nPlease cite his [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2) if you find this useful.\n\n### Contents\n1. [Installation](#installation)\n2. [Download](#download)\n2. [Demo](#demo)\n3. [Test](#train)\n4. [Train](#test)\n5. [Examples](#examples)\n\n### Installation\n1. Any version of tensorflow version > 1.0 should be ok.\n\n### Download\n1. Models trained on ICDAR 2013 (training set) + ICDAR 2015 (training set): [BaiduYun link](http:\u002F\u002Fpan.baidu.com\u002Fs\u002F1jHWDrYQ) [GoogleDrive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B3APw5BZJ67ETHNPaU9xUkVoV0U)\n2. Resnet V1 50 provided by tensorflow slim: [slim resnet v1 50](http:\u002F\u002Fdownload.tensorflow.org\u002Fmodels\u002Fresnet_v1_50_2016_08_28.tar.gz)\n\n### Train\nIf you want to train the model, you should provide the dataset path, in the dataset path, a separate gt text file should be provided for each image\nand run\n\n```\npython multigpu_train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=14 --checkpoint_path=\u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F \\\n--text_scale=512 --training_data_path=\u002Fdata\u002Focr\u002Ficdar2015\u002F --geometry=RBOX --learning_rate=0.0001 --num_readers=24 \\\n--pretrained_model_path=\u002Ftmp\u002Fresnet_v1_50.ckpt\n```\n\nIf you have more than one gpu, you can pass gpu ids to gpu_list(like --gpu_list=0,1,2,3)\n\n**Note: you should change the gt text file of icdar2015's filename to img_\\*.txt instead of gt_img_\\*.txt(or you can change the code in icdar.py), and some extra characters should be removed from the file.\nSee the examples in training_samples\u002F**\n\n### Demo\nIf you've downloaded the pre-trained model, you can setup a demo server by\n```\npython3 run_demo_server.py --checkpoint-path \u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F\n```\nThen open http:\u002F\u002Flocalhost:8769 for the web demo. Notice that the URL will change after you submitted an image.\nSomething like `?r=49647854-7ac2-11e7-8bb7-80000210fe80` appends and that makes the URL persistent.\nAs long as you are not deleting data in `static\u002Fresults`, you can share your results to your friends using\nthe same URL.\n\nURL for example below: http:\u002F\u002Feast.zxytim.com\u002F?r=48e5020a-7b7f-11e7-b776-f23c91e0703e\n![web-demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_3dcb4c355439.png)\n\n\n### Test\nrun\n```\npython eval.py --test_data_path=\u002Ftmp\u002Fimages\u002F --gpu_list=0 --checkpoint_path=\u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F \\\n--output_dir=\u002Ftmp\u002F\n```\n\na text file will be then written to the output path.\n\n\n### Examples\nHere are some test examples on icdar2015, enjoy the beautiful text boxes!\n![image_1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_e0a4f1e4b8af.jpg)\n![image_2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_3a6a33b053bb.jpg)\n![image_3](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_07a1e8313678.jpg)\n![image_4](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_a593dfe02a8d.jpg)\n![image_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_77371fe73853.jpg)\n\n### Troubleshooting\n+ How to compile lanms on Windows ?\n  + See https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F120\n\nPlease let me know if you encounter any issues(my email boostczc@gmail dot com).\n","# EAST：一种高效且准确的场景文本检测器\n\n### 简介\n这是对 [EAST: An Efficient and Accurate Scene Text Detector](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2) 的 TensorFlow 重新实现。\n其特点总结如下：\n+ 在线演示\n\t+ http:\u002F\u002Feast.zxytim.com\u002F\n\t+ 结果示例：http:\u002F\u002Feast.zxytim.com\u002F?r=48e5020a-7b7f-11e7-b776-f23c91e0703e\n\t+ 注意事项：演示服务器仅有一颗 CPU 核心。同时访问会降低响应速度。\n+ 只实现了 **RBOX** 部分。\n+ 论文作者提供的 C++ 实现的快速局部感知 NMS。\n+ 提供的预训练模型在 ICDAR 2015 Incidental Scene Text Detection Challenge 数据集上达到了 **80.83** 的 F1 分数，仅使用了 ICDAR 2015 和 2013 的训练图像。\n详细结果请参见 [这里](http:\u002F\u002Frrc.cvc.uab.es\u002F?ch=4&com=evaluation&view=method_samples&task=1&m=29855&gtv=1)。\n+ 与原论文的不同之处\n\t+ 使用 ResNet-50 而不是 PVANET\n\t+ 使用 Dice 损失（优化分割的 IoU）而不是平衡交叉熵\n\t+ 使用线性学习率衰减而不是分阶段学习率衰减\n+ 在 720p（分辨率为 1280x720）图像上的速度：\n\t+ 目前\n\t\t+ 显卡：GTX 1080 Ti\n\t\t+ 网络前向传播：**~50 ms**\n\t\t+ NMS（C++）：**~6 ms**\n\t\t+ 整体：**~16 fps**\n\t+ 当时\n\t\t+ 显卡：K40\n\t\t+ 网络前向传播：~150 ms\n\t\t+ NMS（Python）：~300 ms\n\t\t+ 整体：~2 fps\n\n感谢作者 ([@zxytim](https:\u002F\u002Fgithub.com\u002Fzxytim)) 的帮助！\n如果您觉得本项目有用，请引用他的 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.03155v2)。\n\n### 目录\n1. [安装](#installation)\n2. [下载](#download)\n2. [演示](#demo)\n3. [测试](#train)\n4. [训练](#test)\n5. [示例](#examples)\n\n### 安装\n1. 任何版本的 TensorFlow（> 1.0）均可。\n\n### 下载\n1. 在 ICDAR 2013（训练集）+ ICDAR 2015（训练集）上训练的模型：[百度网盘链接](http:\u002F\u002Fpan.baidu.com\u002Fs\u002F1jHWDrYQ) [GoogleDrive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=0B3APw5BZJ67ETHNPaU9xUkVoV0U)\n2. TensorFlow Slim 提供的 ResNet V1 50：[slim resnet v1 50](http:\u002F\u002Fdownload.tensorflow.org\u002Fmodels\u002Fresnet_v1_50_2016_08_28.tar.gz)\n\n### 训练\n如果您想训练模型，需要提供数据集路径，并且在数据集路径中为每张图片单独提供一个 GT 文本文件，然后运行：\n\n```\npython multigpu_train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=14 --checkpoint_path=\u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F \\\n--text_scale=512 --training_data_path=\u002Fdata\u002Focr\u002Ficdar2015\u002F --geometry=RBOX --learning_rate=0.0001 --num_readers=24 \\\n--pretrained_model_path=\u002Ftmp\u002Fresnet_v1_50.ckpt\n```\n\n如果您有多块 GPU，可以将 GPU ID 传递给 gpu_list（例如 --gpu_list=0,1,2,3）。\n\n**注意：您需要将 ICDAR 2015 数据集中的 GT 文本文件名从 gt_img_\\*.txt 改为 img_\\*.txt（或者修改 icdar.py 中的代码），并且还需要从文件中移除一些多余的字符。\n请参考 training_samples 中的示例。**\n\n### 演示\n如果您已经下载了预训练模型，可以通过以下命令搭建演示服务器：\n\n```\npython3 run_demo_server.py --checkpoint-path \u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F\n```\n\n然后打开 http:\u002F\u002Flocalhost:8769 即可访问网页演示。请注意，提交图片后 URL 会发生变化，\n例如 `?r=49647854-7ac2-11e7-8bb7-80000210fe80` 会被追加到 URL 后面，从而使该 URL 具有持久性。\n只要您不删除 `static\u002Fresults` 中的数据，就可以使用相同的 URL 将结果分享给朋友。\n\n示例 URL 如下：http:\u002F\u002Feast.zxytim.com\u002F?r=48e5020a-7b7f-11e7-b776-f23c91e0703e\n![web-demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_3dcb4c355439.png)\n\n\n### 测试\n运行以下命令：\n\n```\npython eval.py --test_data_path=\u002Ftmp\u002Fimages\u002F --gpu_list=0 --checkpoint_path=\u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F \\\n--output_dir=\u002Ftmp\u002F\n```\n\n随后会在输出路径中生成一个文本文件。\n\n### 示例\n以下是一些 ICDAR 2015 上的测试示例，欣赏这些漂亮的文本框吧！\n![image_1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_e0a4f1e4b8af.jpg)\n![image_2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_3a6a33b053bb.jpg)\n![image_3](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_07a1e8313678.jpg)\n![image_4](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_a593dfe02a8d.jpg)\n![image_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_readme_77371fe73853.jpg)\n\n### 故障排除\n+ 如何在 Windows 上编译 lanms？\n  + 请参阅 https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F120\n\n如果您遇到任何问题，请随时联系我（邮箱：boostczc@gmail.com）。","# EAST 场景文本检测快速上手指南\n\nEAST (Efficient and Accurate Scene Text Detector) 是一个高效且准确的场景文本检测工具。本指南基于 TensorFlow 复现版本，仅实现了 **RBOX**（旋转框）部分，在 ICDAR 2015 数据集上 F1-score 达到 80.83。\n\n## 环境准备\n\n*   **操作系统**: Linux 或 Windows (Windows 编译 lanms 需参考额外说明)\n*   **Python**: 推荐 Python 3.x\n*   **深度学习框架**: TensorFlow > 1.0\n*   **硬件要求**:\n    *   推荐使用 NVIDIA GPU (如 GTX 1080 Ti)，单张 720p 图片检测耗时约 60ms (含 NMS)。\n    *   若使用 CPU，响应速度会显著下降。\n*   **依赖库**:\n    *   `tensorflow`\n    *   `numpy`\n    *   `Pillow`\n    *   `opencv-python` (可选，用于图像处理)\n    *   C++ 编译器 (用于编译局部感知 NMS `lanms`)\n\n## 安装步骤\n\n1.  **安装 Python 依赖**\n    ```bash\n    pip install tensorflow numpy Pillow opencv-python\n    ```\n\n2.  **下载预训练模型**\n    本项目提供基于 ICDAR 2013 + 2015 训练集的预训练模型。国内用户推荐使用百度网盘下载：\n    *   **EAST 预训练模型**: [百度网盘下载](http:\u002F\u002Fpan.baidu.com\u002Fs\u002F1jHWDrYQ)\n    *   **ResNet-50 骨干网络** (TensorFlow Slim 提供): [Google Drive](http:\u002F\u002Fdownload.tensorflow.org\u002Fmodels\u002Fresnet_v1_50_2016_08_28.tar.gz) (如无加速条件可尝试其他镜像)\n\n    下载后请解压，并记录模型路径（例如 `\u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F`）。\n\n3.  **编译 C++ NMS 模块 (关键步骤)**\n    EAST 使用了作者提供的快速 C++ 版 Locality-Aware NMS。进入项目根目录，通常执行以下命令编译（具体取决于项目内的 `makefile` 或编译脚本）：\n    ```bash\n    cd lanms\n    make\n    ```\n    *注意：Windows 用户若编译失败，请参考项目 Issue #120 获取特定解决方案。*\n\n## 基本使用\n\n### 1. 启动 Web 演示服务 (推荐)\n这是最简单的体验方式，启动后可在浏览器中上传图片进行测试。\n\n```bash\npython3 run_demo_server.py --checkpoint-path \u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F\n```\n\n*   启动成功后，打开浏览器访问：`http:\u002F\u002Flocalhost:8769`\n*   上传图片后，URL 会变为类似 `http:\u002F\u002Flocalhost:8769\u002F?r=xxxx-xxxx...` 的形式，该链接可持久化分享检测结果（只要不删除 `static\u002Fresults` 下的数据）。\n\n### 2. 命令行单张图片\u002F目录测试\n如果你希望直接生成结果文件而不使用 Web 界面：\n\n```bash\npython eval.py --test_data_path=\u002Ftmp\u002Fimages\u002F --gpu_list=0 --checkpoint_path=\u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F --output_dir=\u002Ftmp\u002F\n```\n\n*   `--test_data_path`: 待检测图片或文件夹路径。\n*   `--gpu_list`: 指定使用的 GPU ID，多卡可设为 `0,1,2,3`。\n*   `--output_dir`: 检测结果（文本坐标文件）的输出路径。\n\n### 3. 模型训练 (可选)\n若需使用自定义数据训练，请确保数据集目录下每张图对应一个 gt 文本文件（文件名格式需为 `img_*.txt`，而非 `gt_img_*.txt`，且需去除多余字符）。\n\n```bash\npython multigpu_train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=14 --checkpoint_path=\u002Ftmp\u002Feast_icdar2015_resnet_v1_50_rbox\u002F --text_scale=512 --training_data_path=\u002Fdata\u002Focr\u002Ficdar2015\u002F --geometry=RBOX --learning_rate=0.0001 --num_readers=24 --pretrained_model_path=\u002Ftmp\u002Fresnet_v1_50.ckpt\n```","某跨境电商运营团队需要每日从数千张社交媒体宣传图中提取商品名称和促销价格，以构建实时竞品数据库。\n\n### 没有 EAST 时\n- **人工成本高昂**：面对自然场景下倾斜、弯曲或模糊的文字，团队成员不得不手动截图并录入数据，每人每天仅能处理几十张图片。\n- **传统算法失效**：使用传统的 OpenCV 轮廓检测无法应对复杂背景干扰，导致在光照不均或文字密集的图片中漏检率极高。\n- **处理速度缓慢**：原有基于 Python 实现的非极大值抑制（NMS）后处理耗时过长，单张高清图片分析需数秒，无法支撑实时业务需求。\n- **数据格式混乱**：缺乏统一的旋转框定位能力，难以精准裁剪出倾斜排列的文本区域，后续 OCR 识别准确率大打折扣。\n\n### 使用 EAST 后\n- **自动化高效提取**：EAST 能够端到端地直接预测旋转文本框（RBOX），自动锁定图中任意角度的文字，将单人日处理量提升至数千张。\n- **复杂场景鲁棒性强**：凭借在 ICDAR 数据集上训练的深度学习模型，EAST 在背景杂乱、字体多变的场景中仍保持 80% 以上的 F1 评分，大幅降低漏检。\n- **实时推理性能卓越**：结合 C++ 加速的局部感知 NMS 算法，在 GTX 1080 Ti 显卡上单张 720p 图片全流程仅需约 60 毫秒，实现每秒 16 帧的实时检测。\n- **精准几何定位**：输出的四边形坐标完美贴合倾斜文本，为后续 OCR 引擎提供了高质量的裁剪输入，使整体文字识别准确率显著提升。\n\nEAST 通过高精度的场景文本检测与毫秒级的推理速度，将原本依赖人力的非标图像数据处理转变为全自动化的实时智能流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fargman_EAST_3dcb4c35.png","argman",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fargman_371e5c38.png","boostczc@gmail.com","https:\u002F\u002Fgithub.com\u002Fargman",[20,24,28,32,36,39],{"name":21,"color":22,"percentage":23},"C++","#f34b7d",86.2,{"name":25,"color":26,"percentage":27},"Python","#3572A5",12.9,{"name":29,"color":30,"percentage":31},"HTML","#e34c26",0.7,{"name":33,"color":34,"percentage":35},"Makefile","#427819",0,{"name":37,"color":38,"percentage":35},"Shell","#89e051",{"name":40,"color":41,"percentage":35},"CSS","#663399",3061,1045,"2026-04-02T08:35:47","GPL-3.0",3,"Linux, macOS, Windows","需要 NVIDIA GPU（非必需但推荐），文中测试使用了 GTX 1080 Ti 和 K40；未明确说明显存大小和 CUDA 版本要求","未说明",{"notes":51,"python":52,"dependencies":53},"该项目是 EAST 算法的 TensorFlow 复现版。核心依赖为 TensorFlow 1.0 以上版本。包含一个由 C++ 编写的高速 NMS 模块，在 Windows 系统上需要额外编译步骤（参考 GitHub issue #120）。训练时需准备特定的数据集格式（修改 ICDAR2015 的标注文件名及内容）。预训练模型在 ICDAR 2015 数据集上 F1-score 达到 80.83。","3.x (文中演示命令使用 python3，且需兼容 TensorFlow > 1.0)",[54,55],"tensorflow>1.0","C++ compiler (用于编译 Locality-Aware NMS)",[57,58],"开发框架","图像",[60,61,62,63],"tensorflow","text-detection","deep-learning","ocr",2,"ready","2026-03-27T02:49:30.150509","2026-04-11T08:11:30.504335",[69,74,79,84,89,94,99],{"id":70,"question_zh":71,"answer_zh":72,"source_url":73},29173,"如何在 Windows 上成功编译 lanms 模块？","在 Windows 上编译需要遵循以下步骤：\n1. 确保环境为 Windows 10、Python 3.6 (Anaconda) 和 Visual Studio 2015 Update 3 或更高版本。\n2. 打开命令行，确保使用的是 X64 编译器 (cl.exe)。\n3. 进入 lanms 目录，执行编译命令：\n   cl adaptor.cpp .\u002Finclude\u002Fclipper\u002Fclipper.cpp \u002FI .\u002Finclude \u002FI \"C:\\ProgramData\\Anaconda3\\include\" \u002FLD \u002FFe:adaptor.pyd \u002Flink\u002FLIBPATH:\"C:\\ProgramData\\Anaconda3\\libs\"\n   (注意将路径替换为你实际的 Anaconda 安装路径)\n4. 编译成功后，打开 __init__.py 文件，注释掉第 7 行和第 8 行代码。\n5. 此时即可正常导入 lanms。\n\n如果在编译过程中遇到 pybind11 相关的错误（如 _frame 未定义），建议直接安装修复版包：pip install lanms-neo。","https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F120",{"id":75,"question_zh":76,"answer_zh":77,"source_url":78},29174,"运行 eval.py 时出现 'undefined symbol: PyInstanceMethod_Type' 错误怎么办？","该错误通常是由于 TensorFlow 版本与 Python 版本不兼容导致的。特别是当使用 tensorflow_gpu-1.1.0 等较旧版本时容易出现此问题。建议检查并升级 TensorFlow 到与当前 Python 环境匹配的较新版本，或者重新编译 lanms 模块以适配当前的 Python 环境。","https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F14",{"id":80,"question_zh":81,"answer_zh":82,"source_url":83},29175,"如何将训练好的 checkpoint 模型导出为冻结的 .pb 图形文件用于推理？","导出冻结图形的步骤如下：\n1. 确定输入节点（通常为 'input_images'）和输出节点（如 'feature_fusion\u002FConv_7\u002FSigmoid' 和 'feature_fusion\u002Fconcat_3'）。\n2. 使用 TensorFlow 的工具脚本将变量转换为常量操作。\n3. 加载冻结图的示例代码如下：\n   import tensorflow as tf\n   def load_graph(frozen_graph_filename):\n       with tf.gfile.GFile(frozen_graph_filename, \"rb\") as f:\n           graph_def = tf.GraphDef()\n           graph_def.ParseFromString(f.read())\n       with tf.Graph().as_default() as graph:\n           tf.import_graph_def(graph_def)\n       return graph\n\n注意：如果直接使用某些方法导出的图效果不佳，请确认是否在训练中使用了 ExponentialMovingAverage (EMA)，如果是，导出时需指定恢复 EMA 权重。","https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F85",{"id":85,"question_zh":86,"answer_zh":87,"source_url":88},29176,"使用冻结的 .pb 文件进行推理的结果与原始 .ckpt 模型不一致怎么办？","结果不一致通常是因为冻结图形时未正确加载移动平均（ExponentialMovingAverage, EMA）的权重。在训练过程中，模型往往使用 EMA 来平滑参数以提升泛化能力。在导出冻结图时，必须显式地指定使用 EMA 变量替换普通变量，否则推理性能会下降。请检查冻结脚本中是否包含了恢复 EMA 权重的逻辑。","https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F225",{"id":90,"question_zh":91,"answer_zh":92,"source_url":93},29177,"PVANet 作为骨干网络训练时出现严重过拟合如何解决？","使用 PVANet 作为骨干网络时，为了获得与 ResNet 相当的效果并防止过拟合，必须在 ImageNet 数据集上进行预训练。仅使用小规模数据集（如 ICDAR）从头训练 PVANet 极易导致过拟合（例如训练集 IoU 下降而验证集 IoU 居高不下）。确保先隔离骨干网络在 ImageNet 子集上进行充分的预训练，然后再微调文本检测任务。","https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F43",{"id":95,"question_zh":96,"answer_zh":97,"source_url":98},29178,"程序运行卡在 sleep(0.01) 处不动是什么原因？","这个问题通常是由 numpy 版本差异引起的。在旧版本代码中可能使用了不兼容的三角函数计算方式。解决方法是更新代码库到最新版本，新版代码已将相关计算改为使用 np.arctan2，从而修复了该卡顿问题。","https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST\u002Fissues\u002F2",{"id":100,"question_zh":101,"answer_zh":102,"source_url":78},29179,"运行测试后找不到输出的图片结果在哪里？","如果运行测试后没有找到输出图片，请检查输出路径参数。代码实际使用的参数名是 output_dir 而不是 README 文档中写的 output_path。如果未指定该参数，结果默认会保存在 \u002Ftmp\u002Fch4_test_images\u002Fimages\u002F 目录下。请尝试在该默认路径下查找结果，或在运行命令时显式指定 --output_dir 参数。",[],[105,115,123,132,140,149],{"id":106,"name":107,"github_repo":108,"description_zh":109,"stars":110,"difficulty_score":46,"last_commit_at":111,"category_tags":112,"status":65},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[113,57,58,114],"Agent","数据工具",{"id":116,"name":117,"github_repo":118,"description_zh":119,"stars":120,"difficulty_score":46,"last_commit_at":121,"category_tags":122,"status":65},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[57,58,113],{"id":124,"name":125,"github_repo":126,"description_zh":127,"stars":128,"difficulty_score":64,"last_commit_at":129,"category_tags":130,"status":65},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150037,"2026-04-10T23:33:47",[57,113,131],"语言模型",{"id":133,"name":134,"github_repo":135,"description_zh":136,"stars":137,"difficulty_score":64,"last_commit_at":138,"category_tags":139,"status":65},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[57,58,113],{"id":141,"name":142,"github_repo":143,"description_zh":144,"stars":145,"difficulty_score":64,"last_commit_at":146,"category_tags":147,"status":65},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[148,113,58,57],"插件",{"id":150,"name":151,"github_repo":152,"description_zh":153,"stars":154,"difficulty_score":64,"last_commit_at":155,"category_tags":156,"status":65},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[148,57]]