[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Franck-Dernoncourt--NeuroNER":3,"tool-Franck-Dernoncourt--NeuroNER":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",156033,2,"2026-04-14T23:32:00",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":10,"env_os":97,"env_gpu":98,"env_ram":99,"env_deps":100,"category_tags":108,"github_topics":109,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":116,"updated_at":117,"faqs":118,"releases":148},7645,"Franck-Dernoncourt\u002FNeuroNER","NeuroNER","Named-entity recognition using neural networks. Easy-to-use and state-of-the-art results.","NeuroNER 是一款基于神经网络的命名实体识别（NER）开源工具，旨在从非结构化文本中精准提取人名、地名、机构名等关键信息。它有效解决了传统方法在复杂语境下识别准确率不足的问题，能够轻松处理医疗记录、新闻文章等多种领域的文本数据，并输出达到业界领先水平的识别结果。\n\n这款工具特别适合自然语言处理领域的研究人员、算法工程师以及需要构建文本分析应用的开发者使用。无论是进行学术研究、模型训练，还是快速部署生产环境中的实体抽取任务，NeuroNER 都提供了灵活且高效的解决方案。\n\n其技术亮点在于深度集成了 TensorFlow 框架，支持 CPU 与 GPU 加速运行，确保训练与推理的高效性。同时，它内置了对 CoNLL-2003、i2b2 及 MIMIC 等经典数据集的支持，允许用户一键加载预训练模型或自定义数据集。此外，NeuroNER 还可选集成 BRAT 标注工具，方便用户直观地创建标注或可视化预测结果，配合 TensorBoard 更能实时监控模型训练状态，极大地降低了高性能 NER 系统的使用门槛。","# NeuroNER\n\n[![Build Status](https:\u002F\u002Ftravis-ci.org\u002FFranck-Dernoncourt\u002FNeuroNER.svg?branch=master)](https:\u002F\u002Ftravis-ci.org\u002FFranck-Dernoncourt\u002FNeuroNER)\n\nNeuroNER is a program that performs named-entity recognition (NER). Website: [neuroner.com](http:\u002F\u002Fneuroner.com).\n\nThis page gives step-by-step instructions to install and use NeuroNER.\n\n\n## Table of Contents\n\n\u003C!-- toc -->\n\n- [Requirements](#requirements)\n- [Installation](#installation)\n- [Using NeuroNER](#using-neuroner)\n  * [Adding a new dataset](#adding-a-new-dataset)\n  * [Using a pretrained model](#using-a-pretrained-model)\n  * [Sharing a pretrained model](#sharing-a-pretrained-model)\n  * [Using TensorBoard](#using-tensorboard)\n- [Citation](#citation)\n\n\u003C!-- tocstop -->\n\n## Requirements\n\nNeuroNER relies on Python 3, TensorFlow 1.0+, and optionally on BRAT:\n\n- Python 3: NeuroNER does not work with Python 2.x. On Windows, it has to be Python 3.6 64-bit or later.\n- TensorFlow is a library for machine learning. NeuroNER uses it for its NER engine, which is based on neural networks. Official website: [https:\u002F\u002Fwww.tensorflow.org](https:\u002F\u002Fwww.tensorflow.org)\n- BRAT (optional) is a web-based annotation tool. It only needs to be installed if you wish to conveniently create annotations or view the predictions made by NeuroNER. Official website: [http:\u002F\u002Fbrat.nlplab.org](http:\u002F\u002Fbrat.nlplab.org)\n\n## Installation\n\nFor GPU support, [GPU requirements for Tensorflow](https:\u002F\u002Fwww.tensorflow.org\u002Finstall\u002F) must be satisfied. If your system does not meet these requirements, you should use the CPU version. To install neuroner:\n\n```\n# For CPU support (no GPU support):\npip3 install pyneuroner[cpu]\n\n# For GPU support:\npip3 install pyneuroner[gpu]\n```\n\nYou will also need to download some support packages.\n\n1. The English language module for Spacy:\n\n```\n# Download the SpaCy English module\npython -m spacy download en\n```\n\n2. Download word embeddings from http:\u002F\u002Fneuroner.com\u002Fdata\u002Fword_vectors\u002Fglove.6B.100d.zip, unzip them to the folder `.\u002Fdata\u002Fword_vectors`\n\n```\n# Get word embeddings\nwget -P data\u002Fword_vectors http:\u002F\u002Fneuroner.com\u002Fdata\u002Fword_vectors\u002Fglove.6B.100d.zip\nunzip data\u002Fword_vectors\u002Fglove.6B.100d.zip -d data\u002Fword_vectors\u002F\n```\n\n3. Load sample datasets. These can be loaded by calling the `neuromodel.fetch_data()` function from a Python interpreter or with the `--fetch_data` argument at the command line.\n\n```\n# Load a dataset from the command line\nneuroner --fetch_data=conll2003\nneuroner --fetch_data=example_unannotated_texts\nneuroner --fetch_data=i2b2_2014_deid\n```\n\n```\n# Load a dataset from a Python interpreter\nfrom neuroner import neuromodel\nneuromodel.fetch_data('conll2003')\nneuromodel.fetch_data('example_unannotated_texts')\nneuromodel.fetch_data('i2b2_2014_deid')\n```\n\n4. Load a pretrained model. The models can be loaded by calling the `neuromodel.fetch_model()` function from a Python interpreter or with the `--fetch_trained_models` argument at the command line.\n\n```\n# Load a pre-trained model from the command line\nneuroner --fetch_trained_model=conll_2003_en\nneuroner --fetch_trained_model=i2b2_2014_glove_spacy_bioes\nneuroner --fetch_trained_model=i2b2_2014_glove_stanford_bioes\nneuroner --fetch_trained_model=mimic_glove_spacy_bioes\nneuroner --fetch_trained_model=mimic_glove_stanford_bioes\n```\n\n```\n# Load a pre-trained model from a Python interpreter\nfrom neuroner import neuromodel\nneuromodel.fetch_model('conll_2003_en')\nneuromodel.fetch_model('i2b2_2014_glove_spacy_bioes')\nneuromodel.fetch_model('i2b2_2014_glove_stanford_bioes')\nneuromodel.fetch_model('mimic_glove_spacy_bioes')\nneuromodel.fetch_model('mimic_glove_stanford_bioes')\n```\n\n### Installing BRAT (optional) \n\nBRAT is a tool that can be used to create, change or view the BRAT-style annotations. For installation and usage instructions, see the [BRAT website](http:\u002F\u002Fbrat.nlplab.org\u002Finstallation.html).\n\n### Installing Perl (platform dependent)\n\nPerl is required because the official CoNLL-2003 evaluation script is written in this language: http:\u002F\u002Fstrawberryperl.com. For Unix and Mac OSX systems, Perl should already be installed. For Windows systems, you may need to install it.\n\n## Using NeuroNER\n\nNeuroNER can either be run from the command line or from a Python interpreter.\n\n### Using NeuroNer from a Python interpreter\n\nTo use NeuroNER from the command line, create an instance of the neuromodel with your desired arguments, and then call the relevant methods. Additional parameters can be set from a `parameters.ini` file in the working directory. For example:\n\n```\nfrom neuroner import neuromodel\nnn = neuromodel.NeuroNER(train_model=False, use_pretrained_model=True)\n```\n\nMore detail to follow.\n\n### Using NeuroNer from the command line\n\nBy default NeuroNER is configured to train and test on the CoNLL-2003 dataset. Running neuroner with the default settings starts training on the CoNLL-2003 dataset (the F1-score on the test set should be around 0.90, i.e. on par with state-of-the-art systems). To start the training:\n\n```\n# To use the CPU if you have installed tensorflow, or use the GPU if you have installed tensorflow-gpu:\nneuroner\n\n# To use the CPU only if you have installed tensorflow-gpu:\nCUDA_VISIBLE_DEVICES=\"\" neuroner\n\n# To use the GPU 1 only if you have installed tensorflow-gpu:\nCUDA_VISIBLE_DEVICES=1 neuroner\n```\n\nIf you wish to change any of NeuroNER parameters, you can modify the [`parameters.ini`](parameters.ini) configuration file in your working directory or specify it as an argument.\n\nFor example, to reduce the number of training epochs and not use any pre-trained token embeddings:\n\n```\nneuroner --maximum_number_of_epochs=2 --token_pretrained_embedding_filepath=\"\"\n```\n\nTo perform NER on some plain texts using a pre-trained model:\n\n```\nneuroner --train_model=False --use_pretrained_model=True --dataset_text_folder=.\u002Fdata\u002Fexample_unannotated_texts --pretrained_model_folder=.\u002Ftrained_models\u002Fconll_2003_en\n```\n\nIf a parameter is specified in both the [`parameters.ini`](parameters.ini) configuration file and as an argument, then the argument takes precedence (i.e., the parameter in [`parameters.ini`](parameters.ini) is ignored). You may specify a different configuration file with the `--parameters_filepath` command line argument. The command line arguments have no default value except for `--parameters_filepath`, which points to [`parameters.ini`](parameters.ini).\n\nNeuroNER has 3 modes of operation:\n\n- training mode (from scratch): the dataset folder must have train and valid sets. Test and deployment sets are optional.\n- training mode (from pretrained model): the dataset folder must have train and valid sets. Test and deployment sets are optional.\n- prediction mode (using pretrained model): the dataset folder must have either a test set or a deployment set.\n\n### Adding a new dataset\n\nA dataset may be provided in either CoNLL-2003 or BRAT format. The dataset files and folders should be organized and named as follows:\n\n- Training set: `train.txt` file (CoNLL-2003 format) or `train` folder (BRAT format). It must contain labels.\n- Validation set: `valid.txt` file (CoNLL-2003 format) or `valid` folder (BRAT format). It must contain labels.\n- Test set: `test.txt` file (CoNLL-2003 format) or `test` folder (BRAT format). It must contain labels.\n- Deployment set: `deploy.txt` file (CoNLL-2003 format) or `deploy` folder (BRAT format). It shouldn't contain any label (if it does, labels are ignored).\n\nWe provide several examples of datasets:\n\n- [`data\u002Fconll2003\u002Fen`](data\u002Fconll2003\u002Fen): annotated dataset with the CoNLL-2003 format, containing 3 files (`train.txt`, `valid.txt` and  `test.txt`).\n- [`data\u002Fexample_unannotated_texts`](data\u002Fexample_unannotated_texts): unannotated dataset with the BRAT format, containing 1 folder (`deploy\u002F`). Note that the BRAT format with no annotation is the same as plain texts.\n\n### Using a pretrained model\n\nIn order to use a pretrained model, the `pretrained_model_folder` parameter in the [`parameters.ini`](parameters.ini) configuration file must be set to the folder containing the pretrained model. The following parameters in the [`parameters.ini`](parameters.ini) configuration file must also be set to the same values as in the configuration file located in the specified `pretrained_model_folder`:\n\n```\nuse_character_lstm\ncharacter_embedding_dimension\ncharacter_lstm_hidden_state_dimension\ntoken_pretrained_embedding_filepath\ntoken_embedding_dimension\ntoken_lstm_hidden_state_dimension\nuse_crf\ntagging_format\ntokenizer\n```\n\n### Sharing a pretrained model\n\nYou are highly encouraged to share a model trained on their own datasets, so that other users can use the pretrained model on other datasets. We provide the [`neuroner\u002Fprepare_pretrained_model.py`](neuroner\u002Fprepare_pretrained_model.py) script to make it easy to prepare a pretrained model for sharing. In order to use the script, one only needs to specify the `output_folder_name`, `epoch_number`, and `model_name` parameters in the script.\n\nBy default, the only information about the dataset contained in the pretrained model is the list of tokens that appears in the dataset used for training and the corresponding embeddings learned from the dataset.\n\nIf you wish to share a pretrained model without providing any information about the dataset (including the list of tokens appearing in the dataset), you can do so by setting\n\n```delete_token_mappings = True```\n\nwhen running the script. In this case, it is highly recommended to use some external pre-trained token embeddings and freeze them while training the model to obtain high performance. This can be done by specifying the `token_pretrained_embedding_filepath` and setting\n\n```freeze_token_embeddings = True```\n\nin the [`parameters.ini`](parameters.ini) configuration file during training.\n\nIn order to share a pretrained model, please [submit a new issue](https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fissues\u002Fnew) on the GitHub repository.\n\n### Using TensorBoard\n\nYou may launch TensorBoard during or after the training phase. To do so, run in the terminal from the NeuroNER folder:\n```\ntensorboard --logdir=output\n```\n\nThis starts a web server that is accessible at http:\u002F\u002F127.0.0.1:6006 from your web browser.\n\n## Citation\n\nIf you use NeuroNER in your publications, please cite this [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.05487):\n\n```\n@article{2017neuroner,\n  title={{NeuroNER}: an easy-to-use program for named-entity recognition based on neural networks},\n  author={Dernoncourt, Franck and Lee, Ji Young and Szolovits, Peter},\n  journal={Conference on Empirical Methods on Natural Language Processing (EMNLP)},\n  year={2017}\n}\n```\n\nThe neural network architecture used in NeuroNER is described in this [article](https:\u002F\u002Farxiv.org\u002Fabs\u002F1606.03475):\n\n```\n@article{2016deidentification,\n  title={De-identification of Patient Notes with Recurrent Neural Networks},\n  author={Dernoncourt, Franck and Lee, Ji Young and Uzuner, Ozlem and Szolovits, Peter},\n  journal={Journal of the American Medical Informatics Association (JAMIA)},\n  year={2016}\n}\n```\n","# NeuroNER\n\n[![构建状态](https:\u002F\u002Ftravis-ci.org\u002FFranck-Dernoncourt\u002FNeuroNER.svg?branch=master)](https:\u002F\u002Ftravis-ci.org\u002FFranck-Dernoncourt\u002FNeuroNER)\n\nNeuroNER 是一款用于命名实体识别（NER）的程序。官网：[neuroner.com](http:\u002F\u002Fneuroner.com)。\n\n本页面提供了安装和使用 NeuroNER 的逐步指南。\n\n\n## 目录\n\n\u003C!-- toc -->\n\n- [要求](#requirements)\n- [安装](#installation)\n- [使用 NeuroNER](#using-neuroner)\n  * [添加新数据集](#adding-a-new-dataset)\n  * [使用预训练模型](#using-a-pretrained-model)\n  * [分享预训练模型](#sharing-a-pretrained-model)\n  * [使用 TensorBoard](#using-tensorboard)\n- [引用](#citation)\n\n\u003C!-- tocstop -->\n\n## 要求\n\nNeuroNER 依赖于 Python 3、TensorFlow 1.0+，以及可选的 BRAT：\n\n- Python 3：NeuroNER 不支持 Python 2.x。在 Windows 系统上，必须使用 Python 3.6 64 位或更高版本。\n- TensorFlow 是一个机器学习库。NeuroNER 使用它来构建基于神经网络的 NER 引擎。官方网站：[https:\u002F\u002Fwww.tensorflow.org](https:\u002F\u002Fwww.tensorflow.org)\n- BRAT（可选）是一个基于 Web 的标注工具。只有当你希望方便地创建标注或查看 NeuroNER 的预测结果时，才需要安装它。官方网站：[http:\u002F\u002Fbrat.nlplab.org](http:\u002F\u002Fbrat.nlplab.org)\n\n## 安装\n\n若要支持 GPU，必须满足 [TensorFlow 的 GPU 要求](https:\u002F\u002Fwww.tensorflow.org\u002Finstall\u002F)。如果您的系统不满足这些要求，则应使用 CPU 版本。安装 neuroner 的命令如下：\n\n```\n# 仅支持 CPU（不支持 GPU）：\npip3 install pyneuroner[cpu]\n\n# 支持 GPU：\npip3 install pyneuroner[gpu]\n```\n\n此外，您还需要下载一些支持包。\n\n1. SpaCy 的英语语言模块：\n\n```\n# 下载 SpaCy 英语模块\npython -m spacy download en\n```\n\n2. 从 http:\u002F\u002Fneuroner.com\u002Fdata\u002Fword_vectors\u002Fglove.6B.100d.zip 下载词嵌入，并将其解压到 `.\u002Fdata\u002Fword_vectors` 文件夹中：\n\n```\n# 获取词嵌入\nwget -P data\u002Fword_vectors http:\u002F\u002Fneuroner.com\u002Fdata\u002Fword_vectors\u002Fglove.6B.100d.zip\nunzip data\u002Fword_vectors\u002Fglove.6B.100d.zip -d data\u002Fword_vectors\u002F\n```\n\n3. 加载示例数据集。可以通过在 Python 解释器中调用 `neuromodel.fetch_data()` 函数，或在命令行中使用 `--fetch_data` 参数来加载这些数据集。\n\n```\n# 从命令行加载数据集\nneuroner --fetch_data=conll2003\nneuroner --fetch_data=example_unannotated_texts\nneuroner --fetch_data=i2b2_2014_deid\n```\n\n```\n# 从 Python 解释器加载数据集\nfrom neuroner import neuromodel\nneuromodel.fetch_data('conll2003')\nneuromodel.fetch_data('example_unannotated_texts')\nneuromodel.fetch_data('i2b2_2014_deid')\n```\n\n4. 加载预训练模型。可以通过在 Python 解释器中调用 `neuromodel.fetch_model()` 函数，或在命令行中使用 `--fetch_trained_models` 参数来加载这些模型。\n\n```\n# 从命令行加载预训练模型\nneuroner --fetch_trained_model=conll_2003_en\nneuroner --fetch_trained_model=i2b2_2014_glove_spacy_bioes\nneuroner --fetch_trained_model=i2b2_2014_glove_stanford_bioes\nneuroner --fetch_trained_model=mimic_glove_spacy_bioes\nneuroner --fetch_trained_model=mimic_glove_stanford_bioes\n```\n\n```\n# 从 Python 解释器加载预训练模型\nfrom neuroner import neuromodel\nneuromodel.fetch_model('conll_2003_en')\nneuromodel.fetch_model('i2b2_2014_glove_spacy_bioes')\nneuromodel.fetch_model('i2b2_2014_glove_stanford_bioes')\nneuromodel.fetch_model('mimic_glove_spacy_bioes')\nneuromodel.fetch_model('mimic_glove_stanford_bioes')\n```\n\n### 安装 BRAT（可选）\n\nBRAT 是一个可用于创建、修改或查看 BRAT 样式标注的工具。有关安装和使用说明，请参阅 [BRAT 官网](http:\u002F\u002Fbrat.nlplab.org\u002Finstallation.html)。\n\n### 安装 Perl（平台相关）\n\nPerl 是必需的，因为官方的 CoNLL-2003 评估脚本是用这种语言编写的：http:\u002F\u002Fstrawberryperl.com。对于 Unix 和 Mac OSX 系统，Perl 应该已经安装。而对于 Windows 系统，可能需要手动安装。\n\n## 使用 NeuroNER\n\nNeuroNER 可以通过命令行或 Python 解释器运行。\n\n### 从 Python 解释器使用 NeuroNER\n\n要从命令行使用 NeuroNER，首先使用所需的参数创建一个 neuromodel 实例，然后调用相关方法。其他参数可以在工作目录中的 `parameters.ini` 文件中设置。例如：\n\n```\nfrom neuroner import neuromodel\nnn = neuromodel.NeuroNER(train_model=False, use_pretrained_model=True)\n```\n\n更多详细信息将在后续提供。\n\n### 从命令行使用 NeuroNER\n\n默认情况下，NeuroNER 配置为在 CoNLL-2003 数据集上进行训练和测试。使用默认设置运行 neuroner 将开始在 CoNLL-2003 数据集上进行训练（测试集上的 F1 分数应在 0.90 左右，与当前最先进的系统相当）。要开始训练：\n\n```\n# 如果已安装 tensorflow，则使用 CPU；如果已安装 tensorflow-gpu，则使用 GPU：\nneuroner\n\n# 如果已安装 tensorflow-gpu，但只想使用 CPU：\nCUDA_VISIBLE_DEVICES=\"\" neuroner\n\n# 如果已安装 tensorflow-gpu，但只想使用 GPU 1：\nCUDA_VISIBLE_DEVICES=1 neuroner\n```\n\n如果您想更改 NeuroNER 的任何参数，可以修改工作目录中的 [`parameters.ini`](parameters.ini) 配置文件，或者直接在命令行中指定。\n\n例如，要减少训练轮数且不使用任何预训练的词嵌入：\n\n```\nneuroner --maximum_number_of_epochs=2 --token_pretrained_embedding_filepath=\"\"\n```\n\n要使用预训练模型对一些纯文本进行 NER：\n\n```\nneuroner --train_model=False --use_pretrained_model=True --dataset_text_folder=.\u002Fdata\u002Fexample_unannotated_texts --pretrained_model_folder=.\u002Ftrained_models\u002Fconll_2003_en\n```\n\n如果某个参数同时在 [`parameters.ini`](parameters.ini) 配置文件和命令行中指定，则命令行参数优先（即，`parameters.ini` 中的参数将被忽略）。您可以使用 `--parameters_filepath` 命令行参数指定不同的配置文件。除了指向 [`parameters.ini`](parameters.ini) 的 `--parameters_filepath` 外，其他命令行参数均无默认值。\n\nNeuroNER 有三种运行模式：\n\n- 训练模式（从零开始）：数据集文件夹必须包含训练集和验证集。测试集和部署集是可选的。\n- 训练模式（从预训练模型开始）：数据集文件夹必须包含训练集和验证集。测试集和部署集是可选的。\n- 预测模式（使用预训练模型）：数据集文件夹必须包含测试集或部署集。\n\n### 添加新的数据集\n\n数据集可以采用 CoNLL-2003 格式或 BRAT 格式。数据集文件和文件夹应按以下方式组织和命名：\n\n- 训练集：`train.txt` 文件（CoNLL-2003 格式）或 `train` 文件夹（BRAT 格式）。必须包含标注。\n- 验证集：`valid.txt` 文件（CoNLL-2003 格式）或 `valid` 文件夹（BRAT 格式）。必须包含标注。\n- 测试集：`test.txt` 文件（CoNLL-2003 格式）或 `test` 文件夹（BRAT 格式）。必须包含标注。\n- 部署集：`deploy.txt` 文件（CoNLL-2003 格式）或 `deploy` 文件夹（BRAT 格式）。不应包含任何标注（如果有标注，则会被忽略）。\n\n我们提供了几个数据集示例：\n\n- [`data\u002Fconll2003\u002Fen`](data\u002Fconll2003\u002Fen)：采用 CoNLL-2003 格式的标注数据集，包含 3 个文件（`train.txt`、`valid.txt` 和 `test.txt`）。\n- [`data\u002Fexample_unannotated_texts`](data\u002Fexample_unannotated_texts)：采用 BRAT 格式的未标注数据集，包含 1 个文件夹（`deploy\u002F`）。请注意，不包含标注的 BRAT 格式等同于纯文本。\n\n### 使用预训练模型\n\n要使用预训练模型，必须在配置文件 [`parameters.ini`](parameters.ini) 中将 `pretrained_model_folder` 参数设置为包含预训练模型的文件夹。此外，还需将 [`parameters.ini`](parameters.ini) 中的以下参数设置为与指定 `pretrained_model_folder` 中配置文件相同的值：\n\n```\nuse_character_lstm\ncharacter_embedding_dimension\ncharacter_lstm_hidden_state_dimension\ntoken_pretrained_embedding_filepath\ntoken_embedding_dimension\ntoken_lstm_hidden_state_dimension\nuse_crf\ntagging_format\ntokenizer\n```\n\n### 分享预训练模型\n\n我们强烈鼓励用户分享在其自有数据集上训练的模型，以便其他用户可以在自己的数据集上使用这些预训练模型。为此，我们提供了脚本 [`neuroner\u002Fprepare_pretrained_model.py`](neuroner\u002Fprepare_pretrained_model.py)，以方便准备用于共享的预训练模型。使用该脚本时，只需在脚本中指定 `output_folder_name`、`epoch_number` 和 `model_name` 参数即可。\n\n默认情况下，预训练模型中仅包含有关数据集的信息，即训练数据集中出现的词汇表及其对应的嵌入向量。\n\n如果您希望在不提供任何数据集相关信息（包括数据集中出现的词汇表）的情况下分享预训练模型，可以在运行脚本时设置\n\n```delete_token_mappings = True```\n\n在这种情况下，强烈建议使用一些外部预训练的词嵌入，并在训练过程中将其冻结，以获得较高的性能。这可以通过在训练期间的配置文件 [`parameters.ini`](parameters.ini) 中指定 `token_pretrained_embedding_filepath` 并设置\n\n```freeze_token_embeddings = True```\n\n来实现。\n\n如需分享预训练模型，请在 GitHub 仓库中 [提交一个新的 issue](https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fissues\u002Fnew)。\n\n### 使用 TensorBoard\n\n您可以在训练阶段或训练结束后启动 TensorBoard。为此，在 NeuroNER 文件夹下打开终端并运行：\n\n```\ntensorboard --logdir=output\n```\n\n这将启动一个 Web 服务器，您可以通过浏览器访问 http:\u002F\u002F127.0.0.1:6006。\n\n## 引用\n\n如果您在论文或其他出版物中使用 NeuroNER，请引用以下论文：\n\n```\n@article{2017neuroner,\n  title={{NeuroNER}: an easy-to-use program for named-entity recognition based on neural networks},\n  author={Dernoncourt, Franck and Lee, Ji Young and Szolovits, Peter},\n  journal={Conference on Empirical Methods on Natural Language Processing (EMNLP)},\n  year={2017}\n}\n```\n\nNeuroNER 中使用的神经网络架构在以下文章中有所描述：\n\n```\n@article{2016deidentification,\n  title={De-identification of Patient Notes with Recurrent Neural Networks},\n  author={Dernoncourt, Franck and Lee, Ji Young and Uzuner, Ozlem and Szolovits, Peter},\n  journal={Journal of the American Medical Informatics Association (JAMIA)},\n  year={2016}\n}\n```","# NeuroNER 快速上手指南\n\nNeuroNER 是一个基于神经网络的命名实体识别（NER）工具，支持自定义数据集训练和使用预训练模型进行预测。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Windows (需 64 位)、Linux 或 macOS。\n*   **Python 版本**：必须使用 **Python 3** (Windows 用户推荐 Python 3.6 64 位或更高版本)，不支持 Python 2.x。\n*   **深度学习框架**：TensorFlow 1.0+。\n    *   若需 GPU 加速，请确保已安装 CUDA 并满足 [TensorFlow GPU 要求](https:\u002F\u002Fwww.tensorflow.org\u002Finstall\u002F)。\n    *   若无 GPU，可使用 CPU 版本。\n*   **其他依赖**：\n    *   **Perl**：用于运行 CoNLL-2003 评估脚本。Unix\u002FmacOS 通常自带，Windows 用户需安装 (如 [Strawberry Perl](http:\u002F\u002Fstrawberryperl.com))。\n    *   **BRAT** (可选)：仅当您需要标注数据或可视化预测结果时才需安装。\n\n## 安装步骤\n\n### 1. 安装 NeuroNER 包\n\n根据您的硬件环境选择以下命令之一：\n\n```bash\n# CPU 版本 (无 GPU 支持)\npip3 install pyneuroner[cpu]\n\n# GPU 版本 (需预先配置好 CUDA 环境)\npip3 install pyneuroner[gpu]\n```\n\n> **提示**：国内用户如遇下载缓慢，可添加国内镜像源，例如：`pip3 install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple pyneuroner[gpu]`\n\n### 2. 下载语言模块与词向量\n\n安装完成后，需下载 Spacy 英文模块和 GloVe 词向量文件：\n\n```bash\n# 下载 Spacy 英文模块\npython -m spacy download en\n\n# 下载并解压词向量 (GloVe 6B 100d)\nwget -P data\u002Fword_vectors http:\u002F\u002Fneuroner.com\u002Fdata\u002Fword_vectors\u002Fglove.6B.100d.zip\nunzip data\u002Fword_vectors\u002Fglove.6B.100d.zip -d data\u002Fword_vectors\u002F\n```\n\n### 3. 获取示例数据与预训练模型\n\n您可以直接通过命令行或 Python 代码拉取官方提供的示例数据集和预训练模型。\n\n**方式一：命令行拉取**\n\n```bash\n# 拉取示例数据集\nneuroner --fetch_data=conll2003\nneuroner --fetch_data=example_unannotated_texts\nneuroner --fetch_data=i2b2_2014_deid\n\n# 拉取预训练模型\nneuroner --fetch_trained_model=conll_2003_en\nneuroner --fetch_trained_model=i2b2_2014_glove_spacy_bioes\n```\n\n**方式二：Python 代码拉取**\n\n```python\nfrom neuroner import neuromodel\n\n# 拉取数据\nneuromodel.fetch_data('conll2003')\nneuromodel.fetch_data('example_unannotated_texts')\n\n# 拉取模型\nneuromodel.fetch_model('conll_2003_en')\nneuromodel.fetch_model('i2b2_2014_glove_spacy_bioes')\n```\n\n## 基本使用\n\nNeuroNER 支持命令行和 Python 脚本两种调用方式。\n\n### 场景一：使用预训练模型进行预测\n\n如果您已有训练好的模型，可直接对未标注的文本进行实体识别。\n\n**命令行模式：**\n\n```bash\nneuroner --train_model=False --use_pretrained_model=True --dataset_text_folder=.\u002Fdata\u002Fexample_unannotated_texts --pretrained_model_folder=.\u002Ftrained_models\u002Fconll_2003_en\n```\n\n**Python 模式：**\n\n```python\nfrom neuroner import neuromodel\n\n# 初始化模型：不训练，使用预训练模型\nnn = neuromodel.NeuroNER(train_model=False, use_pretrained_model=True)\n# 后续可调用相关方法进行预测（具体方法请参考详细文档）\n```\n\n### 场景二：从头开始训练模型\n\n默认情况下，NeuroNER 会使用 CoNLL-2003 数据集进行训练和测试。\n\n**启动训练（自动检测 CPU\u002FGPU）：**\n\n```bash\nneuroner\n```\n\n**指定设备运行：**\n\n```bash\n# 强制使用 CPU (即使安装了 tensorflow-gpu)\nCUDA_VISIBLE_DEVICES=\"\" neuroner\n\n# 强制使用特定 GPU (例如 GPU 1)\nCUDA_VISIBLE_DEVICES=1 neuroner\n```\n\n**自定义参数训练：**\n您可以通过修改工作目录下的 `parameters.ini` 文件或直接在命令行传递参数来调整训练配置。命令行参数优先级高于配置文件。\n\n```bash\n# 示例：仅训练 2 个 epoch，且不使用预训练词向量\nneuroner --maximum_number_of_epochs=2 --token_pretrained_embedding_filepath=\"\"\n```\n\n### 监控训练过程 (可选)\n\n在训练期间或结束后，可以使用 TensorBoard 可视化训练指标：\n\n```bash\ntensorboard --logdir=output\n```\n启动后在浏览器访问 `http:\u002F\u002F127.0.0.1:6006` 即可查看。","某医疗科技公司的数据团队正致力于从海量电子病历（如 MIMIC-III 数据库）中自动提取患者隐私信息（如姓名、日期、医院编号），以构建符合脱敏标准的科研数据集。\n\n### 没有 NeuroNER 时\n- 依赖人工逐条阅读病历进行标注，处理数万份文档耗时数周，人力成本极高且难以规模化。\n- 使用传统正则表达式匹配特定格式，无法识别上下文相关的实体（如将“无发热”误判为症状），导致漏检率高。\n- 缺乏统一的神经网络评估框架，不同成员开发的脚本效果参差不齐，难以复现业界领先的准确率。\n- 模型训练环境配置复杂，需手动整合词向量（Word Embeddings）与标注工具，新手上手门槛极高。\n\n### 使用 NeuroNER 后\n- 直接调用预训练的 `mimic_glove_spacy_bioes` 模型，几分钟内即可完成万级病历的自动化实体识别与脱敏。\n- 基于深度神经网络理解语义上下文，精准区分否定句中的医学术语，显著提升了命名实体识别（NER）的召回率与精确度。\n- 内置 CoNLL-2003 等标准评估脚本及 TensorBoard 可视化支持，团队可快速量化模型性能并迭代优化。\n- 通过简单的 `pip` 命令一键部署 CPU\u002FGPU 版本，并自动下载 GloVe 词向量与 Spacy 语言模块，大幅缩短环境搭建时间。\n\nNeuroNER 将原本繁琐的医疗文本结构化工作转化为高效的自动化流程，让研发团队能专注于高价值的医学数据分析而非基础清洗。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFranck-Dernoncourt_NeuroNER_2784c6fd.png","Franck-Dernoncourt","Franck Dernoncourt","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FFranck-Dernoncourt_6b644e34.jpg",null,"franck.dernoncourt@gmail.com","FranckDernoncou","http:\u002F\u002Fwww.francky.me","https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt",[81,85,89],{"name":82,"color":83,"percentage":84},"Python","#3572A5",92.8,{"name":86,"color":87,"percentage":88},"Perl","#0298c3",7.1,{"name":90,"color":91,"percentage":92},"Shell","#89e051",0.2,1722,473,"2026-04-10T02:31:56","MIT","Linux, macOS, Windows","非必需。若使用 GPU，需满足 TensorFlow 官方列出的要求（通常指 NVIDIA GPU 及对应的 CUDA\u002FcuDNN 版本），具体型号和显存未说明；若无 GPU 可使用 CPU 版本。","未说明",{"notes":101,"python":102,"dependencies":103},"1. Windows 用户必须安装 64 位 Python 3.6 或更高版本。2. 若使用 GPU 加速，需单独安装满足 TensorFlow 要求的 CUDA 环境，否则请安装 CPU 版本包 (pyneuroner[cpu])。3. 首次运行前需手动下载 GloVe 词向量文件并解压至指定目录。4. 需安装 Perl 以运行官方的 CoNLL-2003 评估脚本（Unix\u002FMac 通常自带，Windows 需额外安装如 Strawberry Perl）。5. BRAT 为可选组件，仅在进行数据标注或可视化预测结果时需要。","3.6+ (Windows 必须为 64 位 Python 3.6 或更高，不支持 Python 2.x)",[104,105,106,107],"TensorFlow>=1.0","Spacy (需下载 en 模块)","BRAT (可选，用于标注)","Perl (用于 CoNLL-2003 评估脚本)",[14,35],[110,111,112,113,114,115],"nlp","machine-learning","neural-networks","named-entity-recognition","deep-learning","tensorflow","2026-03-27T02:49:30.150509","2026-04-15T11:22:02.680371",[119,124,129,134,139,144],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},34258,"如何添加新的实体类型（例如自定义医疗实体）并训练模型？","如果您使用 BRAT 格式数据，请确保将 train.txt 和 train.ann 文件放在同一文件夹中，并在 parameters.ini 中指向该文件夹。如果遇到 TensorFlow 版本兼容性问题（如 Precision\u002FRecall 为 0%），请在 main.py 开头添加以下代码以兼容 TFv1：\nimport tensorflow.compat.v1 as tf\ntf.disable_v2_behavior()\n此外，如果项目已停止维护或遇到难以解决的错误，建议考虑使用 SpaCy 等更现代的工具来训练自定义 NER 模型。SpaCy 示例代码包括加载空白模型、创建 NER 管道、定义自定义标签（如 \"PATIENT_NAME\"）并导入 CoNLL 格式数据进行训练。","https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fissues\u002F73",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},34259,"运行时报错 'AttributeError: module 'distutils' has no attribute 'util'' 如何解决？","该错误通常与 Python 环境缺少 distutils 模块或版本不兼容有关。部分用户反馈安装 python3-distutils 后问题解决。如果问题依然存在，请检查是否因移除相关包导致。另外，有用户建议在 parameters.ini 文件中添加或确认存在以下配置行来规避相关参数缺失引发的错误：\noutput_scores = False\n如果上述方法无效，鉴于该项目可能已过时，建议迁移到其他活跃的 NER 项目。","https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fissues\u002F87",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},34260,"如何使用 BRAT 格式的自定义标注数据集进行训练？","要将 BRAT 格式（.txt 和 .ann 文件）数据集用于 NeuroNER，需将这些文件放入指定文件夹，并在 parameters.ini 的 dataset_text_folder 参数中指向该路径。系统会自动尝试将 BRAT 转换为 CoNLL 格式。如果遇到转换错误（如 'Formatting train set from BRAT to CONLL...' 报错），请检查 Standoff 格式标注是否正确（参考 brat.nlplab.org\u002Fstandoff.html）。注意：早期版本可能无法正确处理某些关系标注，后续更新已增加忽略关系的功能。若问题持续，建议检查数据集是否为标准 BioNLP 格式或尝试使用其他支持更好的工具。","https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fissues\u002F49",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},34261,"运行预训练模型时出现配置错误或属性错误怎么办？","首先检查 parameters.ini 配置文件中的模式设置：\n- 若使用预训练模型进行预测，需设置 train_model = False 和 use_pretrained_model = True。\n- 确保 pretrained_model_folder 指向包含 model.ckpt, dataset.pickle 和 parameters.ini 的正确文件夹。\n- 确认 dataset_text_folder 路径正确且包含所需数据集。\n若遇到 'sess' 属性错误，很可能是 TensorFlow 版本不兼容（项目基于 TFv1），请尝试在代码中禁用 TFv2 行为。如果配置无误但仍报错，可能是项目依赖过时，建议查看是否有更新的修复补丁或考虑替代方案。","https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fissues\u002F75",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},34262,"该项目的开源许可证是什么？可以使用吗？","项目维护者已回应并解决了许可证缺失的问题。在此之前，没有明确许可证意味着技术上不可合法使用（即使是学术研究）。目前代码已变为可复用状态，具体许可证条款请查看项目根目录下的 LICENSE 文件。感谢维护者 @Franck-Dernoncourt 和 @tompollard 对此长期问题的解决。","https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fissues\u002F15",{"id":145,"question_zh":146,"answer_zh":147,"source_url":138},34263,"为什么添加了 output_scores = False 仍然报错？","即使 parameters.ini 中已经设置了 output_scores = False，某些情况下仍可能因代码逻辑未正确处理该参数缺失的情况而报错。维护者曾承诺将在代码中添加修复以防止此类错误抛出。如果当前版本尚未包含该修复，且您已确认配置无误，这可能是项目的一个已知 Bug。建议检查是否有最新的代码提交修复了此问题，或者手动修改源代码以强制处理该参数默认值。若无法解决，考虑到项目维护状态，寻找替代库可能是更高效的选择。",[149],{"id":150,"version":151,"summary_zh":152,"released_at":153},264130,"1.0-dev2","变更：详见 https:\u002F\u002Fgithub.com\u002FFranck-Dernoncourt\u002FNeuroNER\u002Fpull\u002F130","2019-03-13T20:28:15"]