[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-chatopera--insuranceqa-corpus-zh":3,"tool-chatopera--insuranceqa-corpus-zh":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",158594,2,"2026-04-16T23:34:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":77,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":32,"env_os":94,"env_gpu":95,"env_ram":95,"env_deps":96,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":155},8219,"chatopera\u002Finsuranceqa-corpus-zh","insuranceqa-corpus-zh",":helicopter: 保险行业语料库，聊天机器人","insuranceqa-corpus-zh 是一个专为保险领域打造的高质量中文问答语料库，旨在为智能客服和聊天机器人提供坚实的数据基础。它解决了垂直行业 AI 训练中普遍面临的“缺乏真实场景数据”的痛点，帮助开发者构建更懂保险业务、回答更精准的对话系统。\n\n该数据集源自全球知名的 Insurance Library，收录了上万条由真实用户提问、专业人士解答的高质量问答对，并已完成专业的中文翻译与清洗。其独特之处在于不仅提供原始文本，还精心构建了包含“正例”（正确答案）与“负例”（相关但错误的答案）的结构化数据，非常适合用于训练机器学习模型进行答案排序、阅读理解及语义匹配等任务。\n\n无论是从事自然语言处理的研究人员，还是正在开发保险类智能客服的工程师，都能从中获益。研究者可利用其进行算法验证与论文复现，开发者则能通过简单的 Python 接口快速加载训练集、验证集和测试集，直接对接 TensorFlow 等主流框架进行模型训练。作为 2017 年发布的保险领域首个开放 QA 语料，insuranceqa-corpus-zh 以其真实的业务场景和丰富的数据标注，成为连接通用 AI 技术与保","insuranceqa-corpus-zh 是一个专为保险领域打造的高质量中文问答语料库，旨在为智能客服和聊天机器人提供坚实的数据基础。它解决了垂直行业 AI 训练中普遍面临的“缺乏真实场景数据”的痛点，帮助开发者构建更懂保险业务、回答更精准的对话系统。\n\n该数据集源自全球知名的 Insurance Library，收录了上万条由真实用户提问、专业人士解答的高质量问答对，并已完成专业的中文翻译与清洗。其独特之处在于不仅提供原始文本，还精心构建了包含“正例”（正确答案）与“负例”（相关但错误的答案）的结构化数据，非常适合用于训练机器学习模型进行答案排序、阅读理解及语义匹配等任务。\n\n无论是从事自然语言处理的研究人员，还是正在开发保险类智能客服的工程师，都能从中获益。研究者可利用其进行算法验证与论文复现，开发者则能通过简单的 Python 接口快速加载训练集、验证集和测试集，直接对接 TensorFlow 等主流框架进行模型训练。作为 2017 年发布的保险领域首个开放 QA 语料，insuranceqa-corpus-zh 以其真实的业务场景和丰富的数据标注，成为连接通用 AI 技术与保险专业应用的重要桥梁。","[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Finsuranceqa_data) [![PyPI download month](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Finsuranceqa_data\u002F) [![](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.org\u002Fpypi\u002Finsuranceqa_data\u002F) [![PyPI version shields.io](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Finsuranceqa_data\u002F) [![License](https:\u002F\u002Fcdndownload2.chatopera.com\u002Fcskefu\u002Flicenses\u002Fchunsong1.0.svg)](https:\u002F\u002Fwww.cskefu.com\u002Flicenses\u002Fv1.html \"开源许可协议\") [![](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fformat\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.org\u002Fpypi\u002Finsuranceqa_data\u002F)\n\n# 保险行业语料库\n\n该语料库包含从网站[Insurance Library](http:\u002F\u002Fwww.insurancelibrary.com\u002F) 收集的问题和答案。\n\n据我们所知，本数据集发布之时，2017 年，这是保险领域首个开放的QA语料库：\n\n* 该语料库的内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料，而不是玩具。\n\n* 在上述论文中，语料库用于答复选择任务。 另一方面，这种语料库的其他用法也是可能的。 例如，通过阅读理解答案，观察学习等自主学习，使系统能够最终拿出自己的看不见的问题的答案。\n\n* 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来，未经其他处理的。问答对语料是基于问答语料，又做了分词和去标去停，添加label。所以，\"问答对语料\"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意，可以直接对\"问答语料\"使用其他方法进行处理，获得可以用于训练模型的数据。\n\n## 安装使用\n\n### 1\u002F3 依赖\n\n* Python: 2.x, 3.x\n* Pip\n\n### 2\u002F3 安装脚本包\n\n```\npip install -U insuranceqa_data\n```\n\n### 3\u002F3 安装语料包\n\n进入[证书商店](https:\u002F\u002Fstore.chatopera.com\u002Fproduct\u002Finsqa001)，购买证书，购买后进入【证书-详情】，点击【复制证书标识】。\n\n\n![](https:\u002F\u002Fcdndownload2.chatopera.com\u002Fstore\u002Fimgs\u002Finsqa001-ordering-img.jpg)\n\n\n然后，通过以下两种形式完成下载。\n\n* 方式1：Python 源代码\n\n```python\nimport os\n\n# 设置证书标识，购买自 https:\u002F\u002Fstore.chatopera.com\u002Fproduct\u002Finsqa001\nos.environ[\"INSQA_DL_LICENSE\"] = \"YOUR_LICENSE\" # \n_licenseid = os.environ.get(\"INSQA_DL_LICENSE\", None)\nprint(\"INSQA_DL_LICENSE=%s\" % _licenseid)\n\n# 初次下载数据\nimport insuranceqa_data\ninsuranceqa_data.download_corpus()\n```\n\n将上面 `YOUR_LICENSE` 修改为您的 证书标识！！！然后执行这段 Python 脚本，比如将上述脚本保存为 `download.py`，然后执行：\n\n```bash\npython download.py\n```\n\n\n* 方式2：设置环境变量\n\n设置环境变量 `INSQA_DL_LICENSE`，比如使用命令行终端：\n\n```bash\n# Linux \u002F macOS\nexport INSQA_DL_LICENSE=YOUR_LICENSE\n## e.g. if your license id is `FOOBAR`, run `export INSQA_DL_LICENSE=FOOBAR`\n\n# Windows\n## 1\u002F2 Command Prompt\nset INSQA_DL_LICENSE=YOUR_LICENSE\n## 2\u002F2 PowerShell\n$env:INSQA_DL_LICENSE='YOUR_LICENSE'\n```\n\n最后，执行以下命令，完成数据的下载。\n\n```bash\npython -c \"import insuranceqa_data; insuranceqa_data.download_corpus()\"\n```\n\n\n## 数据格式说明\n\n```python\n# 读取数据测试\ntrain_data = insuranceqa_data.load_pool_train() # 训练集\ntest_data = insuranceqa_data.load_pool_test()   # 测试集\nvalid_data = insuranceqa_data.load_pool_valid() # 验证集\nanswers_data = insuranceqa_data.load_pool_answers()\n\n\n# 打印 训练集 数据；测试集和验证集与 训练集 数据结构一致\nfor x in train_data:                       # 打印数据\n    print('\\n\\nIndex %s \\n question: %s' % \\\n     (x, train_data[x]['zh']))\n    print(\" answer: \")\n    idx = 0\n    for y in train_data[x]['answers']:\n        idx += 1\n        print(\"   %d. %s\" % (idx, answers_data[y][\"zh\"]))\n```\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchatopera_insuranceqa-corpus-zh_readme_63182f301778.png)\n\n数据格式的详细介绍见下。\n\n#### 数据设计\n\n| - | 问题      |  答案  | 词汇（英语）  | \n| ------------- |-------------| ----- |   ----- |           \n| 训练      | 12,889 | 21,325  |    107,889        |\n| 验证      | 2,000     |  3354 |   16,931          |\n| 测试       | 2,000      |    3308 |  16,815            |\n\n每条数据包括问题的中文，英文，答案的正例，答案的负例。案的正例至少1项，基本上在*1-5*条，都是正确答案。答案的负例有*200*条，负例根据问题使用检索的方式建立，所以和问题是相关的，但却不是正确答案。\n\n```\n{\n    \"INDEX\": {\n        \"zh\": \"中文\",\n        \"en\": \"英文\",\n        \"domain\": \"保险种类\",\n        \"answers\": [\"\"] # 答案正例列表\n        \"negatives\": [\"\"] # 答案负例列表\n    },\n    more ...\n}\n```\n\n* 训练：```corpus\u002Fpool\u002Ftrain.json.gz```\n\n* 验证：```corpus\u002Fpool\u002Fvalid.json.gz```\n\n* 测试：```corpus\u002Fpool\u002Ftest.json.gz```\n\n* 答案：```corpus\u002Fpool\u002Fanswers.json```\n一共有 27,413 个回答，数据格式为 ```json```:\n```\n{\n    \"INDEX\": {\n        \"zh\": \"中文\",\n        \"en\": \"英文\"\n    },\n    more ...\n}\n```\n\n## 机器学习项目\n\n可将本语料库和以下开源码配合使用\n\n[deep-qa-1](https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Ftree\u002Frelease\u002Fdeep_qa_1): Baseline model\n\n[InsuranceQA TensorFlow](https:\u002F\u002Fgithub.com\u002Fl11x0m7\u002FInsuranceQA_zh): CNN with TensorFlow\n\n[n-grams-get-started](https:\u002F\u002Fgithub.com\u002FSamurais\u002Fn-grams-get-started): N元模型\n\n[word2vec-get-started](https:\u002F\u002Fgithub.com\u002FSamurais\u002Fword2vec-get-started): 词向量模型\n\n\n## 声明\n\n声明1 : [insuranceqa-corpus-zh](https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh)\n\n本数据集使用翻译 [insuranceQA](https:\u002F\u002Fgithub.com\u002Fshuzi\u002FinsuranceQA)而生成，代码发布证书[Chunsong Public License, version 1.0](https:\u002F\u002Fwww.cskefu.com\u002Flicenses\u002Fv1.html)。数据仅限于研究用途，如果在发布的任何媒体、期刊、杂志或博客等内容时，必须注明引用和地址。\n\n```\nInsuranceQA Corpus, Chatopera Inc., https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh, 07 27, 2017\n```\n\n任何基于[insuranceqa-corpus](https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh)衍生的数据也需要开放并需要声明和“声明1”和“声明2”一致的内容。\n\n声明2 : [insuranceQA](https:\u002F\u002Fgithub.com\u002Fshuzi\u002FinsuranceQA)\n\n此数据集仅作为研究目的提供。如果您使用这些数据发表任何内容，请引用我们的论文：[Applying Deep Learning to Answer Selection: A Study and An Open Task](https:\u002F\u002Farxiv.org\u002Fabs\u002F1508.01585)。Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou @ 2015","[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Finsuranceqa_data) [![PyPI download month](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Finsuranceqa_data\u002F) [![](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.org\u002Fpypi\u002Finsuranceqa_data\u002F) [![PyPI version shields.io](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Finsuranceqa_data\u002F) [![License](https:\u002F\u002Fcdndownload2.chatopera.com\u002Fcskefu\u002Flicenses\u002Fchunsong1.0.svg)](https:\u002F\u002Fwww.cskefu.com\u002Flicenses\u002Fv1.html \"开源许可协议\") [![](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fformat\u002Finsuranceqa_data.svg)](https:\u002F\u002Fpypi.org\u002Fpypi\u002Finsuranceqa_data\u002F)\n\n# 保险行业语料库\n\n该语料库包含从网站[Insurance Library](http:\u002F\u002Fwww.insurancelibrary.com\u002F) 收集的问题和答案。\n\n据我们所知，本数据集发布之时，2017 年，这是保险领域首个开放的QA语料库：\n\n* 该语料库的内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料，而不是玩具。\n\n* 在上述论文中，语料库用于答复选择任务。 另一方面，这种语料库的其他用法也是可能的。 例如，通过阅读理解答案，观察学习等自主学习，使系统能够最终拿出自己的看不见的问题的答案。\n\n* 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来，未经其他处理的。问答对语料是基于问答语料，又做了分词和去标去停，添加label。所以，“问答对语料”可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意，可以直接对“问答语料”使用其他方法进行处理，获得可以用于训练模型的数据。\n\n## 安装使用\n\n### 1\u002F3 依赖\n\n* Python: 2.x, 3.x\n* Pip\n\n### 2\u002F3 安装脚本包\n\n```\npip install -U insuranceqa_data\n```\n\n### 3\u002F3 安装语料包\n\n进入[证书商店](https:\u002F\u002Fstore.chatopera.com\u002Fproduct\u002Finsqa001)，购买证书，购买后进入【证书-详情】，点击【复制证书标识】。\n\n\n![](https:\u002F\u002Fcdndownload2.chatopera.com\u002Fstore\u002Fimgs\u002Finsqa001-ordering-img.jpg)\n\n\n然后，通过以下两种形式完成下载。\n\n* 方式1：Python 源代码\n\n```python\nimport os\n\n# 设置证书标识，购买自 https:\u002F\u002Fstore.chatopera.com\u002Fproduct\u002Finsqa001\nos.environ[\"INSQA_DL_LICENSE\"] = \"YOUR_LICENSE\" # \n_licenseid = os.environ.get(\"INSQA_DL_LICENSE\", None)\nprint(\"INSQA_DL_LICENSE=%s\" % _licenseid)\n\n# 初次下载数据\nimport insuranceqa_data\ninsuranceqa_data.download_corpus()\n```\n\n将上面 `YOUR_LICENSE` 修改为您的 证书标识！！！然后执行这段 Python 脚本，比如将上述脚本保存为 `download.py`，然后执行：\n\n```bash\npython download.py\n```\n\n\n* 方式2：设置环境变量\n\n设置环境变量 `INSQA_DL_LICENSE`，比如使用命令行终端：\n\n```bash\n# Linux \u002F macOS\nexport INSQA_DL_LICENSE=YOUR_LICENSE\n## e.g. if your license id is `FOOBAR`, run `export INSQA_DL_LICENSE=FOOBAR`\n\n# Windows\n## 1\u002F2 Command Prompt\nset INSQA_DL_LICENSE=YOUR_LICENSE\n## 2\u002F2 PowerShell\n$env:INSQA_DL_LICENSE='YOUR_LICENSE'\n```\n\n最后，执行以下命令，完成数据的下载。\n\n```bash\npython -c \"import insuranceqa_data; insuranceqa_data.download_corpus()\"\n```\n\n\n## 数据格式说明\n\n```python\n# 读取数据测试\ntrain_data = insuranceqa_data.load_pool_train() # 训练集\ntest_data = insuranceqa_data.load_pool_test()   # 测试集\nvalid_data = insuranceqa_data.load_pool_valid() # 验证集\nanswers_data = insuranceqa_data.load_pool_answers()\n\n\n# 打印 训练集 数据；测试集和验证集与 训练集 数据结构一致\nfor x in train_data:                       # 打印数据\n    print('\\n\\nIndex %s \\n question: %s' % \\\n     (x, train_data[x]['zh']))\n    print(\" answer: \")\n    idx = 0\n    for y in train_data[x]['answers']:\n        idx += 1\n        print(\"   %d. %s\" % (idx, answers_data[y][\"zh\"]))\n```\n\n![alt text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchatopera_insuranceqa-corpus-zh_readme_63182f301778.png)\n\n数据格式的详细介绍见下。\n\n#### 数据设计\n\n| - | 问题      |  答案  | 词汇（英语）  | \n| ------------- |-------------| ----- |   ----- |           \n| 训练      | 12,889 | 21,325  |    107,889        |\n| 验证      | 2,000     |  3354 |   16,931          |\n| 测试       | 2,000      |    3308 |  16,815            |\n\n每条数据包括问题的中文，英文，答案的正例，答案的负例。案的正例至少1项，基本上在*1-5*条，都是正确答案。答案的负例有*200*条，负例根据问题使用检索的方式建立，所以和问题是相关的，但却不是正确答案。\n\n```\n{\n    \"INDEX\": {\n        \"zh\": \"中文\",\n        \"en\": \"英文\",\n        \"domain\": \"保险种类\",\n        \"answers\": [\"\"] # 答案正例列表\n        \"negatives\": [\"\"] # 答案负例列表\n    },\n    more ...\n}\n```\n\n* 训练：```corpus\u002Fpool\u002Ftrain.json.gz```\n\n* 验证：```corpus\u002Fpool\u002Fvalid.json.gz```\n\n* 测试：```corpus\u002Fpool\u002Ftest.json.gz```\n\n* 答案：```corpus\u002Fpool\u002Fanswers.json```\n一共有 27,413 个回答，数据格式为 ```json```:\n```\n{\n    \"INDEX\": {\n        \"zh\": \"中文\",\n        \"en\": \"英文\"\n    },\n    more ...\n}\n```\n\n## 机器学习项目\n\n可将本语料库和以下开源码配合使用\n\n[deep-qa-1](https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Ftree\u002Frelease\u002Fdeep_qa_1): Baseline model\n\n[InsuranceQA TensorFlow](https:\u002F\u002Fgithub.com\u002Fl11x0m7\u002FInsuranceQA_zh): CNN with TensorFlow\n\n[n-grams-get-started](https:\u002F\u002Fgithub.com\u002FSamurais\u002Fn-grams-get-started): N元模型\n\n[word2vec-get-started](https:\u002F\u002Fgithub.com\u002FSamurais\u002Fword2vec-get-started): 词向量模型\n\n\n## 声明\n\n声明1 : [insuranceqa-corpus-zh](https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh)\n\n本数据集使用翻译 [insuranceQA](https:\u002F\u002Fgithub.com\u002Fshuzi\u002FinsuranceQA)而生成，代码发布证书[Chunsong Public License, version 1.0](https:\u002F\u002Fwww.cskefu.com\u002Flicenses\u002Fv1.html)。数据仅限于研究用途，如果在发布的任何媒体、期刊、杂志或博客等内容时，必须注明引用和地址。\n\n```\nInsuranceQA Corpus, Chatopera Inc., https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh, 07 27, 2017\n```\n\n任何基于[insuranceqa-corpus](https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh)衍生的数据也需要开放并需要声明和“声明1”和“声明2”一致的内容。\n\n声明2 : [insuranceQA](https:\u002F\u002Fgithub.com\u002Fshuzi\u002FinsuranceQA)\n\n此数据集仅作为研究目的提供。如果您使用这些数据发表任何内容，请引用我们的论文：[Applying Deep Learning to Answer Selection: A Study and An Open Task](https:\u002F\u002Farxiv.org\u002Fabs\u002F1508.01585)。Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou @ 2015","# insuranceqa-corpus-zh 快速上手指南\n\n`insuranceqa-corpus-zh` 是保险领域首个开放的中文 QA 语料库，包含由真实用户提问、专业人士回答的高质量数据。数据集已进行分词、去停用词等预处理，可直接用于机器学习训练任务（如答案选择、阅读理解）。\n\n## 环境准备\n\n*   **操作系统**：Linux, macOS, Windows\n*   **Python 版本**：2.x 或 3.x\n*   **依赖工具**：pip (Python 包管理工具)\n\n## 安装步骤\n\n### 1. 安装 Python 包\n使用 pip 安装核心库：\n\n```bash\npip install -U insuranceqa_data\n```\n\n### 2. 获取数据下载许可\n该数据集需要证书标识（License）才能下载：\n1.  访问 [证书商店](https:\u002F\u002Fstore.chatopera.com\u002Fproduct\u002Finsqa001)。\n2.  购买证书后，进入【证书 - 详情】页面。\n3.  点击【复制证书标识】，保存该字符串（下文称为 `YOUR_LICENSE`）。\n\n### 3. 下载语料数据\n任选以下一种方式完成数据下载：\n\n**方式一：通过 Python 脚本下载（推荐）**\n\n创建文件 `download.py`，写入以下内容（请将 `YOUR_LICENSE` 替换为实际证书标识）：\n\n```python\nimport os\n\n# 设置证书标识\nos.environ[\"INSQA_DL_LICENSE\"] = \"YOUR_LICENSE\"\n\n# 执行下载\nimport insuranceqa_data\ninsuranceqa_data.download_corpus()\n```\n\n运行脚本：\n```bash\npython download.py\n```\n\n**方式二：通过环境变量下载**\n\n在终端设置环境变量后执行下载命令：\n\n*   **Linux \u002F macOS:**\n    ```bash\n    export INSQA_DL_LICENSE=YOUR_LICENSE\n    python -c \"import insuranceqa_data; insuranceqa_data.download_corpus()\"\n    ```\n\n*   **Windows (Command Prompt):**\n    ```cmd\n    set INSQA_DL_LICENSE=YOUR_LICENSE\n    python -c \"import insuranceqa_data; insuranceqa_data.download_corpus()\"\n    ```\n\n*   **Windows (PowerShell):**\n    ```powershell\n    $env:INSQA_DL_LICENSE='YOUR_LICENSE'\n    python -c \"import insuranceqa_data; insuranceqa_data.download_corpus()\"\n    ```\n\n## 基本使用\n\n数据下载完成后，可直接调用 API 加载训练集、测试集、验证集及答案库。\n\n```python\nimport insuranceqa_data\n\n# 加载数据集\ntrain_data = insuranceqa_data.load_pool_train() # 训练集\ntest_data = insuranceqa_data.load_pool_test()   # 测试集\nvalid_data = insuranceqa_data.load_pool_valid() # 验证集\nanswers_data = insuranceqa_data.load_pool_answers() # 答案库\n\n# 示例：遍历并打印训练集前几条数据\nfor x in train_data:\n    print('\\n\\nIndex %s \\n question: %s' % (x, train_data[x]['zh']))\n    print(\" answer: \")\n    idx = 0\n    # 打印该问题对应的正确回答\n    for y in train_data[x]['answers']:\n        idx += 1\n        print(\"   %d. %s\" % (idx, answers_data[y][\"zh\"]))\n    # 如需负例可访问 train_data[x]['negatives']\n    break # 仅演示第一条，实际使用请移除\n```\n\n**数据结构说明：**\n*   **问题数据** (`train.json.gz` 等)：包含中英文问题 (`zh`, `en`)、所属领域 (`domain`)、正例答案索引列表 (`answers`) 和负例答案索引列表 (`negatives`)。\n*   **答案数据** (`answers.json`)：包含所有答案的中英文内容，通过索引与问题关联。","某保险公司技术团队正在构建一款面向客户的智能保险咨询机器人，旨在自动解答用户关于车险、寿险等复杂条款的疑问。\n\n### 没有 insuranceqa-corpus-zh 时\n- **数据冷启动困难**：团队需人工收集并清洗海量保险问答，耗时数月仍难以覆盖常见长尾问题，导致机器人上线初期回答覆盖率不足 30%。\n- **专业度严重缺失**：由于缺乏由领域专家撰写的高质量标准答案，模型常生成模棱两可甚至错误的理赔建议，引发客户投诉风险。\n- **训练样本单一**：缺少成对的“正例”与“负例”数据，难以训练模型精准区分相似但含义不同的保险场景，意图识别准确率长期停滞在 60% 以下。\n- **多语言对齐成本高**：若需支持中英文双语服务，团队需额外投入大量资源进行术语翻译和对齐，极易出现专业术语偏差。\n\n### 使用 insuranceqa-corpus-zh 后\n- **快速完成冷启动**：直接加载包含近 1.3 万条真实用户提问和 2.7 万条专家回答的数据集，机器人首版上线即可覆盖 90% 以上的常见咨询场景。\n- **确保回答权威性**：利用数据集中由专业人士提供的高质量答案进行微调，使机器人在解释免责条款和理赔流程时准确率达到行业领先水平。\n- **显著提升判别能力**：借助数据中精心构造的 200 条相关负例样本，模型学会了精准排除干扰项，将复杂问题的意图识别准确率提升至 85% 以上。\n- **原生支持双语开发**：直接使用数据集中已对齐的中英文对照内容，无需额外翻译即可训练出流畅的双语问答模型，大幅缩短研发周期。\n\ninsuranceqa-corpus-zh 通过提供经过专家校验的行业级高质量语料，将保险智能客服的研发门槛从“数月积累”降低为“即时可用”，从根本上解决了垂直领域 AI 落地难的问题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchatopera_insuranceqa-corpus-zh_8549c4e1.png","chatopera","Chatopera","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fchatopera_d77d41e0.png","重新定义聊天机器人，定制智能客服、知识库、AI 办公助手、智能物联网等，释放创新潜力。",null,"info@chatopera.com","https:\u002F\u002Fdocs.chatopera.com","https:\u002F\u002Fgithub.com\u002Fchatopera",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",94.4,{"name":87,"color":88,"percentage":89},"Shell","#89e051",5.6,1052,343,"2026-04-10T10:36:08","NOASSERTION","Linux, macOS, Windows","未说明",{"notes":97,"python":98,"dependencies":99},"该工具为数据集包而非模型运行环境，无特殊 GPU 或内存需求。使用前需购买证书获取 License ID，并通过设置环境变量 INSQA_DL_LICENSE 来下载数据。数据包含训练、验证、测试集及答案库，格式为 JSON\u002FJSONL。","2.x, 3.x",[100],"insuranceqa_data",[14,35,16],[103,104,105,106,107,108,109,110,111,64],"corpus","chatbot","qasystem","natural-language-processing","natural-language-understanding","machine-learning","dataset","question-answering","insurance","2026-03-27T02:49:30.150509","2026-04-17T09:54:07.919764",[115,120,125,130,135,140,145,150],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},36779,"如何输出问答模型的预测结果？","该模型本质上是一个文本分类网络，输出通常为两类（0 或 1）。具体实现是将输入问句转化为向量，再进行前向网络计算。示例代码如下：\n```python\ndef predict(self, text, seg = True):\n    v = corpus.v(text, seg = seg)\n    if len(v) > 0:\n        return np.argmax(self.feedforward(np.reshape(v, (self.input_layer_size, 1))))\n    else:\n        return 1\n```\n其中 text 指原始问句，处理过程包含分词和矢量化。","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F7",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},36780,"使用 API 加载数据时出现连接超时（Connection timed out）错误怎么办？","这通常是因为旧版本的数据源地址失效。请升级 `insuranceqa_data` 包到最新版本（2.3 及以上）以修复此问题。\n执行命令：\n```bash\npip install -U insuranceqa_data==2.3\n```","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F24",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},36781,"运行程序读取 gzip 文件时报错 'TypeError: the JSON object must be str, not bytes' 如何解决？","这是因为 `gzip.open` 默认以二进制模式 ('rb') 读取，而 `json.loads` 需要字符串。解决方法是将打开模式的 'rb' 改为 'rt'（文本模式）。\n修改代码：\n将 `with gzip.open(data_path, 'rb') as f:` \n改为 `with gzip.open(data_path, 'rt') as f:`","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F13",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},36782,"Git clone 下载的数据集文件（.json.gz）无法用 tar 或 unzip 解压怎么办？",".json.gz 文件是 gzip 压缩格式，不是 tar 或 zip 格式。请使用 `gunzip` 命令进行解压。\n正确命令：\n```bash\ngunzip iqa.train.json.gz\n```","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F12",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},36783,"如何将此语料库与 Word2Vec 模型结合使用？","语料库和词向量是两个独立的概念。你可以直接使用语料库训练自己的词向量模型；或者先对语料进行分词，然后利用预训练的词向量将句子表示为向量序列，再输入到模型中。","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F8",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},36784,"数据集的正负样本比例（如 1:10）是否合理？会不会影响准确率评估？","该数据集基于原始的 InsuranceQA 构建，主要用于学习和研究，不一定要完全符合实际生产环境的分布。在训练神经网络时，负例可以随机选择且数量较多。关于精度计算，建议参考示例程序中的 `evaluate` 函数或使用混淆矩阵来进行更科学的评测，简单的准确率极限论断在此场景下并不准确。","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F10",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},36785,"项目中的 visual 模块是什么？如何使用？","visual 是项目中的一个可视化模块包。你可以直接查看源代码目录获取使用方法：\nhttps:\u002F\u002Fgithub.com\u002FSamurais\u002Finsuranceqa-corpus-zh\u002Ftree\u002Frelease\u002Fvisual","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F14",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},36786,"在哪里可以找到基线模型（Baseline Model）的介绍和实验结果？","基线模型是一个使用该语料库训练的深度学习问答网络。详细介绍文章和实验结果可以在以下链接找到：\nhttps:\u002F\u002Fgithub.com\u002FSamurais\u002Finsuranceqa-corpus-zh\u002Fblob\u002Frelease\u002Fdeep_qa_1\u002Fbaseline_article.pdf","https:\u002F\u002Fgithub.com\u002Fchatopera\u002Finsuranceqa-corpus-zh\u002Fissues\u002F2",[156,161],{"id":157,"version":158,"summary_zh":159,"released_at":160},297206,"v2.1","# insuranceqa-corpus-zh\n保险行业语料库\n\n![](https:\u002F\u002Fcamo.githubusercontent.com\u002Fae91a5698ad80d3fe8e0eb5a4c6ee7170e088a7d\u002F687474703a2f2f37786b6571692e636f6d312e7a302e676c622e636c6f75646e2e636f6d2f61692f53637265656e25323053686f74253230323031372d30342d30342532306174253230382e32302e3437253230504d2e706e67)\n\n## 欢迎\n\n该语料库包含从网站[Insurance Library](http:\u002F\u002Fwww.insurancelibrary.com\u002F) 收集的问题和答案。\n\n据我们所知，这是保险领域首个开放的QA语料库：\n\n* 该语料库的内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料，而不是玩具。\n\n* 在上述论文中，语料库用于答复选择任务。 另一方面，这种语料库的其他用法也是可能的。 例如，通过阅读理解答案，观察学习等自主学习，使系统能够最终拿出自己的看不见的问题的答案。\n\n* 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来，未经其他处理的。问答对语料是基于问答语料，又做了分词和去标去停，添加label。所以，“问答对语料”可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意，可以直接对“问答语料”使用其他方法进行处理，获得可以用于训练模型的数据。\n\n欢迎任何进一步增加此数据集的想法。\n\n## 安装\n\n```\npip install --upgrade insuranceqa_data\n```\n\n## 问答语料\n\n| - | 问题      |  答案  | 词汇（英语）  | \n| ------------- |-------------| ----- |   ----- |           \n| 训练      | 12,889 | 21,325  |    107,889        |\n| 验证      | 2,000     |  3354 |   16,931          |\n| 测试       | 2,000      |    3308 |  16,815            |\n\n每条数据包括问题的中文，英文，答案的正例，答案的负例。案的正例至少1项，基本上在*1-5*条，都是正确答案。答案的负例有*200*条，负例根据问题使用检索的方式建立，所以和问题是相关的，但却不是正确答案。\n\n```\n{\n    \"INDEX\": {\n        \"zh\": \"中文\",\n        \"en\": \"英文\",\n        \"domain\": \"保险种类\",\n        \"answers\": [\"\"] # 答案正例列表\n        \"negatives\": [\"\"] # 答案负例列表\n    },\n    more ...\n}\n```\n\n* 训练：```corpus\u002Ftrain.json```\n\n* 验证：```corpus\u002Fvalid.json```\n\n* 测试：```corpus\u002Ftest.json```\n\n* 答案：```corpus\u002Fanswers.json```\n一共有 27,413 个回答，数据格式为 ```json```:\n```\n{\n    \"INDEX\": {\n        \"zh\": \"中文\",\n        \"en\": \"英文\"\n    },\n    more ...\n}\n```\n\n### 中英文对照文件\n\n#### 问答对\n\n```\n格式 INDEX ++$++ 保险种类 ++$++ 中文 ++$++ 英文\n```\n\n```corpus\u002Ftrain.txt```, ```corpus\u002Fvalid.txt```, ```corpus\u002Ftest.txt```.\n\n#### 答案\n\n```\n格式 INDEX ++$++ 中文 ++$++ 英文\n```\n\n```corpus\u002Fanswers.txt```\n\n## 快速开始\n\n### 在Python环境中，使用pip安装\n\n兼容py2, py3\n\n```\npip install --upgrade insuranceqa_data\n```\n\n### 加载数据\n\n```python\nimport insuranceqa_data as insuranceqa\ntrain_data = insuranceqa.load_pool_train()\ntest_data = insuranceqa.load_pool_test()\nvalid_data = insuranceqa.load_pool_valid()\n\n# valid_data, test_data and train_data share the same properties\nfor x in train_data:\n    print('index %s value: %s ++$++ %s ++$++ %s' % \\\n     (x, d[x]['zh'], d[x]['en'], d[x]['answers'], d[x]['negatives']))\n\nanswers_data = insuranceqa.load_pool_answers()\nfor x in answers_data:\n    print('index %s: %s ++$++ %s' % (x, d[x]['zh'], d[x]['en']))\n```\n\n## 问答对语料\n使用“问答语料”，还需要做很多工作才能进入机器学习的模型，比如分词，去停用词，去标点符号，添加label标记。所以，在“问答语料”的基础上，还可以继续处理，但是在分词等任务中，可以借助不同分词工具，这点对于模型训练而言是有影响的。为了使数据能快速可用，[insuranceqa-corpus-zh](https:\u002F\u002Fgithub.com\u002FSamurais\u002Finsuranceqa-corpus-zh)提供了一个使用[HanLP](https:\u002F\u002Fgithub.com\u002Fhankcs\u002FHanLP)分词和去标，去停，添加label的数据集，这个数据集完全是基于“问答语料”。\n\n```python\nimport insuranceqa_data as insuranceqa\ntrain_data = insuranceqa.load_pairs_train()\ntest_data = insuranceqa.load_pairs_test()\nvalid_dat","2017-08-06T10:39:04",{"id":162,"version":163,"summary_zh":164,"released_at":165},297207,"v1.0","# insuranceqa-corpus-zh\n保险行业语料库\n\n![](https:\u002F\u002Fcamo.githubusercontent.com\u002Fae91a5698ad80d3fe8e0eb5a4c6ee7170e088a7d\u002F687474703a2f2f37786b6571692e636f6d312e7a302e676c622e636c6f75646e2e636f6d2f61692f53637265656e25323053686f74253230323031372d30342d30342532306174253230382e32302e3437253230504d2e706e67)\n\n## 欢迎\n\n该语料库包含从网站[Insurance Library](http:\u002F\u002Fwww.insurancelibrary.com\u002F) 收集的问题和答案。\r\n\r\n据我们所知，这是保险领域首个开放的QA语料库：\r\n\r\n* 该语料库的内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料，而不是玩具。\r\n\r\n* 在上述论文中，语料库用于答复选择任务。 另一方面，这种语料库的其他用法也是可能的。 例如，通过阅读理解答案，观察学习等自主学习，使系统能够最终拿出自己的看不见的问题的答案。\r\n\r\n欢迎任何进一步增加此数据集的想法。\r\n\r\n## 语料数据\r\n\r\n| - | 问题      |  答案  | 词汇（英语）  | \r\n| ------------- |-------------| ----- |   ----- |           \r\n| 训练      | 12,889 | 21,325  |    107,889        |\r\n| 验证      | 2,000     |  3354 |   16,931          |\r\n| 测试       | 2,000      |    3308 |  16,815            |\r\n\r\n每条数据包括问题的中文，英文，答案的正例，答案的负例。案的正例至少1项，基本上在*1-5*条，都是正确答案。答案的负例有*200*条，负例根据问题使用检索的方式建立，所以和问题是相关的，但却不是正确答案。\r\n\r\n```\r\n{\r\n    \"INDEX\": {\r\n        \"zh\": \"中文\",\r\n        \"en\": \"英文\",\r\n        \"domain\": \"保险种类\",\r\n        \"answers\": [\"\"] # 答案正例列表\r\n        \"negatives\": [\"\"] # 答案负例列表\r\n    },\r\n    more ...\r\n}\r\n```\r\n\r\n* 训练：```corpus\u002Ftrain.json```\r\n\r\n* 验证：```corpus\u002Fvalid.json```\r\n\r\n* 测试：```corpus\u002Ftest.json```\r\n\r\n* 答案：```corpus\u002Fanswers.json```\r\n一共有 27,413 个回答，数据格式为 ```json```:\r\n```\r\n{\r\n    \"INDEX\": {\r\n        \"zh\": \"中文\",\r\n        \"en\": \"英文\"\r\n    },\r\n    more ...\r\n}\r\n```\r\n\r\n### 中英文对照文件\r\n\r\n#### 问答对\r\n\r\n```\r\n格式 INDEX ++$++ 保险种类 ++$++ 中文 ++$++ 英文\r\n```\r\n\r\n```corpus\u002Ftrain.txt```, ```corpus\u002Fvalid.txt```, ```corpus\u002Ftest.txt```.\r\n\r\n#### 答案\r\n\r\n```\r\n格式 INDEX ++$++ 中文 ++$++ 英文\r\n```\r\n\r\n```corpus\u002Fanswers.txt```\r\n\r\n\r\n## 快速开始\r\n\r\n### 在Python环境中，使用pip安装\r\n\r\n兼容py2, py3\r\n\r\n```\r\npip install --upgrade insuranceqa_data\r\n```\r\n\r\n### 加载数据对象\r\n\r\n```python\r\nimport insuranceqa_data as insuranceqa\r\ntrain_data = insuranceqa.load_train()\r\ntest_data = insuranceqa.load_train()\r\nvalid_data = insuranceqa.load_train()\r\n\r\n# valid_data, test_data and train_data share the same properties\r\nfor x in train_data:\r\n    print('index %s value: %s ++$++ %s ++$++ %s' % \\\r\n     (x, d[x]['zh'], d[x]['en'], d[x]['answers'], d[x]['negatives']))\r\n\r\nanswers_data = insuranceqa.load_answers()\r\nfor x in answers_data:\r\n    print('index %s: %s ++$++ %s' % (x, d[x]['zh'], d[x]['en']))\r\n```\r\n\r\n\r\n## 声明\r\n\r\n声明1 : [insuranceqa-corpus-zh](https:\u002F\u002Fgithub.com\u002FSamurais\u002Finsuranceqa-corpus-zh)\r\n\r\n本数据集使用翻译 [insuranceQA](https:\u002F\u002Fgithub.com\u002Fshuzi\u002FinsuranceQA)而生成，代码发布证书 GPL 3.0。数据仅限于研究用途，如果在发布的任何媒体、期刊、杂志或博客等内容时，必须注明引用和地址。\r\n\r\n```\r\nInsuranceQA Corpus, Hai Liang Wang, https:\u002F\u002Fgithub.com\u002FSamurais\u002Finsuranceqa-corpus-zh, 07 27, 2017\r\n```\r\n\r\n任何基于[insuranceqa-corpus](https:\u002F\u002Fgithub.com\u002FSamurais\u002Finsuranceqa-corpus-zh)衍生的数据也需要开放并需要声明和“声明1”和“声明2”一致的内容。\r\n\r\n声明2 : [insuranceQA](https:\u002F\u002Fgithub.com\u002Fshuzi\u002FinsuranceQA)\r\n\r\n此数据集仅作为研究目的提供。如果您使用这些数据发表任何内容，请引用我们的论文：[Applying Deep Learning to Answer Selection: A Study and An Open Task](https:\u002F\u002Farxiv.org\u002Fabs\u002F1508.01585)。Minwei Feng, Bing Xiang, Michael R. Glas","2017-07-28T02:09:32"]