[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenBioLink--ThoughtSource":3,"tool-OpenBioLink--ThoughtSource":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":104,"forks":105,"last_commit_at":106,"license":107,"difficulty_score":32,"env_os":108,"env_gpu":109,"env_ram":109,"env_deps":110,"category_tags":117,"github_topics":118,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":124,"updated_at":125,"faqs":126,"releases":165},4577,"OpenBioLink\u002FThoughtSource","ThoughtSource","A central, open resource for data and tools related to chain-of-thought reasoning in large language models. Developed @ Samwald research group: https:\u002F\u002Fsamwald.info\u002F","ThoughtSource 是一个专注于大语言模型“思维链”（Chain-of-Thought）推理的开源中心资源库，由 Samwald 研究组开发。它旨在为机器思考的科学化研究提供统一的数据标准与工具支持，核心目标是推动先进 AI 系统在科学研究和医疗实践等关键领域实现更可信、更稳健的逻辑推理能力。\n\n当前大模型推理研究面临数据格式混乱、来源分散且难以复现的挑战。ThoughtSource 通过提供标准化的数据加载器，将来自 CommonsenseQA、StrategyQA、WorldTree 等多个知名数据集的原始内容进行深度后处理，整合成格式统一的思维链数据。其独特亮点在于同时收录了人类标注的“黄金标准”推理路径，以及基于不同提示策略（如少样本、零样本）生成的 AI 推理链条，并直接兼容 Hugging Face Datasets 格式，极大降低了数据获取与对比分析的门槛。\n\n这款工具非常适合 AI 研究人员、算法工程师及大模型开发者使用。无论是希望深入探究模型推理机制的学者，还是致力于提升垂直领域（如医疗、科学问答）应用可靠性的开发者，都能利用 ThoughtSource 快速","ThoughtSource 是一个专注于大语言模型“思维链”（Chain-of-Thought）推理的开源中心资源库，由 Samwald 研究组开发。它旨在为机器思考的科学化研究提供统一的数据标准与工具支持，核心目标是推动先进 AI 系统在科学研究和医疗实践等关键领域实现更可信、更稳健的逻辑推理能力。\n\n当前大模型推理研究面临数据格式混乱、来源分散且难以复现的挑战。ThoughtSource 通过提供标准化的数据加载器，将来自 CommonsenseQA、StrategyQA、WorldTree 等多个知名数据集的原始内容进行深度后处理，整合成格式统一的思维链数据。其独特亮点在于同时收录了人类标注的“黄金标准”推理路径，以及基于不同提示策略（如少样本、零样本）生成的 AI 推理链条，并直接兼容 Hugging Face Datasets 格式，极大降低了数据获取与对比分析的门槛。\n\n这款工具非常适合 AI 研究人员、算法工程师及大模型开发者使用。无论是希望深入探究模型推理机制的学者，还是致力于提升垂直领域（如医疗、科学问答）应用可靠性的开发者，都能利用 ThoughtSource 快速构建高质量的训练与评估基准，从而加速可解释性 AI 的研发进程。","# ThoughtSource⚡\n__A framework for the science of machine thinking__\n\n_[Datasets](#available-datasets) • [Tutorial notebook](.\u002Fnotebooks\u002Ftutorial.ipynb) • [Installation guide](#installation) • [Dataset Annotator](#annotator)_\n\nThoughtSource is a central, open resource and community centered on data and tools for chain-of-thought reasoning in large language models ([Wei 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)). Our long-term goal is to enable trustworthy and robust reasoning in advanced AI systems for driving scientific research and medical practice.\n\n\n\u003Cp align=\"center\">\n  \u003Cimg alt=\"ThoughtSource overview 3\" src=\".\u002Fresources\u002Fimages\u002Fthoughtsource-overview-3.svg\">\n\u003C\u002Fp>\n\n\n\n📄 Pre-print: Ott _et al._ [__\"ThoughtSource: A central hub for large language\nmodel reasoning data\"__](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11596), arXiv, 2023\n\n\n📄 Pre-print: Hebenstreit _et al._ [__\"An automatically discovered chain-of-thought prompt generalizes to novel models and datasets\"__](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02897), arXiv, 2023\n\n\n\n## Workflow\n\n\u003Cp align=\"center\">\n  \u003Cimg alt=\"ThoughtSource overview 1\" src=\".\u002Fresources\u002Fimages\u002Fthoughtsource-overview-1.svg\"> \u003Cimg alt=\"ThoughtSource overview 2\" src=\".\u002Fresources\u002Fimages\u002Fthoughtsource-overview-2.svg\">\n\u003C\u002Fp>\n\n\n## Available datasets\n\n \n Our [dataloaders](.\u002Flibs\u002Fcot\u002F) allow you to access the following datasets in a standardized chain-of-thought format. The dataloaders create objects in the [Hugging Face 🤗 Datasets format](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdatasets\u002Findex). We (sometimes extensively) post-processed the source datasets in different ways to create more coherent reasoning chains.\n\n\n\n### General question answering\n* __[commonsense_qa](https:\u002F\u002Fwww.tau-nlp.sites.tau.ac.il\u002Fcommonsenseqa):__ Multiple-choice commonsense knowledge question answering dataset ([Talmor 2018](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.00937), _License:_ MIT).  Reasoning chains from three different sources are included:\n\n  * __Human-generated__ reasoning chains derived from the __[ECQA dataset](https:\u002F\u002Fgithub.com\u002Fdair-iitd\u002FECQA-Dataset)__ ([Aggarwal 2021](https:\u002F\u002Faclanthology.org\u002F2021.acl-long.238\u002F)) for train and validation split. Used as gold standard. _License:_ Community Data License Agreements Sharing license 1.0.\n  * __AI-generated (few-shot prompting)__ reasoning chains from __[Wei 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)__. Only available for __validation split__. _License:_ Unknown\n  * __AI-generated (zero-shot prompting)__  generated reasoning chains from __[Kojima 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916)__. Only available for __validation split__. _License:_ Unknown\n* __[strategy_qa](https:\u002F\u002Fallenai.org\u002Fdata\u002Fstrategyqa):__ General-domain question-answering data from the StrategyQA dataset, reasoning chains are derived from original dataset. ([Geva 2021](https:\u002F\u002Fdirect.mit.edu\u002Ftacl\u002Farticle\u002Fdoi\u002F10.1162\u002Ftacl_a_00370\u002F100680\u002FDid-Aristotle-Use-a-Laptop-A-Question-Answering)). _License:_ MIT.\n  * __Human-generated__ reasoning chains derived from the original dataset for train split. Used as gold standard. _License:_ MIT.\n  * __AI-generated (few-shot)__ reasoning chains from __[Wei 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)__. Only available for __train split__. _License:_ Unknown\n  * __AI-generated (zero-shot)__  generated reasoning chains from __[Kojima 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916)__. Only available for __train split__. _License:_ Unknown\n* __[qed](https:\u002F\u002Fgithub.com\u002Fgoogle-research-datasets\u002FQED):__ General-domain question-answering data and justifications from the QED dataset ([Lamm 2020](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.06354)). _License:_ CC BY-SA 3.0.\n\n### Scientific \u002F medical question answering\n* __[worldtree](http:\u002F\u002Fcognitiveai.org\u002Fexplanationbank\u002F):__ Scientific question-answering data from the WorldTree v2 dataset ([Xie 2020](https:\u002F\u002Faclanthology.org\u002F2020.lrec-1.671\u002F)). __Human-generated__ reasoning chains derived from the original dataset. _License:_ AI2 Mercury.\n* __[entailment_bank](https:\u002F\u002Fallenai.org\u002Fdata\u002Fentailmentbank):__ Science exam questions with expert-authored explanations from the EntailmentBank dataset ([Dalvi 2022](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08661.pdf)). __Human-generated__ reasoning chains derived from the original dataset. _License:_ CC BY 4.0. (Note: significant overlap with worldtree v2)\n* __[open_book_qa](https:\u002F\u002Fallenai.org\u002Fdata\u002Fopen-book-qa):__ Scientific question-answering modeled after open book exams for assessing human understanding from the OpenBookQA dataset ([Mihaylov 2018](https:\u002F\u002Faclanthology.org\u002FD18-1260.pdf)). __Human-generated__ reasoning chains derived from the original dataset. _License:_ Apache License 2.0.\n* __[med_qa](https:\u002F\u002Fgithub.com\u002Fjind11\u002FMedQA) (USMLE subset):__ Free-form multiple-choice OpenQA dataset containing questions from medical board exams in US (USMLE). Note: the original MedQA dataset also provides Chinese-language data, which are currently not included. ([Jin 2020](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.13081v1)). _License:_ MIT. \u003Cbr> Additionally the dataset is also available in an open-answer version. ([Nair 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17071)). _License:_ MIT.\n  * __AI-generated (zero-shot)__ reasoning chains derived from __[Liévin 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.08143)__. Only available for the __test split__, only US questions. _License:_ Unknown.\n* __[medmc_qa](https:\u002F\u002Fmedmcqa.github.io\u002F):__ Multiple-Choice Question Answering dataset containing real-world medical entrance exam questions from the All India Institute of Medical Sciences (AIIMS PG) and National Eligibility cum Entrance Test (NEET PG). ([Pal 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14371)). _License:_ MIT.\n  * __Human-generated__ reasoning chains derived from the original dataset for ~85% of train and validation split. Used as gold standard. _License:_ MIT.\n  * __AI-generated (zero-shot)__ reasoning chains derived from __[Liévin 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.08143)__. Only available for 1000 samples from the __validation split__.  _License:_ CC-BY.\n* __[mmlu](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest):__ (Massive Multitask Language Understanding) is a compendium of 57 distinct question-and-answer tasks. Included are the selected six subjects related to medicine: anatomy, clinical knowledge, college biology, college medicine, medical genetics, and professional medicine. _License:_ MIT.\n* __[pubmed_qa](https:\u002F\u002Fgithub.com\u002Fpubmedqa\u002Fpubmedqa):__ QA dataset containing biomedical questions extracted from PubMed abstracts that can be answered with yes\u002Fno\u002Fmaybe ([Jin 2019](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.06146)). _License:_ MIT.\n  * __Human-generated__ reasoning chains derived from the original dataset. Used as gold standard. _License:_ MIT.\n  * __AI-generated (zero-shot)__ reasoning chains derived from __[Liévin 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.08143)__. Only available for the __test split__. _License:_ CC-BY.\n\n### Math word problems\n* __[aqua](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002FAQuA):__ Math word problems from the AQUA-RAT (Algebra Question Answering with Rationales) dataset ([Ling 2017](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.04146.pdf)). Reasoning chains derived from the original dataset. _License:_ Apache 2.0.\n* __[asdiv](https:\u002F\u002Fgithub.com\u002Fchaochun\u002Fnlu-asdiv-dataset):__ Math word problems from the Academia Sinica Diverse MWP dataset ([Miao 2020](https:\u002F\u002Faclanthology.org\u002F2020.acl-main.92\u002F)). Reasoning chains derived from the original dataset. _License:_ CC BY-NC 4.0.\n* __[gsm8k](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgrade-school-math):__  Math word problems from the GSM8K dataset ([Cobbe 2021](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14168)). Reasoning chains derived from the original dataset. _License:_ MIT.\n* __[mawps](https:\u002F\u002Fgithub.com\u002Fsroy9\u002Fmawps):__ Math word problems from MAWPS, the Math Word Problem Repository dataset ([Koncel-Kedziorski 2016](https:\u002F\u002Faclanthology.org\u002FN16-1136.pdf)). Reasoning chains derived from the original dataset. _License:_ MIT.\n* __[svamp](https:\u002F\u002Fgithub.com\u002Farkilpatel\u002FSVAMP):__ Math word problems. Source: SVAMP ([Patel 2021](https:\u002F\u002Faclanthology.org\u002F2021.naacl-main.168\u002F)). Reasoning chains derived from the original dataset. _License:_ MIT.\n\n### Collections of datasets\nFor quick and economic formative evaluation of CoT reasoning, we combined random examples of the above datasets to collections.\n* __ThoughtSource_33__ ([Hebenstreit 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02897)) is a collection made up of 33 samples each from Commonsense QA, MedQA (USMLE), MedMCQA, OpenBookQA, StrategyQA and WorldTree V2. We generated zero-shot CoTs with ten different prompting strategies , each employed by six models: davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-XXL and Cohere's command-xlarge-nightly. \nThe data can easily be accessed:\n```python\ncollection = Collection.load_thoughtsource_33()\n```\n\n\nWe are working on collecting and generating additional datasets, and on further improving the quality of existing datasets (see [dataset issues](https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues?q=is%3Aissue+label%3Adataset)). We welcome suggestions for the inclusion of other datasets.\n\n__We welcome dataset contributions! 👉 Have a look at our [contribution guide](CONTRIBUTING.md)!__\n\n## Annotator\n\n\u003Cp align=\"center\">\n  \u003Cimg alt=\"Demonstration of the annotator tool\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenBioLink_ThoughtSource_readme_4362aa1e0cf3.webp\" width=\"80%\">\n\n  The annotator allows for highlighting similarities between different generated reasoning chains, making it easier to spot strenghts and weaknesses and to select best results.\n\u003C\u002Fp>\n\n\n\u003Cbr\u002F>\n\n\n## Installation and code structure\n\n### Installation\nexecute in terminal line by line:\n```bash\ngit clone git@github.com:OpenBioLink\u002FThoughtSource.git\ncd ThoughtSource\n# install pip and virtualenv\nsudo apt install python3-pip\nsudo apt install python3-venv\n# create and activate virtual environment\npython3 -m venv venv\nsource .\u002Fvenv\u002Fbin\u002Factivate\n# install requirements and API packages\npip install -e .\u002Flibs\u002Fcot[api]\n```\n\n### Applications\n\n* __[annotator](.\u002Fapps\u002Fannotator):__ Web-based tool for annotating chain-of-thought data. \n\n* __[dataset-viewer](.\u002Fapps\u002Fdataset-viewer\u002F):__ Streamlit application for browsing ThoughtSource datasets\n\n### Libraries\n\n* __[cot](.\u002Flibs\u002Fcot\u002F):__ \n  *  __dataloader__: Creating and processing of ThoughtSource datasets (based on the Hugging Face 🤗 Datasets library).\n  * __generate__: Generating reasoning chains with a wide variety of language models (currently OpenAI and models on Hugging Face hub)\n  * __evaluate__: Evaluate the performance of predictions extracted using generated reasoning chains\n\n\n```python\n# 1) Dataset loading and selecting a random sample\ncollection = Collection([\"worldtree\"], verbose=False)\ncollection = collection.select(split=\"train\", number_samples=10)\n\n# 2) Language Model generates chains of thought and then extracts answers\nconfig={\n    \"instruction_keys\": ['qa-01'], # \"Answer the following question through step-by-step reasoning.\"\n    \"cot_trigger_keys\": ['kojima-01'], # \"Answer: Let's think step by step.\"\n    \"answer_extraction_keys\": ['kojima-A-D'], # \"Therefore, among A through D, the answer is\"\n    \"api_service\": \"huggingface_hub\",\n    \"engine\": \"google\u002Fflan-t5-xl\",\n    \"warn\": False,\n    \"verbose\": False,\n}\ncollection.generate(config=config)\n\n# 3) Performance evaluation\ncollection.evaluate()\n```\n```\n{'accuracy': {'qa-01_kojima-01_kojima-A-D': 0.6}}\n```\n\n---\n\n\u003Cp align=\"center\">\n 👉 See the \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fblob\u002Fmain\u002Fnotebooks\u002Ftutorial.ipynb\u002F\">\u003Cb>tutorial notebook\u003C\u002Fb>\u003C\u002Fa> for more code examples.\n\u003C\u002Fp>\n\n---\n\n\n## Citation\n\n```bibtex\n@misc{https:\u002F\u002Fdoi.org\u002F10.48550\u002Farxiv.2301.11596,\n  doi = {10.48550\u002FARXIV.2301.11596},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11596},\n  author = {Ott, Simon and Hebenstreit, Konstantin and Liévin, Valentin and Hother, Christoffer Egeberg and Moradi, Milad and Mayrhauser, Maximilian and Praas, Robert and Winther, Ole and Samwald, Matthias},\n  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences},\n  title = {ThoughtSource: A central hub for large language model reasoning data},\n  publisher = {arXiv},\n  year = {2023}, \n  copyright = {Creative Commons Attribution 4.0 International}\n}\n```\n\n## Versioning\nAll updates\u002Fchanges to datasets are explicitly mentioned in bold.\n\n\u003Cdetails>\n\u003Csummary>1.0.0 (2023-07-11)\u003C\u002Fsummary>\n\n- Released ThoughtSource_33 collection with 60 reasoning chains for each item: `Collection.load_thoughtsource_33()`\n- Added an option for creating chained commands\n- Added chat option of gpt\n- Added filtering functions for already created chain-of-thoughts\n- Added new datasets: **MMLU** (six medical subsets) and open-ended question version of **MedQA**\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.5 (2023-03-10)\u003C\u002Fsummary>\n\n- Added a function to select which generated CoTs to keep after loading: `collection.select_generated_cots(author=\"thoughtsource\")`\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.4 (2023-03-08)\u003C\u002Fsummary>\n\n- Improved evaluation function\n- Added a function to load ThoughtSource100 collection: `Collection.load_thoughtsource_100()`\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.3 (2023-02-24)\u003C\u002Fsummary>\n\n- Released ThoughtSource_100 collection with reasoning chains from GPT-text-davinci-003, flan-t5-xxl, and cohere's command-xl\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.2 (2023-02-15)\u003C\u002Fsummary>\n\n- Updated annotator tool for correct data schema (this might result in errors loading old datasets, when loading from json files)\n  - **Pubmed_qa**: Included \"LONG_ANSWER\" from origin schema as \"cot\" in ThoughtSource schema\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.1 (2023-02-01)\u003C\u002Fsummary>\n\n- Initial release after Twitter announcement of project\n\u003C\u002Fdetails>\n\n","# ThoughtSource⚡\n__机器思维科学的框架__\n\n_[数据集](#available-datasets) • [教程笔记本](.\u002Fnotebooks\u002Ftutorial.ipynb) • [安装指南](#installation) • [数据集标注工具](#annotator)_\n\nThoughtSource 是一个以大型语言模型中的思维链推理相关数据和工具为核心的开放资源与社区（[Wei 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)）。我们的长期目标是使先进的人工智能系统具备可信且稳健的推理能力，从而推动科学研究和医疗实践的发展。\n\n\n\u003Cp align=\"center\">\n  \u003Cimg alt=\"ThoughtSource 概览 3\" src=\".\u002Fresources\u002Fimages\u002Fthoughtsource-overview-3.svg\">\n\u003C\u002Fp>\n\n\n\n📄 预印本：Ott 等人 [__“ThoughtSource：大型语言模型推理数据的中心枢纽”__](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11596)，arXiv，2023 年\n\n\n📄 预印本：Hebenstreit 等人 [__“一种自动发现的思维链提示可泛化至新型模型和数据集”__](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02897)，arXiv，2023 年\n\n\n\n## 工作流程\n\n\u003Cp align=\"center\">\n  \u003Cimg alt=\"ThoughtSource 概览 1\" src=\".\u002Fresources\u002Fimages\u002Fthoughtsource-overview-1.svg\"> \u003Cimg alt=\"ThoughtSource 概览 2\" src=\".\u002Fresources\u002Fimages\u002Fthoughtsource-overview-2.svg\">\n\u003C\u002Fp>\n\n\n## 可用数据集\n\n \n 我们的 [dataloaders](.\u002Flibs\u002Fcot\u002F) 允许您以标准化的思维链格式访问以下数据集。这些加载器会创建符合 [Hugging Face 🤗 Datasets 格式](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdatasets\u002Findex)的对象。我们对源数据集进行了不同程度的后处理，以构建更加连贯的推理链条。\n\n\n\n### 通用问答\n* __[commonsense_qa](https:\u002F\u002Fwww.tau-nlp.sites.tau.ac.il\u002Fcommonsenseqa)：__ 多选题常识知识问答数据集（[Talmor 2018](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.00937)，_许可协议：_ MIT）。包含来自三个不同来源的推理链条：\n\n  * __人工生成__的推理链条源自 __[ECQA 数据集](https:\u002F\u002Fgithub.com\u002Fdair-iitd\u002FECQA-Dataset)__（[Aggarwal 2021](https:\u002F\u002Faclanthology.org\u002F2021.acl-long.238\u002F)），用于训练集和验证集。作为黄金标准。_许可协议：_ Community Data License Agreements Sharing 许可协议 1.0。\n  * __AI 生成（少样本提示）__ 的推理链条来自 __[Wei 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)__。仅适用于 __验证集__。_许可协议：_ 未知\n  * __AI 生成（零样本提示）__ 的推理链条来自 __[Kojima 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916)__。仅适用于 __验证集__。_许可协议：_ 未知\n* __[strategy_qa](https:\u002F\u002Fallenai.org\u002Fdata\u002Fstrategyqa)：__ 来自 StrategyQA 数据集的通用领域问答数据，推理链条源自原始数据集。（[Geva 2021](https:\u002F\u002Fdirect.mit.edu\u002Ftacl\u002Farticle\u002Fdoi\u002F10.1162\u002Ftacl_a_00370\u002F100680\u002FDid-Aristotle-Use-a-Laptop-A-Question-Answering)）。_许可协议：_ MIT。\n  * __人工生成__的推理链条源自原始数据集，用于训练集。作为黄金标准。_许可协议：_ MIT。\n  * __AI 生成（少样本）__ 的推理链条来自 __[Wei 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)__。仅适用于 __训练集__。_许可协议：_ 未知\n  * __AI 生成（零样本）__ 的推理链条来自 __[Kojima 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916)__。仅适用于 __训练集__。_许可协议：_ 未知\n* __[qed](https:\u002F\u002Fgithub.com\u002Fgoogle-research-datasets\u002FQED)：__ 来自 QED 数据集的通用领域问答数据及论证。（[Lamm 2020](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.06354)）。_许可协议：_ CC BY-SA 3.0。\n\n### 科学\u002F医学问答\n* __[worldtree](http:\u002F\u002Fcognitiveai.org\u002Fexplanationbank\u002F)：__ 来自 WorldTree v2 数据集的科学问答数据（[Xie 2020](https:\u002F\u002Faclanthology.org\u002F2020.lrec-1.671\u002F))。__人工生成__的推理链条源自原始数据集。_许可协议：_ AI2 Mercury。\n* __[entailment_bank](https:\u002F\u002Fallenai.org\u002Fdata\u002Fentailmentbank)：__ 来自 EntailmentBank 数据集的科学考试题目及专家撰写的解释（[Dalvi 2022](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08661.pdf)）。__人工生成__的推理链条源自原始数据集。_许可协议：_ CC BY 4.0。（注：与 worldtree v2 存在显著重叠）\n* __[open_book_qa](https:\u002F\u002Fallenai.org\u002Fdata\u002Fopen-book-qa)：__ 模仿开卷考试设计的科学问答数据，用于评估人类理解能力（[Mihaylov 2018](https:\u002F\u002Faclanthology.org\u002FD18-1260.pdf)）。__人工生成__的推理链条源自原始数据集。_许可协议：_ Apache 许可协议 2.0。\n* __[med_qa](https:\u002F\u002Fgithub.com\u002Fjind11\u002FMedQA)（USMLE 子集）：__ 包含美国医师执照考试（USMLE）题目在内的自由形式多选题开放问答数据集。注意：原始 MedQA 数据集还提供中文数据，目前暂未纳入。（[Jin 2020](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.13081v1)）。_许可协议：_ MIT。\u003Cbr>此外，该数据集也有开放回答版本。（[Nair 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17071)）。_许可协议：_ MIT。\n  * __AI 生成（零样本）__ 的推理链条源自 __[Liévin 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.08143)__。仅适用于 __测试集__，且仅限美国题目。_许可协议：_ 未知。\n* __[medmc_qa](https:\u002F\u002Fmedmcqa.github.io\u002F)：__ 包含印度全印医学科学研究所（AIIMS PG）和国家资格兼入学考试（NEET PG）真实医学入学考试题目的多选题问答数据集。（[Pal 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14371)）。_许可协议：_ MIT。\n  * __人工生成__的推理链条源自原始数据集，约占训练集和验证集的 85%。作为黄金标准。_许可协议：_ MIT。\n  * __AI 生成（零样本）__ 的推理链条源自 __[Liévin 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.08143)__。仅适用于 __验证集__ 中的 1000 个样本。_许可协议：_ CC-BY。\n* __[mmlu](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest)：__ （大规模多任务语言理解）是一个包含 57 个不同问答任务的汇编。其中包含了与医学相关的六个主题：解剖学、临床知识、大学生物学、大学医学、医学遗传学和专业医学。_许可协议：_ MIT。\n* __[pubmed_qa](https:\u002F\u002Fgithub.com\u002Fpubmedqa\u002Fpubmedqa)：__ 包含从 PubMed 摘要中提取的生物医学问题的问答数据，这些问题可以用“是\u002F否\u002F也许”来回答（[Jin 2019](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.06146)）。_许可协议：_ MIT。\n  * __人工生成__的推理链条源自原始数据集。作为黄金标准。_许可协议：_ MIT。\n  * __AI 生成（零样本）__ 的推理链条源自 __[Liévin 2022](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.08143)__。仅适用于 __测试集__。_许可协议：_ CC-BY。\n\n### 数学文字题\n* __[aqua](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002FAQuA)：__ 来自 AQUA-RAT（带有推理过程的代数问答）数据集的数学文字题（[Ling 2017](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.04146.pdf)）。推理链源自原始数据集。_许可证：_ Apache 2.0。\n* __[asdiv](https:\u002F\u002Fgithub.com\u002Fchaochun\u002Fnlu-asdiv-dataset)：__ 来自中央研究院多样化 MWP 数据集的数学文字题（[Miao 2020](https:\u002F\u002Faclanthology.org\u002F2020.acl-main.92\u002F)）。推理链源自原始数据集。_许可证：_ CC BY-NC 4.0。\n* __[gsm8k](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgrade-school-math)：__ 来自 GSM8K 数据集的数学文字题（[Cobbe 2021](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14168)）。推理链源自原始数据集。_许可证：_ MIT。\n* __[mawps](https:\u002F\u002Fgithub.com\u002Fsroy9\u002Fmawps)：__ 来自 MAWPS 数学文字题库数据集的数学文字题（[Koncel-Kedziorski 2016](https:\u002F\u002Faclanthology.org\u002FN16-1136.pdf)）。推理链源自原始数据集。_许可证：_ MIT。\n* __[svamp](https:\u002F\u002Fgithub.com\u002Farkilpatel\u002FSVAMP)：__ 数学文字题。来源：SVAMP（[Patel 2021](https:\u002F\u002Faclanthology.org\u002F2021.naacl-main.168\u002F)）。推理链源自原始数据集。_许可证：_ MIT。\n\n### 数据集合集\n为了快速且经济地评估思维链推理能力，我们将上述数据集中的随机示例组合成合集。\n* __ThoughtSource_33__（[Hebenstreit 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02897)）是由常识问答、MedQA（USMLE）、MedMCQA、OpenBookQA、StrategyQA 和 WorldTree V2 各取 33 个样本组成的合集。我们使用十种不同的提示策略生成零样本思维链，并由六种模型执行：davinci-002、davinci-003、GPT-3.5-turbo、GPT-4、Flan-T5-XXL 和 Cohere 的 command-xlarge-nightly。\n\n数据可轻松访问：\n```python\ncollection = Collection.load_thoughtsource_33()\n```\n\n\n我们正在收集和生成更多数据集，并进一步提升现有数据集的质量（参见 [数据集问题](https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues?q=is%3Aissue+label%3Adataset)）。我们也欢迎关于纳入其他数据集的建议。\n\n__我们欢迎数据集贡献！👉 请查看我们的[贡献指南](CONTRIBUTING.md)!__\n\n## 注释工具\n\n\u003Cp align=\"center\">\n  \u003Cimg alt=\"注释工具演示\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenBioLink_ThoughtSource_readme_4362aa1e0cf3.webp\" width=\"80%\">\n\n  该注释工具可以突出显示不同生成的推理链之间的相似之处，从而更容易发现优势与不足，并选出最佳结果。\n\u003C\u002Fp>\n\n\n\u003Cbr\u002F>\n\n\n## 安装与代码结构\n\n### 安装\n在终端中逐行执行：\n```bash\ngit clone git@github.com:OpenBioLink\u002FThoughtSource.git\ncd ThoughtSource\n# 安装 pip 和 virtualenv\nsudo apt install python3-pip\nsudo apt install python3-venv\n# 创建并激活虚拟环境\npython3 -m venv venv\nsource .\u002Fvenv\u002Fbin\u002Factivate\n# 安装依赖和 API 包\npip install -e .\u002Flibs\u002Fcot[api]\n```\n\n### 应用程序\n\n* __[annotator](.\u002Fapps\u002Fannotator)：__ 基于 Web 的思维链数据注释工具。\n\n* __[dataset-viewer](.\u002Fapps\u002Fdataset-viewer\u002F)：__ 用于浏览 ThoughtSource 数据集的 Streamlit 应用程序。\n\n### 库\n\n* __[cot](.\u002Flibs\u002Fcot\u002F)：__\n  *  __dataloader__：创建和处理 ThoughtSource 数据集（基于 Hugging Face 🤗 Datasets 库）。\n  * __generate__：使用多种语言模型生成推理链（目前包括 OpenAI 和 Hugging Face Hub 上的模型）。\n  * __evaluate__：评估通过生成的推理链提取的预测性能。\n\n\n```python\n# 1) 加载数据集并选择一个随机样本\ncollection = Collection([\"worldtree\"], verbose=False)\ncollection = collection.select(split=\"train\", number_samples=10)\n\n# 2) 语言模型生成思维链并提取答案\nconfig={\n    \"instruction_keys\": ['qa-01'], # “通过逐步推理回答以下问题。”\n    \"cot_trigger_keys\": ['kojima-01'], # “答案：让我们一步一步思考。”\n    \"answer_extraction_keys\": ['kojima-A-D'], # “因此，在 A 到 D 中，答案是”\n    \"api_service\": \"huggingface_hub\",\n    \"engine\": \"google\u002Fflan-t5-xl\",\n    \"warn\": False,\n    \"verbose\": False,\n}\ncollection.generate(config=config)\n\n# 3) 性能评估\ncollection.evaluate()\n```\n```\n{'accuracy': {'qa-01_kojima-01_kojima-A-D': 0.6}}\n```\n\n---\n\n\u003Cp align=\"center\">\n 👉 更多代码示例，请参阅\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fblob\u002Fmain\u002Fnotebooks\u002Ftutorial.ipynb\u002F\">\u003Cb>教程笔记本\u003C\u002Fb>\u003C\u002Fa>。\n\u003C\u002Fp>\n\n---\n\n\n## 引用\n```bibtex\n@misc{https:\u002F\u002Fdoi.org\u002F10.48550\u002Farxiv.2301.11596,\n  doi = {10.48550\u002FARXIV.2301.11596},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11596},\n  author = {Ott, Simon and Hebenstreit, Konstantin and Liévin, Valentin and Hother, Christoffer Egeberg and Moradi, Milad and Mayrhauser, Maximilian and Praas, Robert and Winther, Ole and Samwald, Matthias},\n  keywords = {计算与语言 (cs.CL), 人工智能 (cs.AI), FOS：计算机与信息科学, FOS：计算机与信息科学},\n  title = {ThoughtSource：大型语言模型推理数据的中心枢纽},\n  publisher = {arXiv},\n  year = {2023}, \n  copyright = {知识共享署名 4.0 国际许可协议}\n}\n```\n\n## 版本控制\n所有对数据集的更新\u002F更改均以粗体明确标注。\n\n\u003Cdetails>\n\u003Csummary>1.0.0（2023年7月11日）\u003C\u002Fsummary>\n\n- 发布 ThoughtSource_33 合集，每个条目包含 60 条推理链：`Collection.load_thoughtsource_33()`\n- 添加了创建链式命令的选项\n- 增加了 GPT 的聊天功能\n- 添加了针对已生成思维链的筛选功能\n- 新增数据集：**MMLU**（六个医学子集）以及 **MedQA** 的开放式问题版本\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.5（2023年3月10日）\u003C\u002Fsummary>\n\n- 增加了加载后选择保留哪些生成的思维链的功能：`collection.select_generated_cots(author=\"thoughtsource\")`\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.4（2023年3月8日）\u003C\u002Fsummary>\n\n- 改进了评估功能\n- 增加了加载 ThoughtSource100 合集的功能：`Collection.load_thoughtsource_100()`\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.3（2023年2月24日）\u003C\u002Fsummary>\n\n- 发布 ThoughtSource_100 合集，其中包含来自 GPT-text-davinci-003、flan-t5-xxl 和 cohere's command-xl 的推理链\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.2（2023年2月15日）\u003C\u002Fsummary>\n\n- 更新了注释工具，使其符合正确的数据模式（这可能导致从 JSON 文件加载旧数据集时出现错误）\n  - **Pubmed_qa**：将原始模式中的“LONG_ANSWER”作为“cot”纳入 ThoughtSource 模式\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>0.0.1（2023年2月1日）\u003C\u002Fsummary>\n\n- 在 Twitter 上宣布项目后首次发布\n\u003C\u002Fdetails>","# ThoughtSource 快速上手指南\n\nThoughtSource 是一个专注于大语言模型（LLM）思维链（Chain-of-Thought, CoT）推理的开源框架。它提供了标准化的数据集加载器、推理链生成工具以及评估模块，旨在推动可信且鲁棒的 AI 推理研究，特别适用于科学和医疗领域。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu\u002FDebian) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python 版本**: Python 3.8 或更高版本。\n*   **前置依赖**:\n    *   `git`: 用于克隆代码仓库。\n    *   `pip`: Python 包管理工具。\n    *   `python3-venv`: 用于创建虚拟环境。\n\n> **提示**：国内开发者若遇到网络连接问题（如访问 GitHub 或 Hugging Face），建议配置相应的网络加速工具或使用国内镜像源。\n\n## 安装步骤\n\n请在终端中依次执行以下命令来完成安装：\n\n```bash\n# 1. 克隆仓库\ngit clone git@github.com:OpenBioLink\u002FThoughtSource.git\ncd ThoughtSource\n\n# 2. 安装系统级依赖 (Ubuntu\u002FDebian 示例)\nsudo apt install python3-pip\nsudo apt install python3-venv\n\n# 3. 创建并激活虚拟环境\npython3 -m venv venv\nsource .\u002Fvenv\u002Fbin\u002Factivate\n\n# 4. 安装 ThoughtSource 核心库及 API 包\n# 注意：国内用户若 pip 下载缓慢，可添加 -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple 参数\npip install -e .\u002Flibs\u002Fcot[api]\n```\n\n## 基本使用\n\nThoughtSource 的核心功能包括加载数据集、利用大模型生成思维链以及评估结果。以下是最简化的使用流程示例：\n\n### 1. 加载数据集与生成推理链\n\n以下代码演示了如何加载 `worldtree` 数据集的部分样本，并使用 Hugging Face 上的 `flan-t5-xl` 模型生成思维链并提取答案。\n\n```python\nfrom cot import Collection\n\n# 1) 加载数据集并随机选择 10 个样本\ncollection = Collection([\"worldtree\"], verbose=False)\ncollection = collection.select(split=\"train\", number_samples=10)\n\n# 2) 配置生成参数并执行生成\n# instruction_keys: 指令模板\n# cot_trigger_keys: 触发思维链的提示词\n# answer_extraction_keys: 答案提取模板\n# engine: 使用的模型 (支持 OpenAI 或 Hugging Face Hub 上的模型)\nconfig={\n    \"instruction_keys\": ['qa-01'], \n    \"cot_trigger_keys\": ['kojima-01'], \n    \"answer_extraction_keys\": ['kojima-A-D'], \n    \"api_service\": \"huggingface_hub\",\n    \"engine\": \"google\u002Fflan-t5-xl\",\n    \"warn\": False,\n    \"verbose\": False,\n}\n\n# 执行生成过程\ncollection.generate(config=config)\n\n# 3) 评估性能\nresults = collection.evaluate()\nprint(results)\n```\n\n**预期输出示例：**\n```text\n{'accuracy': {'qa-01_kojima-01_kojima-A-D': 0.6}}\n```\n\n### 2. 使用内置应用（可选）\n\nThoughtSource 还包含两个实用的本地应用：\n\n*   **数据集浏览器**: 用于浏览和思考数据集中的样本。\n    ```bash\n    streamlit run apps\u002Fdataset-viewer\u002Fapp.py\n    ```\n*   **标注工具**: 用于对比不同生成的推理链，高亮相似之处以辅助人工评估。\n    ```bash\n    streamlit run apps\u002Fannotator\u002Fapp.py\n    ```\n\n> **更多示例**：详细的代码示例和进阶用法请参考项目自带的 `notebooks\u002Ftutorial.ipynb` 文件。","某医疗 AI 初创团队正致力于开发一款辅助医生进行复杂病例诊断的大语言模型，急需高质量的推理数据来训练模型的“思维链”能力。\n\n### 没有 ThoughtSource 时\n- **数据搜集碎片化**：工程师需手动在 arXiv、GitHub 和各大学术网站间穿梭，寻找分散的 CommonsenseQA 或 MedQA 数据集，耗时数周且极易遗漏关键资源。\n- **格式标准不统一**：不同来源的数据结构各异（有的仅有答案，有的缺乏推理步骤），团队需编写大量自定义脚本进行清洗和对齐，容易引入人为错误。\n- **缺乏高质量标注**：难以获取经过严格验证的“人类生成”推理链条作为黄金标准，导致模型训练只能依赖质量参差不齐的自动生成数据，诊断逻辑不可靠。\n- **复现与对比困难**：由于缺乏统一的基准框架，团队难以复现论文中的最先进（SOTA）结果，也无法公平评估自家模型在科学推理任务上的真实提升。\n\n### 使用 ThoughtSource 后\n- **一站式资源获取**：通过 ThoughtSource 提供的标准化数据加载器，团队几分钟内即可直接调用包含人类标注推理链的 WorldTree 和 EntailmentBank 等医学\u002F科学数据集。\n- **开箱即用的格式**：所有数据自动转换为统一的 Hugging Face 格式，内置了连贯的思维链结构，工程师可立即投入模型微调，无需额外清洗。\n- **可信的黄金标准**：直接利用工具中集成的高质量人类推理数据作为训练靶标，显著提升了模型在复杂医疗问答中的逻辑严密性和可解释性。\n- **高效基准评估**：借助内置的评测流程，团队能快速将模型表现与 Wei 2022 等经典研究进行横向对比，精准定位优化方向。\n\nThoughtSource 通过提供统一、可信的思维链数据枢纽，将医疗 AI 模型的研发周期从数月缩短至数天，并显著提升了诊断推理的可靠性。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenBioLink_ThoughtSource_13d07871.png","OpenBioLink","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenBioLink_a62fcc0c.png","Projects of the Samwald lab at the Institute of Artificial Intelligence, Vienna",null,"https:\u002F\u002Fsamwald.info","https:\u002F\u002Fgithub.com\u002FOpenBioLink",[80,84,88,92,95,98,101],{"name":81,"color":82,"percentage":83},"Jupyter Notebook","#DA5B0B",99.4,{"name":85,"color":86,"percentage":87},"Python","#3572A5",0.6,{"name":89,"color":90,"percentage":91},"TypeScript","#3178c6",0,{"name":93,"color":94,"percentage":91},"SCSS","#c6538c",{"name":96,"color":97,"percentage":91},"JavaScript","#f1e05a",{"name":99,"color":100,"percentage":91},"HTML","#e34c26",{"name":102,"color":103,"percentage":91},"Makefile","#427819",1013,82,"2026-04-01T01:04:54","MIT","Linux","未说明",{"notes":111,"python":112,"dependencies":113},"README 中仅提供了基于 Linux (apt) 的安装指令，未明确提及 macOS 或 Windows 支持。未指定具体的 GPU、显存或内存需求，实际资源消耗取决于所加载的大语言模型大小。核心功能依赖 Hugging Face 🤗 Datasets 库进行数据加载，并支持调用 OpenAI 或 Hugging Face Hub 上的模型生成推理链。标注工具 (Annotator) 和数据集查看器 (Dataset Viewer) 为基于 Web 的应用程序。","3.x (通过 python3-pip 和 python3-venv 推断)",[114,115,116],"Hugging Face Datasets","OpenAI API (可选)","Streamlit (用于 dataset-viewer)",[14,35,16],[119,120,121,122,123],"dataset","machine-learning","natural-language-processing","question-answering","reasoning","2026-03-27T02:49:30.150509","2026-04-07T03:50:12.906079",[127,132,137,141,146,151,156,161],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},20823,"如何处理数据集中思维链（CoT）条目的大小写不一致和多余空格问题？","建议进行后处理修复：1. 将每个 CoT 条目的首字母大写；2. 将逗号周围多余的空格（如 \" , \"）替换为标准格式（\",\"），因为分词应留给下游处理模型完成。维护者指出，应保持文本的“自然”状态，避免预分词，以便与模型预训练数据保持一致。","https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues\u002F7",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},20824,"对于数据集中存在的拼写和语法错误，有什么推荐的自动修正工具吗？","可以使用 Hugging Face 上的语法纠错模型进行半自动修正，例如 `prithivida\u002Fgrammar_error_correcter_v1` 或 `Gramformer` 库。不过维护者建议，目前优先修复大小写等简单问题，复杂的语法纠错可留作未来工作。","https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues\u002F19",{"id":138,"question_zh":139,"answer_zh":140,"source_url":136},20825,"在使用 NLTK 对思维链（CoT）进行句子分割时遇到失败怎么办？","NLTK 的 sent_tokenizer 在某些包含复杂逻辑或引号的 CoT 长句中可能会失效（例如无法正确分割数学问题描述）。如果遇到这种情况，可能需要自定义分割逻辑或手动检查特定失败的案例，因为通用的分词器可能无法处理所有特定的上下文结构。",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},20826,"发现 AQuA 数据集中的答案或推理过程存在计算错误该如何处理？","数据集中确实存在已知的计算错误。例如：1. 某题正确答案应为 72000 而非标注的 78000；2. 某题在单位换算时将除法误用为乘法（导致结果 32400 错误）。用户在使用该数据集进行训练或评估时，需特别注意验证推理步骤的逻辑正确性，必要时进行人工修正。","https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues\u002F18",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},20827,"是否应该移除单行思维链（CoT）中的 \"First, ...\" 前缀？","是的，对于只有一行的 CoT，建议通过后期处理移除 \"First, [...]\" 这样的前缀，以使文本更自然。此外，对于从源数据继承的多余空格和大小写问题，也应一并清理，确保输入格式统一且符合自然语言习惯。","https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues\u002F9",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},20828,"当数据集中出现实体同义词替代格式（如 \"(plant ; tree)\"）时，应该如何标准化处理？","为了保持 Schema 简单，建议采取务实的做法：每次直接选取替代项中的第一个值（例如只保留 \"plant\"），并删除其他同义词。虽然也可以设计复杂的引用系统（如 Jinja 模板或 synsets 字段），但在当前阶段不推荐扩展数据结构，以免增加复杂性。","https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues\u002F5",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},20829,"下载示例文件（如 worldtree_10.json）用于在线标注工具时报错“格式不正确”怎么办？","这通常是因为文件保存方式错误。不要直接右键点击链接选择“另存为”，这样保存的可能不是原始 JSON 格式。正确的做法是：在 GitHub 页面上点击文件内容右上角的 \"Raw\" 按钮，然后在打开的纯文本页面中右键选择“另存为”或使用 `curl\u002Fwget` 下载原始链接，以确保文件格式正确。","https:\u002F\u002Fgithub.com\u002FOpenBioLink\u002FThoughtSource\u002Fissues\u002F113",{"id":162,"question_zh":163,"answer_zh":164,"source_url":145},20830,"数据集中的多项选择题选项引用（A, B, C...）需要统一格式化吗？","不需要额外操作。AQuA 等数据集已经在思维链的其他部分（不仅是最终答案）使用了 A, B, C 等引用方式。维护者同意标准化使用 A, B, C 模式，因此这类数据集本身已经符合标准，无需进一步清洗。",[166,171,176,181,186,191],{"id":167,"version":168,"summary_zh":169,"released_at":170},126831,"v1.0.0","    发布了 ThoughtSource_33 数据集，每个样本包含 60 条推理链：Collection.load_thoughtsource_33()\n    新增了创建链式指令的选项\n    新增了 GPT 对话选项\n    新增了对已生成思维链的筛选功能\n    新增了数据集：MMLU（六个医学子集）以及 MedQA 的开放式问题版本\n","2023-07-11T16:04:06",{"id":172,"version":173,"summary_zh":174,"released_at":175},126832,"v0.0.5","现在可以使用任意参数来选择特定的 generated_cots 了：\n例如，选择来自 Wei 且 cot_trigger 为 None 的所有 generated_cots：\n\n```python\ncoll = Collection([\"commonsense_qa\"], load_pregenerated_cots=True)\ncoll = coll.select(\"validation\")\n# 选择在 Collection 中保留哪些 generated_cots\ncoll.select_generated_cots(author=\"wei\", cot_trigger=None)\n```","2023-03-10T16:20:54",{"id":177,"version":178,"summary_zh":179,"released_at":180},126833,"v0.0.4","评估功能已改进。新增加载 ThoughtSource100 数据集的函数：Collection.load_thoughtsource_100()","2023-03-08T11:34:01",{"id":182,"version":183,"summary_zh":184,"released_at":185},126834,"v0.0.3","ThoughtSource_100 数据集已发布，包含来自 GPT-Text-Davinci-003、Flan-T5-XXL 和 Cohere 的 Command-XL 的推理链。","2023-03-08T10:41:18",{"id":187,"version":188,"summary_zh":189,"released_at":190},126835,"v0.0.2","标注工具已更新，以匹配正确的数据模式（这可能导致从 JSON 文件加载旧数据集时出现错误）。\n\n数据集中的变更：\n&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; **Pubmed_qa**：将原始模式中的“LONG_ANSWER”字段在 ThoughtSource 模式中作为“cot”字段引入。","2023-03-08T10:40:14",{"id":192,"version":193,"summary_zh":194,"released_at":195},126836,"v0.0.1","Twitter宣布该项目后的首次发布","2023-03-08T10:35:21"]