[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mims-harvard--TDC":3,"tool-mims-harvard--TDC":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":94,"env_os":95,"env_gpu":95,"env_ram":95,"env_deps":96,"category_tags":105,"github_topics":107,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":123,"updated_at":124,"faqs":125,"releases":154},7930,"mims-harvard\u002FTDC","TDC","Therapeutics Commons (TDC): Multimodal Foundation for Therapeutic Science","TDC（Therapeutics Data Commons）是一个专为药物研发领域打造的多模态人工智能基础平台。它致力于解决当前 AI 制药研究中数据分散、任务定义不统一以及缺乏标准化评估基准的痛点，填补了生物化学专家与人工智能科学家之间的协作鸿沟。\n\n通过整合覆盖药物发现全阶段的丰富数据集、明确的可计算任务以及精心策划的基准测试，TDC 让研究人员能够便捷地访问高质量数据，公平地对比不同算法的性能，从而加速机器学习方法从理论验证到临床应用的转化进程。其独特的技术亮点在于提供了跨治疗模式的统一接口和标准化的评估体系，支持对多种 AI 模型进行系统性基准测试。\n\nTDC 非常适合从事药物发现、计算生物学及医疗 AI 算法开发的研究人员使用，同时也欢迎希望利用前沿 AI 技术探索生命科学问题的开发者加入。作为一个开放科学项目，TDC 不仅提供工具，更构建了一个促进跨学科交流与共同进步的社区生态，助力全球科研团队更高效地推动治疗科学的创新。","\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_1af4264f9a59.png\" alt=\"logo\" width=\"600px\" \u002F>\u003C\u002Fp>\n\n----\n\n[![website](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fwebsite-live-brightgreen)](https:\u002F\u002Ftdcommons.ai)\n[![PyPI version](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002FPyTDC.svg)](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002FPyTDC)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_07d52b0315b5.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fpytdc)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_f617c87ed07f.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fpytdc)\n[![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmims-harvard\u002FTDC)](https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fstargazers)\n[![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fmims-harvard\u002FTDC)](https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fnetwork\u002Fmembers)\n\n[![TDC CircleCI](https:\u002F\u002Fcircleci.com\u002Fgh\u002Fmims-harvard\u002FTDC.svg?style=svg)](https:\u002F\u002Fapp.circleci.com\u002Fpipelines\u002Fgithub\u002Fmims-harvard\u002FTDC)\n![Conda Github Actions Build](https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Factions\u002Fworkflows\u002Fconda-tests.yml\u002Fbadge.svg)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_13d664e1afd7.png)](http:\u002F\u002Ftdc.readthedocs.io\u002F?badge=latest)\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002Fcloudposse.svg?style=social&label=Follow%20%40ProjectTDC)](https:\u002F\u002Ftwitter.com\u002FProjectTDC)\n\n\n[**Website**](https:\u002F\u002Ftdcommons.ai) | [**NeurIPS 2024 AIDrugX Paper**](https:\u002F\u002Fopenreview.net\u002Fforum?id=kL8dlYp6IM) | [**Nature Chemical Biology 2022 Paper**](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41589-022-01131-2) | [**NeurIPS 2021 Paper**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=8nvgnORnoWr) | [**Long Paper**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09548) | [**Slack**](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fpytdc\u002Fshared_invite\u002Fzt-x0ujg5v6-zwtQZt83fhRdgrYjXRFz5g) | [**TDC Mailing List**](https:\u002F\u002Fgroups.io\u002Fg\u002Ftdc) | [**TDC Documentation**](https:\u002F\u002Ftdc.readthedocs.io\u002F) | [**Contribution Guidelines**](CONTRIBUTE.md) \n\nArtificial intelligence is poised to reshape therapeutic science. **Therapeutics Data Commons** is a coordinated initiative to access and evaluate artificial intelligence capability across therapeutic modalities and stages of discovery. It supports the development of AI methods and aims to establish the foundation of which AI methods are most suitable for drug discovery applications and why.\n\nResearchers across disciplines can use TDC for numerous applications. AI-solvable tasks, AI-ready datasets, and curated benchmarks in TDC serve as a meeting point between biochemical and AI scientists. TDC facilitates algorithmic and scientific advances and accelerates machine learning method development, validation, and transition into biomedical and clinical implementation.\n\nTDC is an open-science initiative. We welcome [contributions from the community.](CONTRIBUTE.md)\n\n## Key TDC Presentations and Publications\n\n[1] Velez-Arce, Huang, Li, Lin, et al., Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics, NeurIPS AIDrugX, 2024 [**\\[Paper\\]**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=kL8dlYp6IM) [**\\[Slides\\]**](https:\u002F\u002Fneurips.cc\u002Fmedia\u002Fneurips-2024\u002FSlides\u002F102832.pdf)\n\n[2] Huang, Fu, Gao, et al., Artificial Intelligence Foundation for Therapeutic Science, Nature Chemical Biology, 2022 [**\\[Paper\\]**](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41589-022-01131-2)\n\n[3] Huang, Fu, Gao, et al., Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development, NeurIPS 2021 [**\\[Paper\\]**](https:\u002F\u002Fopenreview.net\u002Fforum?id=8nvgnORnoWr) [**\\[Poster\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1LfF8mfPLUqAVEzH3KPBxDO_VF7nLFtiJ\u002Fview?usp=sharing)\n\n[4] Huang et al., Benchmarking Molecular Machine Learning in Therapeutics Data Commons, ELLIS ML4Molecules 2021 [**\\[Paper\\]**](https:\u002F\u002Fcloud.ml.jku.at\u002Fs\u002F54pB5Eqf6ftX7qA) [**\\[Slides\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1iOSW_5eruca4vdygDxS1H64c49oQuH40\u002Fview?usp=sharing)\n\n[5] Huang et al., Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development, Baylearn 2021 [**\\[Slides\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1BNpk3dOdqE3ksgyVV-V3xySdBMq-8cXL\u002Fview?usp=sharing) [**\\[Poster\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1LfF8mfPLUqAVEzH3KPBxDO_VF7nLFtiJ\u002Fview?usp=sharing)\n\n[6] Huang, Fu, Gao et al., Therapeutics Data Commons, NSF-Harvard Symposium on Drugs for Future Pandemics 2020 [**\\[#futuretx20\\]**](https:\u002F\u002Fwww.drugsymposium.org\u002F) [**\\[Slides\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11eTrh_lsqPcwu3RZRYjJGNpJ3s18YlBS\u002Fview) [**\\[Video\\]**](https:\u002F\u002Fyoutu.be\u002FZuCOhEZtaOw)\n\n[7] [TDC User Group Meetup, Jan 2022](https:\u002F\u002Fharvard.zoom.us\u002Frec\u002Fshare\u002FHO0TjRPs56YG-Fu3i033izaTwebB4KwUhPeNURkWSI-anrH9su03lCtUlHeZG-WP.67ZJmAIHsD7Q_2GQ) [**\\[Agenda\\]**](https:\u002F\u002Fshoutout.wix.com\u002Fso\u002Fd1Nv1pC2d#\u002Fmain)\n\n[8] Zitnik, Machine Learning to Translate the Cancer Genome and Epigenome Session, [AACR Annual Meeting 2022, Apr 2022](https:\u002F\u002Fwww.aacr.org\u002Fmeeting\u002Faacr-annual-meeting-2022\u002F)\n\n[9] Zitnik, Few-Shot Learning for Network Biology, [Keynote at KDD Workshop on Data Mining in Bioinformatics](https:\u002F\u002Fbiokdd.org\u002Fbiokdd21\u002Fkeynote.html)\n\n[10] Zitnik, Actionable machine learning for drug discovery and development, [Broad Institute, Models, Inference & Algorithms Seminar, 2021](https:\u002F\u002Fwww.broadinstitute.org\u002Ftalks\u002Factionable-machine-learning-drug-discovery-and-development)\n\n[11] Zitnik, Graph Neural Networks for Biomedical Data, [Machine Learning in Computational Biology, 2020](https:\u002F\u002Fsites.google.com\u002Fcs.washington.edu\u002Fmlcb2020\u002Fschedule?authuser=0)\n\n[12] Zitnik, Graph Neural Networks for Identifying COVID-19 Drug Repurposing Opportunities, [MIT AI Cures, 2020](https:\u002F\u002Fwww.aicures.mit.edu\u002Fdrugdiscoveryconference)\n\n\n## Unique Features of TDC\n\n- *Diverse areas of therapeutics development*: TDC covers a wide range of learning tasks, including target discovery, activity screening, efficacy, safety, and manufacturing across biomedical products, including small molecules, antibodies, and vaccines.\n- *Ready-to-use datasets*: TDC is minimally dependent on external packages. Any TDC dataset can be retrieved using only three lines of code.\n- *Data functions*: TDC provides extensive data functions, including data evaluators, meaningful data splits, data processors, and molecule generation oracles.\n- *Leaderboards*: TDC provides benchmarks for fair model comparison and systematic model development and evaluation.\n- *Open-source initiative*: TDC is an open-source initiative. If you'd like to get involved, please don't hesitate to let us know.\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_efc275f1b368.png\" alt=\"overview\" width=\"600px\" \u002F>\u003C\u002Fp>\n\nSee [here](https:\u002F\u002Ftdcommons.ai\u002Fnews\u002F) for the latest updates in TDC!\n\n## Installation\n\n### Using `pip`\n\nTo install the core environment dependencies of TDC, use `pip`:\n\n```bash\npip install PyTDC\n```\n\n**Note**: TDC is in the beta release. Please update your local copy regularly by\n\n```bash\npip install PyTDC --upgrade\n```\n\nThe core data loaders are lightweight with minimum dependency on external packages:\n\n```bash\nnumpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn\n```\n\n## Tutorials\n\nWe provide  tutorials to get started with TDC:\n\n| Name  | Description                                             |\n|-------|---------------------------------------------------------|\n| [101](tutorials\u002FTDC_101_Data_Loader.ipynb)   | Introduce TDC Data Loaders                              |\n| [102](tutorials\u002FTDC_102_Data_Functions.ipynb)   | Introduce TDC Data Functions                            |\n| [103.1](tutorials\u002FTDC_103.1_Datasets_Small_Molecules.ipynb) | Walk through TDC Small Molecule Datasets                |\n| [103.2](tutorials\u002FTDC_103.2_Datasets_Biologics.ipynb) | Walk through TDC Biologics Datasets                     |\n| [104](tutorials\u002FTDC_104_ML_Model_DeepPurpose.ipynb)   | Generate 21 ADME ML Predictors with 15 Lines of Code |\n| [105](tutorials\u002FTDC_105_Oracle.ipynb)   | Molecule Generation Oracles                             |\n| [106](tutorials\u002FTDC_106_BenchmarkGroup_Submission_Demo.ipynb)   | Benchmark submission                             |\n| [DGL](tutorials\u002FDGL_User_Group_Demo.ipynb)   | Demo presented at DGL GNN User Group Meeting                             |\n| [U1.1](tutorials\u002FUser_Group\u002FUserGroupMeeting_Tianfan.ipynb)   | Demo presented at first TDC User Group Meetup                             |\n| [U1.2](tutorials\u002FUser_Group\u002FUserGroupMeeting_Wenhao.ipynb)   | Demo presented at first TDC User Group Meetup                             |\n| [201](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1xTgBwKUfP2b8j6Fqh28M2GUp2ScfENMX?usp=sharing) | TDC-2 Resource and Multi-modal Single-Cell API |\n| [202](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1kYH8nt3nW7tXYBPNcfYuDbWxGTqOEnWg?usp=sharing) | TDC-2 Resource and PrimeKG |\n| [203](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F13MYlg5tWpywWbKYsJQXafKAlVF2hz-sP?usp=sharing) | TDC-2 Resource and External APIs |\n| [204](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F17Pd328W27mn-iBCRkHIa78L3pukKcfW1?usp=sharing) | TDC-2 Model Hub |\n| [205](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1kHdFG4gUic5nmiul7b1hUh0HLCxLQnw_?usp=sharing) | TDC-2 Molecular Property Cliff Prediction Task |\n\n\n## Design of TDC\n\nTDC has a unique three-tiered hierarchical structure, which to our knowledge, is the first attempt at systematically organizing machine learning for therapeutics. We organize TDC into three distinct *problems*. For each problem, we provide a collection of *learning tasks*. Finally, for each task, we provide a series of *datasets*.\n\nIn the first tier, after observing a large set of therapeutics tasks, we categorize and abstract out three major areas (i.e., problems) where machine learning can facilitate scientific advances, namely, single-instance prediction, multi-instance prediction, and generation:\n\n* Single-instance prediction `single_pred`: Prediction of property given individual biomedical entity.\n* Multi-instance prediction `multi_pred`: Prediction of property given multiple biomedical entities.\n* Generation `generation`: Generation of new desirable biomedical entities.\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_6e1b992ff12c.png\" alt=\"problems\" width=\"500px\" \u002F>\u003C\u002Fp>\n\nThe second tier in the TDC structure is organized into learning tasks. Improvement in these tasks can result in numerous applications, including identifying personalized combinatorial therapies, designing novel classes of antibodies, improving disease diagnosis, and finding new cures for emerging diseases.\n\nFinally, in the third tier of TDC, each task is instantiated via multiple datasets. For each dataset, we provide several splits into training, validation, and test sets to simulate the type of understanding and generalization (e.g., the model's ability to generalize to entirely unseen compounds or to granularly resolve patient response to a polytherapy) needed for transition into production and clinical implementation.\n\n\n## TDC Data Loaders\n\nTDC provides a collection of workflows with intuitive, high-level APIs for both beginners and experts to create machine learning models in Python. Building off the modularized \"Problem -- Learning Task -- Data Set\" structure (see above) in TDC, we provide a three-layer API to access any learning task and dataset. This hierarchical API design allows us to easily incorporate new tasks and datasets.\n\nFor a concrete example, to obtain the HIA dataset from the ADME therapeutic learning task in the single-instance prediction problem:\n\n```python\nfrom tdc.single_pred import ADME\ndata = ADME(name = 'HIA_Hou')\n# split into train\u002Fval\u002Ftest with scaffold split methods\nsplit = data.get_split(method = 'scaffold')\n# get the entire data in the various formats\ndata.get_data(format = 'df')\n```\n\nYou can see all the datasets that belong to a task as follows:\n\n```python\nfrom tdc.utils import retrieve_dataset_names\nretrieve_dataset_names('ADME')\n```\n\nSee all therapeutic tasks and datasets on the [TDC website](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Foverview\u002F)!\n\n## TDC Data Functions\n\n#### Dataset Splits\n\nTo retrieve the training\u002Fvalidation\u002Ftest dataset split, you could type\n```python\ndata = X(name = Y)\ndata.get_split(seed = 42)\n# {'train': df_train, 'val': df_val, 'test': df_test}\n```\nYou can specify the function's splitting method, random seed, and split fractions by, e.g., `data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2])`. Check the [data split page](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Fdata_split\u002F) for details.\n\n#### Strategies for Model Evaluation\n\nWe provide various evaluation metrics for the tasks in TDC, described in [model evaluation page](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Fdata_evaluation\u002F) on the website. For example, to use metric ROC-AUC, you could type\n\n```python\nfrom tdc import Evaluator\nevaluator = Evaluator(name = 'ROC-AUC')\nscore = evaluator(y_true, y_pred)\n```\n\n#### Data Processing\n\nTDC provides numerous data processing functions, including label transformation, data balancing, pairing data to PyG\u002FDGL graphs, negative sampling, database querying, and so on. For function usage, see our [data processing page](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Fdata_process\u002F) on the TDC website.\n\n#### Molecule Generation Oracles\n\nFor molecule generation tasks, we provide 10+ oracles for both goal-oriented and distribution learning. For detailed usage of each oracle, please have a look at the [oracle page](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Foracles\u002F) on the website. For example, we want to retrieve the GSK3Beta oracle:\n\n```python\nfrom tdc import Oracle\noracle = Oracle(name = 'GSK3B')\noracle(['CC(C)(C)....'\n  'C[C@@H]1....',\n  'CCNC(=O)....',\n  'C[C@@H]1....'])\n\n# [0.03, 0.02, 0.0, 0.1]\n```\n\n## TDC Leaderboards\n\nEvery dataset in TDC is a benchmark, and we provide training\u002Fvalidation and test sets for it, together with data splits and performance evaluation metrics. To participate in the leaderboard for a specific benchmark, follow these steps:\n\n* Use the TDC benchmark data loader to retrieve the benchmark.\n\n* Use training and\u002For validation set to train your model.\n\n* Use the TDC model evaluator to calculate your model's performance on the test set.\n\n* Submit the test set performance to a TDC leaderboard.\n\nAs many datasets share a therapeutics theme, we organize benchmarks into meaningfully defined groups, which we refer to as benchmark groups. Datasets and tasks within a benchmark group are carefully curated and centered around a theme (for example, TDC contains a benchmark group to support ML predictions of the ADMET properties). While every benchmark group consists of multiple benchmarks, it is possible to separately submit results for each benchmark. Here is the code framework to access the benchmarks:\n\n```python\nfrom tdc import BenchmarkGroup\ngroup = BenchmarkGroup(name = 'ADMET_Group', path = 'data\u002F')\npredictions_list = []\n\nfor seed in [1, 2, 3, 4, 5]:\n    benchmark = group.get('Caco2_Wang')\n    # all benchmark names in a benchmark group are stored in group.dataset_names\n    predictions = {}\n    name = benchmark['name']\n    train_val, test = benchmark['train_val'], benchmark['test']\n    train, valid = group.get_train_valid_split(benchmark = name, split_type = 'default', seed = seed)\n\n        # --------------------------------------------- #\n        #  Train your model using train, valid, test    #\n        #  Save test prediction in y_pred_test variable #\n        # --------------------------------------------- #\n\n    predictions[name] = y_pred_test\n    predictions_list.append(predictions)\n\nresults = group.evaluate_many(predictions_list)\n# {'caco2_wang': [6.328, 0.101]}\n```\n\nFor more information, visit [here](https:\u002F\u002Ftdcommons.ai\u002Fbenchmark\u002Foverview\u002F).\n\n\n## Cite Us\n\nIf you find Therapeutics Data Commons useful, cite our [NeurIPS'24 AIDrugX paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=kL8dlYp6IM), our [NeurIPS paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=8nvgnORnoWr), and [Nature Chemical Biology paper](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41589-022-01131-2) :\n\n```\n@article{Huang2021tdc,\n  title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},\n  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,\n          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},\n  journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},\n  year={2021}\n}\n```\n\n```\n@article{Huang2022artificial,\n  title={Artificial intelligence foundation for therapeutic science},\n  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,\n          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},\n  journal={Nature Chemical Biology},\n  year={2022}\n}\n\n```\n@inproceedings{\nvelez-arce2024signals,\ntitle={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},\nauthor={Alejandro Velez-Arce and Xiang Lin and Kexin Huang and Michelle M Li and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},\nbooktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},\nyear={2024},\nurl={https:\u002F\u002Fopenreview.net\u002Fforum?id=kL8dlYp6IM}\n}\n```\n```\n\nTDC is built on top of other open-sourced projects. Additionally, please cite the original work if you used these datasets\u002Ffunctions in your research. You can find the original paper for the function\u002Fdataset on the website.\n\n## Contribute\n\nTDC is a community-driven and open-science initiative. To get involved, join our [Slack Workspace](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fpytdc\u002Fshared_invite\u002Fzt-x0ujg5v6-zwtQZt83fhRdgrYjXRFz5g) and check out the [contribution guide](CONTRIBUTE.md)!\n\n## Contact\n\nReach us at [contact@tdcommons.ai](mailto:contact@tdcommons.ai) or open a GitHub issue.\n\n## Data Server\n\nMany TDC datasets are hosted on [Harvard Dataverse](https:\u002F\u002Fdataverse.harvard.edu\u002Fdataset.xhtml?persistentId=doi:10.7910\u002FDVN\u002F21LKWG) with the following persistent identifier [https:\u002F\u002Fdoi.org\u002F10.7910\u002FDVN\u002F21LKWG](https:\u002F\u002Fdoi.org\u002F10.7910\u002FDVN\u002F21LKWG). When Dataverse is under maintenance, TDC datasets cannot be retrieved. That happens rarely; please check the status on [the Dataverse website](https:\u002F\u002Fdataverse.harvard.edu\u002F).\n\n## License\nThe TDC codebase is licensed under the MIT license. For individual dataset usage, please refer to the dataset license on the website.\n","\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_1af4264f9a59.png\" alt=\"logo\" width=\"600px\" \u002F>\u003C\u002Fp>\n\n----\n\n[![网站](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fwebsite-live-brightgreen)](https:\u002F\u002Ftdcommons.ai)\n[![PyPI版本](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002FPyTDC.svg)](https:\u002F\u002Fbadge.fury.io\u002Fpy\u002FPyTDC)\n[![月下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_07d52b0315b5.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fpytdc)\n[![总下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_f617c87ed07f.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fpytdc)\n[![GitHub仓库星标数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmims-harvard\u002FTDC)](https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fstargazers)\n[![GitHub仓库分支数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fmims-harvard\u002FTDC)](https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fnetwork\u002Fmembers)\n\n[![TDC CircleCI](https:\u002F\u002Fcircleci.com\u002Fgh\u002Fmims-harvard\u002FTDC.svg?style=svg)](https:\u002F\u002Fapp.circleci.com\u002Fpipelines\u002Fgithub\u002Fmims-harvard\u002FTDC)\n![Conda GitHub Actions 构建](https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Factions\u002Fworkflows\u002Fconda-tests.yml\u002Fbadge.svg)\n[![文档状态](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_13d664e1afd7.png)](http:\u002F\u002Ftdc.readthedocs.io\u002F?badge=latest)\n[![许可证：MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002Fcloudposse.svg?style=social&label=关注%20@ProjectTDC)](https:\u002F\u002Ftwitter.com\u002FProjectTDC)\n\n\n[**网站**](https:\u002F\u002Ftdcommons.ai) | [**NeurIPS 2024 AIDrugX 论文**](https:\u002F\u002Fopenreview.net\u002Fforum?id=kL8dlYp6IM) | [**Nature Chemical Biology 2022 论文**](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41589-022-01131-2) | [**NeurIPS 2021 论文**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=8nvgnORnoWr) | [**长篇论文**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09548) | [**Slack 社区**](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fpytdc\u002Fshared_invite\u002Fzt-x0ujg5v6-zwtQZt83fhRdgrYjXRFz5g) | [**TDC 邮件列表**](https:\u002F\u002Fgroups.io\u002Fg\u002Ftdc) | [**TDC 文档**](https:\u002F\u002Ftdc.readthedocs.io\u002F) | [**贡献指南**](CONTRIBUTE.md) \n\n人工智能有望重塑治疗科学。**Therapeutics Data Commons** 是一项协调一致的倡议，旨在跨治疗方式和发现阶段评估与利用人工智能的能力。它支持人工智能方法的发展，并致力于建立基础，以明确哪些人工智能方法最适合药物研发应用及其原因。\n\n不同学科的研究人员可以将 TDC 应用于多种场景。TDC 中的可被 AI 解决的任务、适合 AI 的数据集以及精心策划的基准测试，为生物化学家和人工智能科学家搭建了交流平台。TDC 促进了算法和科学的进步，加速了机器学习方法的研发、验证及其向生物医学和临床实践的转化。\n\nTDC 是一项开放科学倡议。我们欢迎来自社区的[贡献。](CONTRIBUTE.md)\n\n## TDC 主要报告与出版物\n\n[1] Velez-Arce, Huang, Li, Lin 等人，《细胞中的信号：面向治疗学的多模态与情境化机器学习基础》，NeurIPS AIDrugX，2024年 [**\\[论文\\]**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=kL8dlYp6IM) [**\\[演示文稿\\]**](https:\u002F\u002Fneurips.cc\u002Fmedia\u002Fneurips-2024\u002FSlides\u002F102832.pdf)\n\n[2] Huang, Fu, Gao 等人，《治疗科学的人工智能基础》，Nature Chemical Biology，2022年 [**\\[论文\\]**](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41589-022-01131-2)\n\n[3] Huang, Fu, Gao 等人，《治疗数据共同体：用于药物发现与开发的机器学习数据集及任务》，NeurIPS 2021 [**\\[论文\\]**](https:\u002F\u002Fopenreview.net\u002Fforum?id=8nvgnORnoWr) [**\\[海报\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1LfF8mfPLUqAVEzH3KPBxDO_VF7nLFtiJ\u002Fview?usp=sharing)\n\n[4] Huang 等人，《在治疗数据共同体中对分子机器学习进行基准测试》，ELLIS ML4Molecules 2021 [**\\[论文\\]**](https:\u002F\u002Fcloud.ml.jku.at\u002Fs\u002F54pB5Eqf6ftX7qA) [**\\[演示文稿\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1iOSW_5eruca4vdygDxS1H64c49oQuH40\u002Fview?usp=sharing)\n\n[5] Huang 等人，《治疗数据共同体：用于药物发现与开发的机器学习数据集及任务》，Baylearn 2021 [**\\[演示文稿\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1BNpk3dOdqE3ksgyVV-V3xySdBMq-8cXL\u002Fview?usp=sharing) [**\\[海报\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1LfF8mfPLUqAVEzH3KPBxDO_VF7nLFtiJ\u002Fview?usp=sharing)\n\n[6] Huang, Fu, Gao 等人，《治疗数据共同体》，NSF-Harvard 关于未来大流行病药物的研讨会，2020年 [**\\[#futuretx20\\]**](https:\u002F\u002Fwww.drugsymposium.org\u002F) [**\\[演示文稿\\]**](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11eTrh_lsqPcwu3RZRYjJGNpJ3s18YlBS\u002Fview) [**\\[视频\\]**](https:\u002F\u002Fyoutu.be\u002FZuCOhEZtaOw)\n\n[7] [TDC 用户组聚会，2022年1月](https:\u002F\u002Fharvard.zoom.us\u002Frec\u002Fshare\u002FHO0TjRPs56YG-Fu3i033izaTwebB4KwUhPeNURkWSI-anrH9su03lCtUlHeZG-WP.67ZJmAIHsD7Q_2GQ) [**\\[议程\\]**](https:\u002F\u002Fshoutout.wix.com\u002Fso\u002Fd1Nv1pC2d#\u002Fmain)\n\n[8] Zitnik，《将癌症基因组与表观基因组翻译成语言的机器学习》专题讨论会，[AACR 年会 2022，2022年4月](https:\u002F\u002Fwww.aacr.org\u002Fmeeting\u002Faacr-annual-meeting-2022\u002F)\n\n[9] Zitnik，《网络生物学中的少量样本学习》，[KDD 生物信息学数据挖掘研讨会主题演讲](https:\u002F\u002Fbiokdd.org\u002Fbiokdd21\u002Fkeynote.html)\n\n[10] Zitnik，《可用于药物发现与开发的可行动机器学习》，[布罗德研究所“模型、推理与算法”研讨会，2021年](https:\u002F\u002Fwww.broadinstitute.org\u002Ftalks\u002Factionable-machine-learning-drug-discovery-and-development)\n\n[11] Zitnik，《用于生物医学数据的图神经网络》，[计算生物学中的机器学习，2020年](https:\u002F\u002Fsites.google.com\u002Fcs.washington.edu\u002Fmlcb2020\u002Fschedule?authuser=0)\n\n[12] Zitnik，《利用图神经网络识别 COVID-19 药物再利用机会》，[MIT AI Cures，2020年](https:\u002F\u002Fwww.aicures.mit.edu\u002Fdrugdiscoveryconference)\n\n\n## TDC 的独特优势\n\n- *覆盖广泛的治疗研发领域*：TDC 涵盖多样化的学习任务，包括靶点发现、活性筛选、药效、安全性及生产制造等，适用于小分子、抗体和疫苗等多种生物医学产品。\n- *即用型数据集*：TDC 对外部依赖极少。只需三行代码即可获取任何 TDC 数据集。\n- *数据功能*：TDC 提供丰富的数据处理工具，包括数据评估器、有意义的数据划分、数据预处理工具以及分子生成预言机等。\n- *排行榜*：TDC 提供基准测试，便于公平地比较模型，并系统地开发与评估模型。\n- *开源倡议*：TDC 是一项开源倡议。如果您希望参与其中，请随时与我们联系。\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_efc275f1b368.png\" alt=\"overview\" width=\"600px\" \u002F>\u003C\u002Fp>\n\n更多 TDC 最新动态请见[这里](https:\u002F\u002Ftdcommons.ai\u002Fnews\u002F)！\n\n## 安装\n\n### 使用 `pip`\n\n要安装 TDC 的核心环境依赖，请使用 `pip`：\n\n```bash\npip install PyTDC\n```\n\n**注意**：TDC 目前处于测试版阶段。请定期通过以下命令更新本地副本：\n\n```bash\npip install PyTDC --upgrade\n```\n\nTDC 的核心数据加载器非常轻量，对外部包的依赖极少：\n\n```bash\nnumpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn\n```\n\n## 教程\n\n我们提供了多个教程来帮助您快速上手 TDC：\n\n| 名称  | 描述                                             |\n|-------|---------------------------------------------------------|\n| [101](tutorials\u002FTDC_101_Data_Loader.ipynb)   | 介绍 TDC 数据加载器                              |\n| [102](tutorials\u002FTDC_102_Data_Functions.ipynb)   | 介绍 TDC 数据处理函数                            |\n| [103.1](tutorials\u002FTDC_103.1_Datasets_Small_Molecules.ipynb) | 演示 TDC 小分子数据集                            |\n| [103.2](tutorials\u002FTDC_103.2_Datasets_Biologics.ipynb) | 演示 TDC 生物制剂数据集                          |\n| [104](tutorials\u002FTDC_104_ML_Model_DeepPurpose.ipynb)   | 用 15 行代码生成 21 个 ADME 机器学习预测模型     |\n| [105](tutorials\u002FTDC_105_Oracle.ipynb)   | 分子生成预言机                                   |\n| [106](tutorials\u002FTDC_106_BenchmarkGroup_Submission_Demo.ipynb)   | 基准测试提交演示                                 |\n| [DGL](tutorials\u002FDGL_User_Group_Demo.ipynb)   | 在 DGL GNN 用户组会议上展示的演示                |\n| [U1.1](tutorials\u002FUser_Group\u002FUserGroupMeeting_Tianfan.ipynb)   | 在首次 TDC 用户组聚会上展示的演示                |\n| [U1.2](tutorials\u002FUser_Group\u002FUserGroupMeeting_Wenhao.ipynb)   | 在首次 TDC 用户组聚会上展示的演示                |\n| [201](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1xTgBwKUfP2b8j6Fqh28M2GUp2ScfENMX?usp=sharing) | TDC-2 资源与多模态单细胞 API                     |\n| [202](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1kYH8nt3nW7tXYBPNcfYuDbWxGTqOEnWg?usp=sharing) | TDC-2 资源与 PrimeKG                             |\n| [203](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F13MYlg5tWpywWbKYsJQXafKAlVF2hz-sP?usp=sharing) | TDC-2 资源与外部 API                             |\n| [204](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F17Pd328W27mn-iBCRkHIa78L3pukKcfW1?usp=sharing) | TDC-2 模型中心                                   |\n| [205](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1kHdFG4gUic5nmiul7b1hUh0HLCxLQnw_?usp=sharing) | TDC-2 分子性质悬崖预测任务                       |\n\n\n## TDC 的设计\n\nTDC 采用独特的三层级分层结构，据我们所知，这是首次系统性地组织用于治疗领域的机器学习工作。我们将 TDC 组织成三个不同的“问题”。对于每个问题，我们提供一系列“学习任务”。最后，针对每个任务，我们提供一系列“数据集”。\n\n在第一层级，经过对大量治疗相关任务的观察，我们归纳并抽象出机器学习可以促进科学进步的三大领域（即问题），分别是单实例预测、多实例预测和生成：\n\n* 单实例预测 `single_pred`：基于单个生物医学实体预测其属性。\n* 多实例预测 `multi_pred`：基于多个生物医学实体预测其属性。\n* 生成 `generation`：生成新的理想生物医学实体。\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_readme_6e1b992ff12c.png\" alt=\"problems\" width=\"500px\" \u002F>\u003C\u002Fp>\n\nTDC 结构的第二层级是学习任务。这些任务的改进可以带来众多应用，包括识别个性化联合疗法、设计新型抗体、改善疾病诊断以及寻找治疗新发疾病的药物等。\n\n最后，在 TDC 的第三层级，每个任务都由多个数据集具体化。对于每个数据集，我们提供训练集、验证集和测试集的多种划分方式，以模拟实际生产及临床应用中所需的理解与泛化能力（例如，模型能否泛化到完全未见过的化合物，或精确区分患者对多药联合治疗的反应）。\n\n\n## TDC 数据加载器\n\nTDC 提供了一系列直观、高层次的 API 工作流，无论初学者还是专家都可以使用 Python 构建机器学习模型。基于 TDC 中模块化的“问题 — 学习任务 — 数据集”结构（见上文），我们提供了一个三层级 API 来访问任意学习任务和数据集。这种分层式 API 设计使得我们可以轻松地添加新的任务和数据集。\n\n举个具体的例子，要获取单实例预测问题中 ADME 治疗学习任务下的 HIA 数据集：\n\n```python\nfrom tdc.single_pred import ADME\ndata = ADME(name = 'HIA_Hou')\n# 使用支架分割方法将数据划分为训练\u002F验证\u002F测试集\nsplit = data.get_split(method = 'scaffold')\n# 获取各种格式的完整数据\ndata.get_data(format = 'df')\n```\n\n您可以按如下方式查看属于某个任务的所有数据集：\n\n```python\nfrom tdc.utils import retrieve_dataset_names\nretrieve_dataset_names('ADME')\n```\n\n更多治疗任务和数据集，请访问 [TDC 官网](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Foverview\u002F)！\n\n## TDC 数据处理函数\n\n#### 数据集划分\n\n要获取训练集、验证集和测试集的划分，您可以输入以下代码：\n```python\ndata = X(name = Y)\ndata.get_split(seed = 42)\n\n# {'train': df_train, 'val': df_val, 'test': df_test}\n```\n你可以通过指定函数的拆分方法、随机种子和拆分比例来使用该功能，例如：`data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2])`。详细信息请参阅[数据拆分页面](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Fdata_split\u002F)。\n\n#### 模型评估策略\n\n我们为 TDC 中的各项任务提供了多种评估指标，具体说明请参见网站上的[模型评估页面](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Fdata_evaluation\u002F)。例如，若要使用 ROC-AUC 指标，可以这样操作：\n\n```python\nfrom tdc import Evaluator\nevaluator = Evaluator(name = 'ROC-AUC')\nscore = evaluator(y_true, y_pred)\n```\n\n#### 数据处理\n\nTDC 提供了丰富的数据处理功能，包括标签转换、数据平衡、将数据配对为 PyG\u002FDGL 图结构、负采样、数据库查询等。有关这些功能的具体用法，请参阅 TDC 官网上的[数据处理页面](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Fdata_process\u002F)。\n\n#### 分子生成预言机\n\n对于分子生成任务，我们提供了 10 多种预言机，分别用于目标导向和分布学习。每种预言机的详细用法请参阅网站上的[预言机页面](https:\u002F\u002Fzitniklab.hms.harvard.edu\u002FTDC\u002Ffunctions\u002Foracles\u002F)。例如，我们想要调用 GSK3Beta 预言机：\n\n```python\nfrom tdc import Oracle\noracle = Oracle(name = 'GSK3B')\noracle(['CC(C)(C)....'\n  'C[C@@H]1....',\n  'CCNC(=O)....',\n  'C[C@@H]1....'])\n\n# [0.03, 0.02, 0.0, 0.1]\n```\n\n## TDC 排行榜\n\nTDC 中的每一个数据集都可作为基准，我们为其提供了训练\u002F验证集和测试集，并附带数据拆分方式及性能评估指标。要参与特定基准的排行榜，请按照以下步骤操作：\n\n* 使用 TDC 基准数据加载器获取基准数据。\n\n* 利用训练集和\u002F或验证集训练你的模型。\n\n* 使用 TDC 模型评估工具计算模型在测试集上的表现。\n\n* 将测试集的表现提交至 TDC 排行榜。\n\n由于许多数据集都围绕治疗主题，我们将基准按有意义的类别进行组织，称为基准组。每个基准组内的数据集和任务都经过精心挑选，围绕某一主题展开（例如，TDC 包含一个用于支持 ADMET 属性机器学习预测的基准组）。尽管每个基准组包含多个基准，但你可以单独提交每个基准的结果。以下是访问基准的代码框架：\n\n```python\nfrom tdc import BenchmarkGroup\ngroup = BenchmarkGroup(name = 'ADMET_Group', path = 'data\u002F')\npredictions_list = []\n\nfor seed in [1, 2, 3, 4, 5]:\n    benchmark = group.get('Caco2_Wang')\n    # 基准组中的所有基准名称都存储在 group.dataset_names 中\n    predictions = {}\n    name = benchmark['name']\n    train_val, test = benchmark['train_val'], benchmark['test']\n    train, valid = group.get_train_valid_split(benchmark = name, split_type = 'default', seed = seed)\n\n        # --------------------------------------------- #\n        #  使用 train、valid 和 test 训练你的模型    #\n        #  将测试集预测结果保存在 y_pred_test 变量中 #\n        # --------------------------------------------- #\n\n    predictions[name] = y_pred_test\n    predictions_list.append(predictions)\n\nresults = group.evaluate_many(predictions_list)\n# {'caco2_wang': [6.328, 0.101]}\n```\n\n更多信息请访问[这里](https:\u002F\u002Ftdcommons.ai\u002Fbenchmark\u002Foverview\u002F)。\n\n## 引用我们\n\n如果你认为 Therapeutics Data Commons 对你有所帮助，请引用我们的 [NeurIPS'24 AIDrugX 论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=kL8dlYp6IM)、[NeurIPS 论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=8nvgnORnoWr)以及 [Nature Chemical Biology 论文](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41589-022-01131-2)：\n\n```\n@article{Huang2021tdc,\n  title={Therapeutics Data Commons: 用于药物发现与开发的机器学习数据集和任务},\n  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,\n          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},\n  journal={神经信息处理系统大会论文集，NeurIPS 数据集与基准},\n  year={2021}\n}\n```\n\n```\n@article{Huang2022artificial,\n  title={治疗科学的人工智能基础},\n  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,\n          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},\n  journal={Nature Chemical Biology},\n  year={2022}\n}\n\n```\n@inproceedings{\nvelez-arce2024signals,\ntitle={细胞中的信号：面向治疗的多模态与情境化机器学习基础},\nauthor={Alejandro Velez-Arce 和 Xiang Lin 以及 Kexin Huang、Michelle M Li、Wenhao Gao、Bradley Pentelute、Tianfan Fu、Manolis Kellis 和 Marinka Zitnik},\nbooktitle={NeurIPS 2024 新型药物模式人工智能研讨会},\nyear={2024},\nurl={https:\u002F\u002Fopenreview.net\u002Fforum?id=kL8dlYp6IM}\n}\n```\nTDC 是基于其他开源项目构建的。此外，如果你在研究中使用了这些数据集或功能，请务必引用其原始出处。你可以在网站上找到相应功能或数据集的原始论文。\n\n## 贡献\n\nTDC 是一项由社区驱动的开放科学倡议。如需参与，请加入我们的 [Slack 工作区](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fpytdc\u002Fshared_invite\u002Fzt-x0ujg5v6-zwtQZt83fhRdgrYjXRFz5g) 并查阅[贡献指南](CONTRIBUTE.md)！\n\n## 联系我们\n\n欢迎通过 [contact@tdcommons.ai](mailto:contact@tdcommons.ai) 与我们联系，或在 GitHub 上提交问题。\n\n## 数据服务器\n\n许多 TDC 数据集托管在 [哈佛 Dataverse](https:\u002F\u002Fdataverse.harvard.edu\u002Fdataset.xhtml?persistentId=doi:10.7910\u002FDVN\u002F21LKWG) 上，持久标识符为 [https:\u002F\u002Fdoi.org\u002F10.7910\u002FDVN\u002F21LKWG](https:\u002F\u002Fdoi.org\u002F10.7910\u002FDVN\u002F21LKWG)。当 Dataverse 维护时，TDC 数据集将无法访问。这种情况很少发生，请在 [Dataverse 官网](https:\u002F\u002Fdataverse.harvard.edu\u002F) 上查看当前状态。\n\n## 许可证\nTDC 的代码库采用 MIT 许可证。关于单个数据集的使用，请参考网站上的数据集许可证。","# TDC (Therapeutics Data Commons) 快速上手指南\n\nTDC 是一个旨在推动治疗科学中人工智能发展的开源平台。它提供了涵盖药物发现全流程（从小分子到生物制剂）的标准化数据集、学习任务和基准测试，帮助研究人员快速构建和评估 AI 模型。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux, macOS 或 Windows\n*   **Python 版本**：推荐 Python 3.7 及以上版本\n*   **前置依赖**：TDC 的核心数据加载器非常轻量，主要依赖以下库（安装时会自动处理）：\n    *   `numpy`\n    *   `pandas`\n    *   `tqdm`\n    *   `scikit-learn`\n    *   `fuzzywuzzy`\n    *   `seaborn`\n\n> **提示**：建议在使用前创建独立的虚拟环境（如使用 `conda` 或 `venv`），以避免依赖冲突。\n\n## 2. 安装步骤\n\n### 使用 pip 安装\n\n通过 Python 包管理器 `pip` 安装核心库：\n\n```bash\npip install PyTDC\n```\n\n### 升级安装\n\n由于 TDC 目前处于 Beta 发布阶段，数据和新功能更新频繁，建议定期运行以下命令更新到最新版本：\n\n```bash\npip install PyTDC --upgrade\n```\n\n> **国内加速提示**：如果您在中国大陆地区遇到下载速度慢的问题，可以使用国内镜像源进行安装：\n> ```bash\n> pip install PyTDC -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 3. 基本使用\n\nTDC 采用“问题 (Problem) -> 学习任务 (Learning Task) -> 数据集 (Dataset)\"的三层架构。以下是最简单的使用示例，展示如何加载一个单实例预测任务（ADME 性质预测）的数据集并进行划分。\n\n### 示例：加载 HIA 数据集并划分训练\u002F验证\u002F测试集\n\n```python\nfrom tdc.single_pred import ADME\n\n# 1. 初始化数据集\n# 这里以 ADME 任务中的 'HIA_Hou' 数据集为例\ndata = ADME(name='HIA_Hou')\n\n# 2. 获取数据划分\n# 使用骨架划分 (scaffold split) 方法，将数据分为训练集、验证集和测试集\n# 这种划分方式在药物发现中更能模拟模型对全新化合物的泛化能力\nsplit = data.get_split(method='scaffold')\n\n# 3. 获取完整数据\n# 可以将数据以 DataFrame (df) 或其他格式导出\ndf = data.get_data(format='df')\n\n# 打印前几行查看数据结构\nprint(df.head())\n```\n\n### 查看可用数据集\n\n您可以随时查询某个特定任务下包含的所有数据集名称：\n\n```python\nfrom tdc.utils import retrieve_dataset_names\n\n# 列出 ADME 任务下的所有数据集\ndataset_list = retrieve_dataset_names('ADME')\nprint(dataset_list)\n```\n\n通过以上步骤，您即可快速接入 TDC 丰富的生物医药数据资源，开始您的 AI 药物研发模型训练与评估工作。更多高级功能（如分子生成 Oracle、基准测试提交等）请参考官方教程文档。","某生物制药公司的 AI 研发团队正致力于利用深度学习模型筛选针对新型靶点的候选药物分子，以加速早期药物发现进程。\n\n### 没有 TDC 时\n- **数据收集碎片化**：研究人员需花费数周时间从 PubChem、ChEMBL 等不同数据库手动爬取并清洗数据，格式不统一且极易出错。\n- **评估标准不一致**：由于缺乏统一的基准测试集，团队内部开发的模型难以与学术界最新成果进行公平对比，无法判断算法是否真正先进。\n- **多模态融合困难**：想要结合分子结构、基因表达和临床结果进行多模态建模时，缺乏现成的对齐数据，导致特征工程耗时巨大。\n- **复现门槛高**：参考论文中的模型往往依赖特定的私有数据处理脚本，复现成本极高，阻碍了技术迭代。\n\n### 使用 TDC 后\n- **一键获取标准化数据**：通过 TDC 的 API 可直接调用经过清洗、标准化的千万级药物发现数据集，将数据准备时间从数周缩短至几分钟。\n- **权威基准即时对标**：利用 TDC 内置的 curated benchmarks，团队能立即在相同任务上评估模型性能，快速定位算法优劣并优化方向。\n- **原生支持多模态任务**：TDC 提供了预整合的多模态数据接口（如分子 - 蛋白相互作用），让团队能直接构建复杂的跨模态预测模型，聚焦核心算法创新。\n- **生态互通与复现**：基于 TDC 构建的模型可无缝对接社区贡献的代码库，大幅降低了复现前沿论文的难度，促进了技术交流。\n\nTDC 通过提供统一的数据基础设施和评估体系，消除了药物研发中繁琐的数据壁垒，让科学家能将精力真正集中于解决核心的治疗科学难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmims-harvard_TDC_333116bc.png","mims-harvard","Artificial Intelligence for Medicine and Science @ Harvard Zitnik Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmims-harvard_5a3b6165.png","",null,"marinka@hms.harvard.edu","marinkazitnik","https:\u002F\u002Fzitniklab.hms.harvard.edu","https:\u002F\u002Fgithub.com\u002Fmims-harvard",[82,86],{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",64.5,{"name":87,"color":88,"percentage":89},"Python","#3572A5",35.5,1233,211,"2026-04-15T13:57:29","MIT",1,"未说明",{"notes":97,"python":95,"dependencies":98},"TDC 核心数据加载器设计轻量，对外部包依赖极少。可通过 pip 安装 (pip install PyTDC)。项目处于 Beta 发布阶段，建议定期更新。具体教程显示支持在 Google Colab 上运行。",[99,100,101,102,103,104],"numpy","pandas","tqdm","scikit-learn","fuzzywuzzy","seaborn",[14,16,106],"其他",[108,109,110,111,112,113,114,115,116,117,118,119,120,121,122],"machine-learning","therapeutics","drug-discovery","datasets","biology","chemistry","biomedicine","bioinformatics","cheminformatics","deep-learning","benchmarks","artificial-intelligence","precision-medicine","medicine","biotech","2026-03-27T02:49:30.150509","2026-04-16T08:14:10.876698",[126,131,136,140,145,150],{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},35499,"使用 Docking Score Oracle 时遇到 'prepare_receptor binary not found' 或相关 subprocess 错误怎么办？","这通常是因为 ADFR (AutoDock Fragment-based Receptor) 套件未正确安装或未添加到系统 PATH 中。请检查您的 ADFR 安装是否完成，并确保 `prepare_receptor` 二进制文件存在于您的路径文件夹中。如果是 WSL (Windows Subsystem for Linux) 用户，请避免混合使用 Windows 和 Linux 路径，建议完全在 WSL 环境中重新安装 ADFR 套件，并确认 bin 目录结构正确（例如包含 `ADFRsuite_x86_64Linux_1.0\u002FmyFolder\u002Fbin`）。重启系统有时也能解决路径缓存问题。","https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fissues\u002F63",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},35500,"运行 GSK3 或 JNK3 Oracle 时出现 'ValueError: node array from the pickle has an incompatible dtype' 错误如何解决？","这是由于 scikit-learn 版本不兼容导致的。该错误表明保存的模型（pickle 文件）是在旧版本的 scikit-learn 下创建的，而您当前环境的 scikit-learn 版本（通常是较新版本）期望不同的数据结构。解决方案是升级 TDC 库到最新版本（维护者已修复此兼容性问题），或者暂时将 scikit-learn 降级到与模型创建时兼容的旧版本。建议优先执行 `pip install -U tdc` 更新包。","https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fissues\u002F238",{"id":137,"question_zh":138,"answer_zh":139,"source_url":135},35501,"为什么 GSK3 Oracle 对某些分子始终返回 0.0 分数且没有报错？","这通常是由于底层 scikit-learn 版本不兼容引起的“静默失败”。虽然代码没有抛出异常，但模型无法正确加载或推理，导致默认返回 0.0。请检查是否存在类似 'node array from the pickle has an incompatible dtype' 的潜在错误信息，并按照版本兼容性问题的方案处理：更新 TDC 到最新版本以获取修复后的后端逻辑，或调整 scikit-learn 版本。",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},35502,"无法复现 DRD3 对接基准测试（Leaderboard）中的分数，结果差异较大怎么办？","TDC 包的不同版本（特别是 1.0.0 前后）在后端逻辑或默认参数上可能存在变化，导致评分结果不一致且缺乏向后兼容性。如果您需要复现旧的 Leaderboard 结果，请尝试使用当时对应的 TDC 旧版本。对于新开发的方法，建议使用最新版本的 Oracle 进行评估，并注意官方可能会更新 Leaderboard 以反映最新版本的评分标准。如果差异巨大，请检查是否使用了完全相同的 SMILES 输入和 Oracle 初始化参数。","https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fissues\u002F235",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},35503,"使用 drd2 或其他 Oracle 时遇到 'No module named sklearn.svm.classes' 错误？","这是因为 TDC 的旧版本与较新的 scikit-learn 版本（>=0.24.0 或 1.x）不兼容。在新版 scikit-learn 中，`sklearn.svm.classes` 模块已被移除或重构。解决方法是升级 TDC 库到最新版本，维护者已在后端逻辑中更新了对新版 scikit-learn 的支持。不要仅仅通过锁定旧版 scikit-learn 来解决，因为这会影响其他依赖。","https:\u002F\u002Fgithub.com\u002Fmims-harvard\u002FTDC\u002Fissues\u002F163",{"id":151,"question_zh":152,"answer_zh":153,"source_url":135},35504,"更新 TDC 后，发现 'deco hop' 等 Oracle 的评分从正常值变为 0.0 是怎么回事？","这可能是特定版本更新引入的回归问题（Bug）。如果在更新包后特定 Oracle（如 deco hop）的行为发生异常变化（例如从 0.53 变为 0.0），而其他 Oracle 正常工作，建议检查 GitHub Issues 中是否有相关报告。临时解决方案可能包括回退到上一个稳定版本，或者等待维护者发布补丁。在报告中提供具体的代码示例和版本号有助于快速定位问题。",[]]