[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-WillKoehrsen--feature-selector":3,"tool-WillKoehrsen--feature-selector":65},[4,18,32,41,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[15,16,27,28,13,29,30,14,31],"视频","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":38,"last_commit_at":39,"category_tags":40,"status":17},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[30,16,29],{"id":42,"name":43,"github_repo":44,"description_zh":45,"stars":46,"difficulty_score":38,"last_commit_at":47,"category_tags":48,"status":17},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[29,15,16,14],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":38,"last_commit_at":55,"category_tags":56,"status":17},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65751,"2026-04-10T08:35:09",[14,29,16],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":24,"last_commit_at":63,"category_tags":64,"status":17},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[14,16,29],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":38,"env_os":99,"env_gpu":99,"env_ram":99,"env_deps":100,"category_tags":110,"github_topics":83,"view_count":24,"oss_zip_url":83,"oss_zip_packed_at":83,"status":17,"created_at":111,"updated_at":112,"faqs":113,"releases":144},6581,"WillKoehrsen\u002Ffeature-selector","feature-selector","Feature selector is a tool for dimensionality reduction of machine learning datasets","feature-selector 是一款专为机器学习数据集设计的 Python 工具，旨在通过高效的特征选择实现数据降维。在构建模型时，冗余或低质量的特征不仅会增加计算负担，还可能降低预测精度，而 feature-selector 正是为了解决这一痛点而生。它能自动识别并剔除五类无效特征：包含大量缺失值的列、仅有一个唯一值的列、高度共线性的相关特征，以及基于模型评估出的零重要性或低重要性特征。\n\n除了核心的筛选功能，feature-selector 还内置了丰富的可视化模块，例如相关性热力图和重要特征排序图，帮助用户直观地洞察数据结构与特征分布，从而做出更明智的决策。由于其基于 LightGBM 等成熟库构建，操作简便且结果可靠，非常适合数据科学家、机器学习工程师以及相关领域的研究人员使用。无论是进行快速的数据探索，还是为生产环境优化模型输入，feature-selector 都能以简洁的代码流程提升工作效率，让数据处理变得更加轻松透明。","# Feature Selector: Simple Feature Selection in Python\n\nFeature selector is a tool for dimensionality reduction of machine learning datasets.\n\n# Methods\n\nThere are five methods used to identify features to remove:\n\n1. Missing Values\n2. Single Unique Values\n3. Collinear Features\n4. Zero Importance Features\n5. Low Importance Features \n\n## Usage\n\nRefer to the [Feature Selector Usage notebook](https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fblob\u002Fmaster\u002FFeature%20Selector%20Usage.ipynb) for how to use\n\n## Visualizations\n\nThe `FeatureSelector` also includes a number of visualization methods to inspect \ncharacteristics of a dataset. \n\n__Correlation Heatmap__\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FWillKoehrsen_feature-selector_readme_fe02ba837616.png)\n\n__Most Important Features__\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FWillKoehrsen_feature-selector_readme_85608e0045a4.png)\n\nRequires:\n\n```\npython==3.6+\nlightgbm==2.1.1\nmatplotlib==2.1.2\nseaborn==0.8.1\nnumpy==1.22.0\npandas==0.23.1\nscikit-learn==0.19.1\n```\n\n## Contact\n\nAny questions can be directed to wjk68@case.edu!\n","# 特征选择器：Python 中的简单特征选择\n\n特征选择器是一个用于降低机器学习数据集维度的工具。\n\n# 方法\n\n共有五种方法用于识别需要移除的特征：\n\n1. 缺失值\n2. 唯一值\n3. 共线性特征\n4. 重要性为零的特征\n5. 重要性较低的特征\n\n## 使用方法\n\n请参阅 [Feature Selector 使用说明笔记本](https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fblob\u002Fmaster\u002FFeature%20Selector%20Usage.ipynb)，了解如何使用。\n\n## 可视化\n\n`FeatureSelector` 还包含多种可视化方法，用于检查数据集的特性。\n\n__相关性热图__\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FWillKoehrsen_feature-selector_readme_fe02ba837616.png)\n\n__最重要的特征__\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FWillKoehrsen_feature-selector_readme_85608e0045a4.png)\n\n所需依赖：\n\n```\npython==3.6+\nlightgbm==2.1.1\nmatplotlib==2.1.2\nseaborn==0.8.1\nnumpy==1.22.0\npandas==0.23.1\nscikit-learn==0.19.1\n```\n\n## 联系方式\n\n如有任何问题，请发送邮件至 wjk68@case.edu！","# Feature Selector 快速上手指南\n\nFeature Selector 是一个用于机器学习数据集降维的 Python 工具，能够自动识别并移除冗余或低价值的特征。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux \u002F macOS \u002F Windows\n*   **Python 版本**：3.6 及以上\n*   **核心依赖库**：\n    *   lightgbm == 2.1.1\n    *   matplotlib == 2.1.2\n    *   seaborn == 0.8.1\n    *   numpy == 1.22.0\n    *   pandas == 0.23.1\n    *   scikit-learn == 0.19.1\n\n> **提示**：国内开发者建议使用清华或阿里镜像源加速依赖安装。\n\n## 安装步骤\n\n您可以直接通过 pip 安装所需的依赖包。推荐使用国内镜像源以提高下载速度：\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple lightgbm==2.1.1 matplotlib==2.1.2 seaborn==0.8.1 numpy==1.22.0 pandas==0.23.1 scikit-learn==0.19.1\n```\n\n若需安装最新版本的 `feature-selector`（如果已发布到 PyPI）或直接克隆源码使用：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector.git\ncd feature-selector\n```\n\n## 基本使用\n\n以下是使用 `FeatureSelector` 进行特征选择的最简示例。该工具主要包含五种筛选方法：缺失值、单一唯一值、共线特征、零重要性特征和低重要性特征。\n\n```python\nimport pandas as pd\nfrom feature_selector import FeatureSelector\n\n# 1. 准备数据 (假设 features 为特征 DataFrame, labels 为目标变量 Series)\n# features = pd.read_csv('your_data.csv')\n# labels = features['target_column']\n# features = features.drop(columns=['target_column'])\n\n# 2. 初始化 FeatureSelector\nfs = FeatureSelector(data=features, labels=labels)\n\n# 3. 运行特征选择方法\n# 识别缺失值超过阈值的特征\nfs.identify_missing(missing_threshold=0.6)\n\n# 识别单一唯一值的特征\nfs.identify_single_unique()\n\n# 识别高共线性特征 (相关系数阈值)\nfs.identify_collinear(correlation_threshold=0.98)\n\n# 基于模型识别零重要性和低重要性特征\n# 需要先训练一个 LightGBM 模型来计算重要性\nfs.identify_zero_importance(task='classification', eval_metric='auc', \n                            n_iterations=10, early_stopping=True)\nfs.identify_low_importance(cumulative_importance=0.99)\n\n# 4. 获取要移除的特征列表\nto_remove = fs.check_identified_features()\n\n# 5. 执行移除操作，得到精简后的数据集\nfiltered_features = fs.remove(methods='all', keep_one_hot=False)\n\n# 6. (可选) 可视化分析\n# fs.plot_correlation_heatmap()\n# fs.plot_feature_importances(n=10)\n```\n\n更多详细用法和可视化示例，请参考官方 [Feature Selector Usage notebook](https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fblob\u002Fmaster\u002FFeature%20Selector%20Usage.ipynb)。","某电商数据科学团队正在构建用户流失预测模型，面对包含数千个行为特征的高维数据集，他们急需优化特征工程流程以提升模型效率。\n\n### 没有 feature-selector 时\n- 数据清洗依赖人工编写大量重复代码来排查缺失值和单一值特征，耗时且容易遗漏异常列。\n- 高度相关的共线特征导致模型过拟合，团队需手动计算相关系数矩阵并肉眼筛选，效率极低。\n- 无法量化特征重要性，只能凭经验盲目保留所有变量，导致训练速度缓慢且模型可解释性差。\n- 缺乏直观的可视化手段，难以向业务部门展示哪些关键因素真正影响了用户流失。\n\n### 使用 feature-selector 后\n- 一键自动识别并移除缺失值过多及仅含单一取值的无效特征，将数据预处理时间从数小时缩短至几分钟。\n- 内置算法精准检测并剔除共线特征，有效降低了维度冗余，显著提升了模型的泛化能力。\n- 基于 LightGBM 自动评估特征重要性，果断剔除零贡献或低贡献特征，使训练速度提升 40% 以上。\n- 直接生成相关性热力图和重要特征排序图，清晰直观地展示了核心驱动因子，便于团队汇报与决策。\n\nfeature-selector 通过自动化多维度的特征筛选与可视化，将繁琐的数据降维工作转化为高效、精准的标准化流程，让数据科学家能更专注于模型策略本身。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FWillKoehrsen_feature-selector_fe02ba83.png","WillKoehrsen","Will Koehrsen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FWillKoehrsen_1a22c145.jpg","Senior Software Engineer @gridstatus ","@gridstatus ","Chicago, IL","will.koehrsen@gmail.com",null,"http:\u002F\u002Fmedium.com\u002F@williamkoehrsen\u002F","https:\u002F\u002Fgithub.com\u002FWillKoehrsen",[87,91],{"name":88,"color":89,"percentage":90},"Jupyter Notebook","#DA5B0B",97.7,{"name":92,"color":93,"percentage":94},"Python","#3572A5",2.3,2235,766,"2026-04-09T15:37:28","GPL-3.0","未说明",{"notes":101,"python":102,"dependencies":103},"该工具主要用于机器学习数据集的降维，支持缺失值、单一唯一值、共线特征及基于 LightGBM 的特征重要性筛选。README 中未明确指定操作系统、GPU 及内存需求，通常此类依赖 CPU 的传统机器学习库在主流操作系统上均可运行，具体资源消耗取决于数据集大小。","3.6+",[104,105,106,107,108,109],"lightgbm==2.1.1","matplotlib==2.1.2","seaborn==0.8.1","numpy==1.22.0","pandas==0.23.1","scikit-learn==0.19.1",[16],"2026-03-27T02:49:30.150509","2026-04-11T17:41:30.984653",[114,119,124,129,134,139],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},29712,"在 Ubuntu 或 Jupyter Notebook 中安装后无法导入 feature_selector 包怎么办？","这通常是因为内核未刷新。尝试重启 Jupyter Kernel 或重新打开 Notebook。如果问题依旧，可能是环境兼容性问题，建议直接从 GitHub 安装最新代码：\npip install git+https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector.git","https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fissues\u002F9",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},29713,"遇到 'LightGBMError: Multiclass objective and metrics don't match' 错误如何解决？","这通常是由于 lightgbm 或 seaborn 版本过新导致的兼容性问题。请尝试降级这两个包到特定版本：\npip install --user lightgbm==2.1.1\n如果仍然报错，再尝试降级 seaborn：\npip install --user seaborn==0.8.1","https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fissues\u002F20",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},29714,"运行 'identify_zero_importance' 方法时遇到包含 NaN 或无穷大的值报错怎么办？","该库目前不自动处理缺失值。在调用该方法前，你需要手动处理数据中的 NaN。维护者推荐使用“中位数填充”（median imputation）策略，即用该列的中位数填充该列的缺失值。","https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fissues\u002F12",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},29715,"如何保存特征选择生成的图表图片？","在 Jupyter Notebook 中生成图表后，可以使用 matplotlib 的 savefig 函数保存图片。代码如下：\nplt.savefig('filename.png')\n默认会保存最后生成的图表。你可以通过查阅 matplotlib 文档来控制图片质量（dpi）和分辨率。","https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fissues\u002F11",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},29716,"使用 pip 安装失败或在旧版 Python 环境中导入时报 OSError 错误怎么办？","如果是由于依赖库（如 lightgbm）编译问题导致标准 pip 安装失败，可以直接从 GitHub 源码安装，这通常能解决环境兼容性问题：\npip install git+https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector.git","https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fissues\u002F36",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},29717,"运行回归任务时报错 'Found input variables with inconsistent numbers of samples' 是什么原因？","这个错误表示输入的特征数据（data）和标签数据（labels）的行数不一致。请检查你的数据预处理步骤，确保在删除列或处理缺失值后，特征矩阵和标签向量的样本数量完全匹配。特别是在使用 pandas 读取 CSV 并分离标签时，要确认没有意外丢弃行。","https:\u002F\u002Fgithub.com\u002FWillKoehrsen\u002Ffeature-selector\u002Fissues\u002F10",[]]