[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-siboehm--awesome-learn-datascience":3,"tool-siboehm--awesome-learn-datascience":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,52],"视频",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[14,35],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":76,"owner_twitter":76,"owner_website":78,"owner_url":79,"languages":76,"stars":80,"forks":81,"last_commit_at":82,"license":76,"difficulty_score":83,"env_os":84,"env_gpu":84,"env_ram":84,"env_deps":85,"category_tags":96,"github_topics":98,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":104,"updated_at":105,"faqs":106,"releases":107},4276,"siboehm\u002Fawesome-learn-datascience","awesome-learn-datascience",":chart_with_upwards_trend: Curated list of resources to help you get started with Data Science","awesome-learn-datascience 是一份精心策划的数据科学入门资源清单，旨在帮助零基础用户轻松开启学习之旅。它解决了初学者面对海量信息时“不知从何下手”的痛点，通过系统化的分类整理，提供了一条清晰的学习路径。\n\n这份清单特别适合想要转行或刚接触数据科学的学生、开发者及爱好者。虽然无需预先具备深厚背景，但若掌握基础的 Python 编程和统计学知识，学习过程将更加顺畅。其内容涵盖从“什么是数据科学”的概念科普，到监督学习与非监督学习等核心算法的原理解析，再到特征工程、交叉验证等实战技巧。\n\n该资源的独特亮点在于高度聚焦 Python 生态，精选了包括 NumPy、Pandas 在内的关键库教程，并整合了书籍、在线课程、视频系列及交互式网站等多种形式的优质内容。所有资源均经过本地数据科学学生团体的实际验证，确保了对新手友好且实用。无论你是希望了解商业应用中的数据分析，还是想深入钻研机器学习模型，awesome-learn-datascience 都能为你提供坚实可靠的起步支持。","# Data Science Tutorials & Resources for Beginners [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome)\n\n*If you want to know more about Data Science but don't know where to start this list is for you!* :chart_with_upwards_trend:\n\nNo previous knowledge is required but Python and statistics basics will definitely come in handy. These resources have been used successfully for many beginners at my local Data Science student group [ML-KA](http:\u002F\u002Fml-ka.de\u002F).\n\n## What is Data Science?\n\n- ['What is Data Science?' on Quora](https:\u002F\u002Fwww.quora.com\u002FWhat-is-data-science)\n- [Explanation of important vocabulary](https:\u002F\u002Fwww.quora.com\u002FWhat-is-the-difference-between-Data-Analytics-Data-Analysis-Data-Mining-Data-Science-Machine-Learning-and-Big-Data-1?share=1) - Differentiation of Big Data, Machine Learning, Data Science.\n- [Data Science for Business (Book)](https:\u002F\u002Famzn.to\u002F2voPJUi) - An introduction to Data Science and its use as a business asset.\n- [Data Science Process: A Beginner’s Comprehensive Guide](https:\u002F\u002Fwww.scaler.com\u002Fblog\u002Fdata-science-process\u002F) - Technical Skills for the Data Science: This emphasizes the practical skills needed throughout the data science process.\n\n## Common Algorithms and Procedures\n\n- [Supervised vs unsupervised learning](https:\u002F\u002Fstackoverflow.com\u002Fquestions\u002F1832076\u002Fwhat-is-the-difference-between-supervised-learning-and-unsupervised-learning) - The two most common types of Machine Learning algorithms. \n- [9 important Data Science algorithms and their implementation](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.05-Naive-Bayes.ipynb) \n- [Cross validation](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.03-Hyperparameters-and-Model-Validation.ipynb) - Evaluate the performance of your algorithm\u002Fmodel.\n- [Feature engineering](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.04-Feature-Engineering.ipynb) - Modifying the data to better model predictions.\n- [Scientific introduction to 10 important Data Science algorithms](http:\u002F\u002Fwww.cs.umd.edu\u002F%7Esamir\u002F498\u002F10Algorithms-08.pdf)\n- [Model ensemble: Explanation](https:\u002F\u002Fwww.analyticsvidhya.com\u002Fblog\u002F2017\u002F02\u002Fintroduction-to-ensembling-along-with-implementation-in-r\u002F) - Combine multiple models into one for better performance.\n\n## Data Science using Python\nThis list covers only Python, as many are already familiar with this language. [Data Science tutorials using R](https:\u002F\u002Fgithub.com\u002Fujjwalkarn\u002FDataScienceR).\n\n### General\n\n- [O'Reilly Data Science from Scratch (Book)](https:\u002F\u002Famzn.to\u002F2GSjjrK) - Data processing, implementation, and visualization with example code.\n- [Coursera Applied Data Science](https:\u002F\u002Fwww.coursera.org\u002Fspecializations\u002Fdata-science-python) - Online Course using Python that covers most of the relevant toolkits. \n\n### Learning Python\n\n- [YouTube tutorial series by sentdex](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=oVp1vrfL_w4&list=PLQVvvaa0QuDe8XSftW-RAxdo6OmaeL85M)\n- [Interactive Python tutorial website](http:\u002F\u002Fwww.learnpython.org\u002F)\n\n### numpy\n[numpy](http:\u002F\u002Fwww.numpy.org\u002F) is a Python library which provides large multidimensional arrays and fast mathematical operations on them.\n\n- [Numpy tutorial on DataCamp](https:\u002F\u002Fwww.datacamp.com\u002Fcommunity\u002Ftutorials\u002Fpython-numpy-tutorial#gs.h3DvLnk)\n\n### pandas\n[pandas](http:\u002F\u002Fpandas.pydata.org\u002Findex.html) provides efficient data structures and analysis tools for Python. It is build on top of numpy.\n\n- [Introduction to pandas](http:\u002F\u002Fwww.synesthesiam.com\u002Fposts\u002Fan-introduction-to-pandas.html)\n- [DataCamp pandas foundations](https:\u002F\u002Fwww.datacamp.com\u002Fcourses\u002Fpandas-foundations) - Paid course, but 30 free days upon account creation (enough to complete course).\n- [Pandas cheatsheet](https:\u002F\u002Fgithub.com\u002Fpandas-dev\u002Fpandas\u002Fblob\u002Fmaster\u002Fdoc\u002Fcheatsheet\u002FPandas_Cheat_Sheet.pdf) - Quick overview over the most important functions.\n\n### scikit-learn\n[scikit-learn](http:\u002F\u002Fscikit-learn.org\u002Fstable\u002F) is the most common library for Machine Learning and Data Science in Python.\n\n- [Introduction and first model application](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.02-Introducing-Scikit-Learn.ipynb)\n- [Rough guide for choosing estimators](http:\u002F\u002Fscikit-learn.org\u002Fstable\u002Ftutorial\u002Fmachine_learning_map\u002F)\n- [Scikit-learn complete user guide](http:\u002F\u002Fscikit-learn.org\u002Fstable\u002Fuser_guide.html)\n- [Model ensemble: Implementation in Python](http:\u002F\u002Fmachinelearningmastery.com\u002Fensemble-machine-learning-algorithms-python-scikit-learn\u002F)\n\n### Jupyter Notebook\n[Jupyter Notebook](https:\u002F\u002Fjupyter.org\u002F) is a web application for easy data visualisation and code presentation.\n\n- [Downloading and running first Jupyter notebook](https:\u002F\u002Fjupyter.org\u002Finstall.html)\n- [Example notebook for data exploration](https:\u002F\u002Fwww.kaggle.com\u002Fsudalairajkumar\u002Fsimple-exploration-notebook-instacart)\n- [Seaborn data visualization tutorial](https:\u002F\u002Felitedatascience.com\u002Fpython-seaborn-tutorial) - Plot library that works great with Jupyter.\n\n\n### Various other helpful tools and resources\n\n- [Template folder structure for organizing Data Science projects](https:\u002F\u002Fgithub.com\u002Fdrivendata\u002Fcookiecutter-data-science)\n- [Anaconda Python distribution](https:\u002F\u002Fwww.continuum.io\u002Fdownloads) - Contains most of the important Python packages for Data Science.\n- [Spacy](https:\u002F\u002Fspacy.io\u002F) - Open source toolkit for working with text-based data.\n- [LightGBM gradient boosting framework](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002FLightGBM) - Successfully used in many Kaggle challenges.\n- [Amazon AWS](https:\u002F\u002Faws.amazon.com\u002F) - Rent cloud servers for more timeconsuming calculations (r4.xlarge server is a good place to start).\n\n\n## Data Science Challenges for Beginners\nSorted by increasing complexity.\n\n- [Walkthrough: House prices challenge](https:\u002F\u002Fwww.dataquest.io\u002Fblog\u002Fkaggle-getting-started\u002F) - Walkthrough through a simple challenge on house prices.\n- [Blood Donation Challenge](https:\u002F\u002Fwww.drivendata.org\u002Fcompetitions\u002F2\u002Fwarm-up-predict-blood-donations\u002F) - Predict if a donor will donate again.\n- [Titanic Challenge](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Ftitanic) - Predict survival on the Titanic.\n- [Water Pump Challenge](https:\u002F\u002Fwww.drivendata.org\u002Fcompetitions\u002F7\u002Fpump-it-up-data-mining-the-water-table\u002F) - Predict the operating condition of water pumps in Africa.\n\n## More advanced resources and lists\n\n- [Awesome Data Science](https:\u002F\u002Fgithub.com\u002Fbulutyazilim\u002Fawesome-datascience)\n- [Data Science Python](https:\u002F\u002Fgithub.com\u002Fujjwalkarn\u002FDataSciencePython)\n- [Machine Learning Tutorials](https:\u002F\u002Fgithub.com\u002Fujjwalkarn\u002FMachine-Learning-Tutorials)\n\n## Contribute\n\nContributions welcome! Read the [contribution guidelines](contributing.md) first.\n\n\n## License\n\n[![CC0](http:\u002F\u002Fmirrors.creativecommons.org\u002Fpresskit\u002Fbuttons\u002F88x31\u002Fsvg\u002Fcc-zero.svg)](http:\u002F\u002Fcreativecommons.org\u002Fpublicdomain\u002Fzero\u002F1.0)\n\nTo the extent possible under law, Simon Böhm has waived all copyright and\nrelated or neighboring rights to this work. Disclaimer: Some of the links are affiliate links.\n","# 面向初学者的数据科学教程与资源 [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome)\n\n*如果你想了解更多关于数据科学的知识，却不知道从何入手，那么这份列表正适合你！* :chart_with_upwards_trend:\n\n无需任何先验知识，不过掌握Python和统计学基础将会非常有帮助。这些资源在我所在的数据科学学生组织[ML-KA](http:\u002F\u002Fml-ka.de\u002F)中已被众多初学者成功使用。\n\n## 什么是数据科学？\n\n- ['Quora上的“什么是数据科学？”'](https:\u002F\u002Fwww.quora.com\u002FWhat-is-data-science)\n- [重要术语解释](https:\u002F\u002Fwww.quora.com\u002FWhat-is-the-difference-between-Data-Analytics-Data-Analysis-Data-Mining-Data-Science-Machine-Learning-and-Big-Data-1?share=1) - 区分大数据、机器学习和数据科学。\n- [《商业中的数据科学》（书籍）](https:\u002F\u002Famzn.to\u002F2voPJUi) - 数据科学及其作为商业资产的应用入门。\n- [数据科学流程：初学者全面指南](https:\u002F\u002Fwww.scaler.com\u002Fblog\u002Fdata-science-process\u002F) - 数据科学所需的技术技能：强调在整个数据科学流程中所需的实践技能。\n\n## 常见算法与流程\n\n- [监督学习与无监督学习](https:\u002F\u002Fstackoverflow.com\u002Fquestions\u002F1832076\u002Fwhat-is-the-difference-between-supervised-learning-and-unsupervised-learning) - 两种最常见的机器学习算法类型。\n- [9种重要的数据科学算法及其实现](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.05-Naive-Bayes.ipynb)\n- [交叉验证](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.03-Hyperparameters-and-Model-Validation.ipynb) - 评估你的算法或模型性能。\n- [特征工程](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.04-Feature-Engineering.ipynb) - 修改数据以更好地进行预测。\n- [10种重要数据科学算法的科学介绍](http:\u002F\u002Fwww.cs.umd.edu\u002F%7Esamir\u002F498\u002F10Algorithms-08.pdf)\n- [模型集成：解释](https:\u002F\u002Fwww.analyticsvidhya.com\u002Fblog\u002F2017\u002F02\u002Fintroduction-to-ensembling-along-with-implementation-in-r\u002F) - 将多个模型结合为一个，以提升性能。\n\n## 使用Python进行数据科学\n本列表仅涵盖Python，因为许多人已经熟悉这门语言。[使用R的数据科学教程](https:\u002F\u002Fgithub.com\u002Fujjwalkarn\u002FDataScienceR)。\n\n### 通用\n\n- [O'Reilly《从零开始的数据科学》（书籍）](https:\u002F\u002Famzn.to\u002F2GSjjrK) - 数据处理、实现和可视化，并附示例代码。\n- [Coursera应用数据科学课程](https:\u002F\u002Fwww.coursera.org\u002Fspecializations\u002Fdata-science-python) - 使用Python的在线课程，覆盖了大部分相关工具包。\n\n### 学习Python\n\n- [sentdex的YouTube教程系列](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=oVp1vrfL_w4&list=PLQVvvaa0QuDe8XSftW-RAxdo6OmaeL85M)\n- [交互式Python教程网站](http:\u002F\u002Fwww.learnpython.org\u002F)\n\n### numpy\n[numpy](http:\u002F\u002Fwww.numpy.org\u002F) 是一个Python库，提供大型多维数组以及在其上进行快速数学运算的能力。\n\n- [DataCamp上的numpy教程](https:\u002F\u002Fwww.datacamp.com\u002Fcommunity\u002Ftutorials\u002Fpython-numpy-tutorial#gs.h3DvLnk)\n\n### pandas\n[pandas](http:\u002F\u002Fpandas.pydata.org\u002Findex.html) 为Python提供了高效的数据结构和分析工具。它构建在numpy之上。\n\n- [pandas简介](http:\u002F\u002Fwww.synesthesiam.com\u002Fposts\u002Fan-introduction-to-pandas.html)\n- [DataCamp pandas基础课程](https:\u002F\u002Fwww.datacamp.com\u002Fcourses\u002Fpandas-foundations) - 需付费，但注册账户后可享受30天免费试用（足够完成课程）。\n- [Pandas速查表](https:\u002F\u002Fgithub.com\u002Fpandas-dev\u002Fpandas\u002Fblob\u002Fmaster\u002Fdoc\u002Fcheatsheet\u002FPandas_Cheat_Sheet.pdf) - 对最重要函数的快速概述。\n\n### scikit-learn\n[scikit-learn](http:\u002F\u002Fscikit-learn.org\u002Fstable\u002F) 是Python中最常用的机器学习和数据科学库。\n\n- [简介及首个模型应用](https:\u002F\u002Fnbviewer.jupyter.org\u002Fgithub\u002Fjakevdp\u002FPythonDataScienceHandbook\u002Fblob\u002Fmaster\u002Fnotebooks\u002F05.02-Introducing-Scikit-Learn.ipynb)\n- [选择估计器的粗略指南](http:\u002F\u002Fscikit-learn.org\u002Fstable\u002Ftutorial\u002Fmachine_learning_map\u002F)\n- [scikit-learn完整用户指南](http:\u002F\u002Fscikit-learn.org\u002Fstable\u002Fuser_guide.html)\n- [模型集成：Python实现](http:\u002F\u002Fmachinelearningmastery.com\u002Fensemble-machine-learning-algorithms-python-scikit-learn\u002F)\n\n### Jupyter Notebook\n[Jupyter Notebook](https:\u002F\u002Fjupyter.org\u002F) 是一个用于轻松数据可视化和代码展示的Web应用程序。\n\n- [下载并运行第一个Jupyter Notebook](https:\u002F\u002Fjupyter.org\u002Finstall.html)\n- [数据探索示例Notebook](https:\u002F\u002Fwww.kaggle.com\u002Fsudalairajkumar\u002Fsimple-exploration-notebook-instacart)\n- [Seaborn数据可视化教程](https:\u002F\u002Felitedatascience.com\u002Fpython-seaborn-tutorial) - 一个非常适合与Jupyter配合使用的绘图库。\n\n\n### 其他有用的工具与资源\n\n- [用于组织数据科学项目的模板文件夹结构](https:\u002F\u002Fgithub.com\u002Fdrivendata\u002Fcookiecutter-data-science)\n- [Anaconda Python发行版](https:\u002F\u002Fwww.continuum.io\u002Fdownloads) - 包含大多数重要的数据科学Python包。\n- [Spacy](https:\u002F\u002Fspacy.io\u002F) - 一个用于处理文本数据的开源工具包。\n- [LightGBM梯度提升框架](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002FLightGBM) - 已成功应用于许多Kaggle竞赛。\n- [亚马逊AWS](https:\u002F\u002Faws.amazon.com\u002F) - 可租用云服务器来进行耗时计算（r4.xlarge实例是一个不错的起点）。\n\n\n## 面向初学者的数据科学挑战\n按难度递增排序。\n\n- [房屋价格挑战 walkthrough](https:\u002F\u002Fwww.dataquest.io\u002Fblog\u002Fkaggle-getting-started\u002F) - 通过一个简单的房屋价格挑战进行讲解。\n- [献血挑战](https:\u002F\u002Fwww.drivendata.org\u002Fcompetitions\u002F2\u002Fwarm-up-predict-blood-donations\u002F) - 预测捐赠者是否会再次献血。\n- [泰坦尼克号挑战](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Ftitanic) - 预测泰坦尼克号上的生还情况。\n- [水泵挑战](https:\u002F\u002Fwww.drivendata.org\u002Fcompetitions\u002F7\u002Fpump-it-up-data-mining-the-water-table\u002F) - 预测非洲地区水泵的工作状态。\n\n## 更高级的资源与列表\n\n- [Awesome Data Science](https:\u002F\u002Fgithub.com\u002Fbulutyazilim\u002Fawesome-datascience)\n- [数据科学Python](https:\u002F\u002Fgithub.com\u002Fujjwalkarn\u002FDataSciencePython)\n- [机器学习教程](https:\u002F\u002Fgithub.com\u002Fujjwalkarn\u002FMachine-Learning-Tutorials)\n\n## 贡献\n欢迎贡献！请先阅读[贡献指南](contributing.md)。\n\n## 许可证\n\n[![CC0](http:\u002F\u002Fmirrors.creativecommons.org\u002Fpresskit\u002Fbuttons\u002F88x31\u002Fsvg\u002Fcc-zero.svg)](http:\u002F\u002Fcreativecommons.org\u002Fpublicdomain\u002Fzero\u002F1.0)\n\n在法律允许的最大范围内，Simon Böhm 已放弃本作品的所有版权及相关权利或邻接权利。免责声明：部分链接为联盟推广链接。","# awesome-learn-datascience 快速上手指南\n\n本指南旨在帮助初学者利用 `awesome-learn-datascience`  curated 的资源快速进入数据科学领域。该列表主要聚焦于 **Python** 生态系统。\n\n## 环境准备\n\n在开始之前，请确保满足以下前置条件：\n\n*   **操作系统**：Windows, macOS 或 Linux 均可。\n*   **基础知识**：无需深厚背景，但掌握基础的 Python 语法和统计学概念将大有裨益。\n*   **核心依赖**：\n    *   Python (建议版本 3.8+)\n    *   包管理工具 (pip 或 conda)\n    *   Jupyter Notebook (用于交互式学习和可视化)\n\n> **国内加速建议**：\n> 推荐使用 **Anaconda** 发行版，它预装了绝大多数数据科学所需的库。\n> *   **下载镜像**：清华大学开源软件镜像站 ([https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Farchive\u002F](https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Farchive\u002F))\n> *   **配置源**：安装后执行以下命令配置清华源以加速包下载：\n>     ```bash\n>     conda config --add channels https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fpkgs\u002Fmain\u002F\n>     conda config --add channels https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fpkgs\u002Ffree\u002F\n>     conda config --set show_channel_urls yes\n>     ```\n\n## 安装步骤\n\n如果你尚未安装相关环境，可以通过以下两种方式快速搭建：\n\n### 方案 A：使用 Anaconda (推荐)\n\n1.  从上述国内镜像下载并安装 Anaconda。\n2.  创建专属学习环境并安装核心库：\n    ```bash\n    conda create -n ds-learning python=3.9\n    conda activate ds-learning\n    conda install numpy pandas scikit-learn jupyter matplotlib seaborn\n    ```\n\n### 方案 B：使用 pip 手动安装\n\n如果已安装 Python，可直接使用 pip 安装（建议配置国内 pip 源）：\n\n```bash\npython -m pip install --upgrade pip -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npip install numpy pandas scikit-learn jupyterlab matplotlib seaborn -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 验证安装\n\n启动 Jupyter Lab 以验证环境是否就绪：\n```bash\njupyter lab\n```\n\n## 基本使用\n\n本资源列表的核心价值在于引导你通过实战学习。以下是基于列表中推荐工具的最简入门流程：\n\n### 1. 启动学习笔记本\n在 Jupyter 中新建一个 Notebook，首先导入核心库并检查版本，这是所有教程的第一步：\n\n```python\nimport numpy as np\nimport pandas as pd\nimport sklearn\nimport matplotlib.pyplot as plt\nimport seaborn as sns\n\nprint(f\"NumPy version: {np.__version__}\")\nprint(f\"Pandas version: {pd.__version__}\")\nprint(f\"Scikit-learn version: {sklearn.__version__}\")\n\n# 设置绘图风格\nsns.set(style=\"whitegrid\")\n```\n\n### 2. 加载与探索数据 (Pandas)\n参考列表中关于 `pandas` 的教程，尝试加载一个简单的数据集（如经典的泰坦尼克号数据集）：\n\n```python\n# 示例：加载 CSV 数据\n# 实际使用时可替换为本地文件或 URL\nurl = \"https:\u002F\u002Fraw.githubusercontent.com\u002Fdatasciencedojo\u002Fdatasets\u002Fmaster\u002Ftitanic.csv\"\ndf = pd.read_csv(url)\n\n# 查看前 5 行数据\nprint(df.head())\n\n# 查看数据基本信息\nprint(df.info())\n```\n\n### 3. 构建第一个模型 (Scikit-Learn)\n参考 `scikit-learn` 部分，尝试建立一个简单的监督学习模型（如预测生存率）：\n\n```python\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.ensemble import RandomForestClassifier\nfrom sklearn.metrics import accuracy_score\n\n# 简单的特征选择与预处理\nfeatures = ['Pclass', 'Sex', 'Age', 'Fare']\ndf['Sex'] = df['Sex'].map({'male': 0, 'female': 1})\ndf = df.dropna(subset=features + ['Survived'])\n\nX = df[features]\ny = df['Survived']\n\n# 划分训练集和测试集\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n\n# 初始化并训练模型\nmodel = RandomForestClassifier(n_estimators=100, random_state=42)\nmodel.fit(X_train, y_train)\n\n# 评估模型\npredictions = model.predict(X_test)\naccuracy = accuracy_score(y_test, predictions)\nprint(f\"Model Accuracy: {accuracy:.2f}\")\n```\n\n### 4. 进阶挑战\n完成基础练习后，可前往列表中 **Data Science Challenges for Beginners** 部分，尝试以下实战项目：\n*   **Titanic Challenge**: [Kaggle Titanic](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Ftitanic)\n*   **House Prices**: [Dataquest Walkthrough](https:\u002F\u002Fwww.dataquest.io\u002Fblog\u002Fkaggle-getting-started\u002F)\n\n按照列表提供的链接深入阅读具体算法原理（如交叉验证、特征工程）并应用于这些挑战中。","刚毕业的市场分析师李明急需掌握数据科学技能以处理公司销售数据，但面对海量零散的学习资源感到无从下手。\n\n### 没有 awesome-learn-datascience 时\n- 在搜索引擎中盲目查找教程，花费数天时间筛选，却仍无法区分“数据分析”与“数据挖掘”等核心概念的区别。\n- 学习路径支离破碎，今天看视频学 Python 基础，明天找文档读算法原理，缺乏系统性的进阶指引。\n- 遇到交叉验证或特征工程等具体技术难点时，找不到权威且带有代码实现的解释，只能反复试错。\n- 误入过时或不适合初学者的课程，导致学习信心受挫，项目进度严重滞后。\n\n### 使用 awesome-learn-datascience 后\n- 直接查阅 curated 列表中的 Quora 问答和书籍推荐，快速厘清数据科学术语体系，建立清晰的认知框架。\n- 遵循从\"Python 基础”到\"numpy\u002Fpandas 实战”再到“常用算法”的线性路径，高效完成系统性入门。\n- 利用列表中链接的 Jupyter Notebook 实例代码，直观理解并复现监督学习与模型评估等关键步骤。\n- 依托经过本地数据科学社群验证的资源清单，避开低质内容，将原本需要一个月的摸索期缩短至一周。\n\nawesome-learn-datascience 通过提供一条经实践验证的精选学习路径，帮助初学者从零散信息的迷雾中迅速找到方向，极大降低了数据科学的入门门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsiboehm_awesome-learn-datascience_38c53ee5.png","siboehm","Simon Boehm","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsiboehm_2c2d8542.jpg","big watts",null,"SF","siboehm.com","https:\u002F\u002Fgithub.com\u002Fsiboehm",776,84,"2026-04-05T06:38:30",1,"未说明",{"notes":86,"python":87,"dependencies":88},"该仓库是一个学习资源列表而非单一软件工具，因此无特定运行环境要求。文中建议使用 Anaconda Python 发行版以获取所需的数据科学包。部分高级计算任务（如提及的 AWS 场景）可能需要云服务器支持。","未说明 (建议基础 Python 知识)",[89,90,91,92,93,94,95],"numpy","pandas","scikit-learn","jupyter","seaborn","spacy","lightgbm",[97,14,16],"其他",[99,100,101,102,103],"data-science","machine-learning","awesome","awesome-list","lists","2026-03-27T02:49:30.150509","2026-04-06T15:54:33.608321",[],[]]