[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-msgi--nlp-journey":3,"tool-msgi--nlp-journey":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":92,"env_os":93,"env_gpu":94,"env_ram":94,"env_deps":95,"category_tags":98,"github_topics":99,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":102,"updated_at":103,"faqs":104,"releases":125},3877,"msgi\u002Fnlp-journey","nlp-journey","Documents, papers and codes related to  Natural Language Processing, including Topic Model, Word Embedding, Named Entity Recognition, Text Classificatin, Text Generation, Text Similarity, Machine Translation)，etc. ","nlp-journey 是一个专为自然语言处理（NLP）爱好者打造的开源知识宝库，系统整理了从基础理论到前沿应用的文档、论文与代码。它涵盖了主题模型、词嵌入、命名实体识别、文本分类、生成、相似度计算及机器翻译等核心领域，并特别增设了大语言模型（LLM）聊天实战模块。\n\n面对 NLP 领域技术迭代快、学习资料分散的痛点，nlp-journey 提供了一站式的解决方案。它不仅收录了《深度学习》等经典教材，更精心梳理了以 Transformer 架构为核心的里程碑式论文（如 BERT、GPT 系列、T5 等），以及 LSTM、残差网络等基础模型的原始文献与综述。这种将经典理论与最新突破相结合的组织方式，帮助用户高效构建完整的知识体系，避免在海量信息中迷失方向。\n\n该项目非常适合 NLP 领域的研究人员、算法工程师及计算机专业学生使用。对于希望深入理解模型原理的开发者，或是需要追踪学术前沿的研究者，nlp-journey 都是极佳的入门指南与参考手册。其独特的亮点在于不仅提供论文链接，还关联了相关代码实现与通俗解读，让复杂的算法变得触手可及，助力用户轻松开启自然语言处理的探索之旅。","# nlp journey\n\n[![Star](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmsgi\u002Fnlp-journey?color=success)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002F)\n[![Fork](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fmsgi\u002Fnlp-journey)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Ffork)\n[![GitHub Issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fmsgi\u002Fnlp-journey?color=success)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Fissues)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202-blue)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey)\n\n\n## 0. llm chat\n\n[llm-chat](llm-chat\u002F)\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmsgi_nlp-journey_readme_a89cdecd297e.png)\n\n## 1. Books\n\n1. Handbook of Graphical Models. [`online`](https:\u002F\u002Fstat.ethz.ch\u002F~maathuis\u002Fpapers\u002FHandbook.pdf)\n2. Deep Learning. [`online`](https:\u002F\u002Fwww.deeplearningbook.org\u002F)\n3. Neural Networks and Deep Learning. [`online`](http:\u002F\u002Fneuralnetworksanddeeplearning.com\u002F)\n4. Speech and Language Processing. [`online`](http:\u002F\u002Fweb.stanford.edu\u002F~jurafsky\u002Fslp3\u002Fed3book.pdf)\n\n## 2. Papers\n\n### 01) Transformer papers\n\n1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. [`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04805)\n2. GPT-2: Language Models are Unsupervised Multitask Learners. [`paper`](https:\u002F\u002Fblog.openai.com\u002Fbetter-language-models\u002F)\n3. Transformer-XL: Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. [`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.02860)\n4. XLNet: Generalized Autoregressive Pretraining for Language Understanding. [`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.08237)\n5. RoBERTa: Robustly Optimized BERT Pretraining Approach. [`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11692)\n6. DistilBERT: a distilled version of BERT: smaller, faster, cheaper and lighter. [`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.01108)\n7. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. [`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11942)\n8. T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. [`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)\n9. ELECTRA: pre-training text encoders as discriminators rather than generators. [`paper`](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)\n10. GPT3: Language Models are Few-Shot Learners. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.14165.pdf)\n\n\n### 02) Models\n\n1. LSTM(Long Short-term Memory). [`paper`](http:\u002F\u002Fwww.bioinf.jku.at\u002Fpublications\u002Folder\u002F2604.pdf)\n2. Sequence to Sequence Learning with Neural Networks. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1409.3215.pdf)\n3. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1406.1078.pdf)\n4. Residual Network(Deep Residual Learning for Image Recognition). [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.03385.pdf)\n5. Dropout(Improving neural networks by preventing co-adaptation of feature detectors). [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1207.0580.pdf)\n6. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1502.03167.pdf)\n\n### 03) Summaries\n\n1. An overview of gradient descent optimization algorithms. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.04747.pdf)\n2. Analysis Methods in Neural Language Processing: A Survey. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.08951.pdf)\n3. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.10683.pdf)\n4. A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2001.06937.pdf)\n5. A Gentle Introduction to Deep Learning for Graphs. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1912.12693.pdf)\n6. A Survey on Deep Learning for Named Entity Recognition. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.09449.pdf)\n7. More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.03186.pdf)\n8. Deep Learning Based Text Classification: A Comprehensive Review. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.03705.pdf)\n9. Pre-trained Models for Natural Language Processing: A Survey. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.08271.pdf)\n10. A Survey on Contextual Embeddings. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.07278.pdf)\n11. A Survey on Knowledge Graphs: Representation, Acquisition and Applications. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.00388.pdf)\n12. Knowledge Graphs. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.02320v2.pdf)\n13. Pre-trained Models for Natural Language Processing: A Survey. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.08271.pdf)\n\n### 04) Pre-training\n\n1. A Neural Probabilistic Language Model. [`paper`](https:\u002F\u002Fwww.researchgate.net\u002Fpublication\u002F221618573_A_Neural_Probabilistic_Language_Model)\n2. word2vec Parameter Learning Explained. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1411.2738.pdf)\n3. Language Models are Unsupervised Multitask Learners. [`paper`](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage-models.pdf)\n4. An Empirical Study of Smoothing Techniques for Language Modeling. [`paper`](https:\u002F\u002Fdash.harvard.edu\u002Fbitstream\u002Fhandle\u002F1\u002F25104739\u002Ftr-10-98.pdf?sequence=1)\n5. Efficient Estimation of Word Representations in Vector Space. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1301.3781.pdf)\n6. Distributed Representations of Sentences and Documents. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1405.4053.pdf)\n7. Enriching Word Vectors with Subword Information(FastText). [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.04606.pdf)\n8. GloVe: Global Vectors for Word Representation. [`online`](https:\u002F\u002Fnlp.stanford.edu\u002Fprojects\u002Fglove\u002F)\n9. ELMo (Deep contextualized word representations). [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.05365.pdf)\n10. Pre-Training with Whole Word Masking for Chinese BERT. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08101.pdf)\n\n### 05) Classification\n\n1. Bag of Tricks for Efficient Text Classification (FastText). [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.01759.pdf)\n2. Convolutional Neural Networks for Sentence Classification. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1408.5882.pdf)\n3. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. [`paper`](http:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP16-2034)\n\n### 06) Text generation\n\n1. A Deep Ensemble Model with Slot Alignment for Sequence-to-Sequence Natural Language Generation. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.06553.pdf)\n2. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.05473.pdf)\n\n### 07) Text Similarity\n\n1. Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks. [`paper`](http:\u002F\u002Fciteseerx.ist.psu.edu\u002Fviewdoc\u002Fdownload?doi=10.1.1.723.6492&rep=rep1&type=pdf)\n2. Learning Text Similarity with Siamese Recurrent Networks. [`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW16-1617)\n3. A Deep Architecture for Matching Short Texts. [`paper`](http:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F5019-a-deep-architecture-for-matching-short-texts.pdf)\n\n### 08) QA\n\n1. A Question-Focused Multi-Factor Attention Network for Question Answering. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1801.08290.pdf)\n2. The Design and Implementation of XiaoIce, an Empathetic Social Chatbot. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.08989.pdf)\n3. A Knowledge-Grounded Neural Conversation Model. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1702.01932.pdf)\n4. Neural Generative Question Answering. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.01337v1.pdf)\n5. Sequential Matching Network A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots．[`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01627)\n6. Modeling Multi-turn Conversation with Deep Utterance Aggregation．[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.09102.pdf)\n7. Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network．[`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP18-1103)\n8. Deep Reinforcement Learning For Modeling Chit-Chat Dialog With Discrete Attributes. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.02848.pdf)\n\n### 09) NMT\n\n1. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1406.1078v3.pdf)\n2. Neural Machine Translation by Jointly Learning to Align and Translate. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1409.0473.pdf)\n3. Transformer (Attention Is All You Need). [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.03762.pdf)\n\n### 10) Summary\n\n1. Get To The Point: Summarization with Pointer-Generator Networks. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.04368.pdf)\n2. Deep Recurrent Generative Decoder for Abstractive Text Summarization. [`paper`](https:\u002F\u002Faclweb.org\u002Fanthology\u002FD17-1222)\n\n### 11) Relation extraction\n\n1. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. [`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FD15-1203)\n2. Neural Relation Extraction with Multi-lingual Attention. [`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP17-1004)\n3. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. [`paper`](https:\u002F\u002Faclweb.org\u002Fanthology\u002FD18-1514)\n4. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures. [`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP16-1105)\n\n### 12) Large Language Models\n\n1. Training language models to follow instructions with human feedback. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2203.02155.pdf)\n2. LLaMA: Open and Efficient Foundation Language Models. [`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.13971.pdf)\n\n## 3. Articles\n\n- TRANSFORMERS FROM SCRATCH. [`url`](http:\u002F\u002Fpeterbloem.nl\u002Fblog\u002Ftransformers)\n- The Illustrated Transformer.[`url`](https:\u002F\u002Fjalammar.github.io\u002Fillustrated-transformer\u002F)\n- Attention-based-model. [`url`](http:\u002F\u002Fwww.wildml.com\u002F2016\u002F01\u002Fattention-and-memory-in-deep-learning-and-nlp\u002F)\n- Modern Deep Learning Techniques Applied to Natural Language Processing. [`url`](https:\u002F\u002Fnlpoverview.com\u002F)\n- Illustrated Guide to LSTM’s and GRU’s: A step by step explanation\n.[`url`](https:\u002F\u002Ftowardsdatascience.com\u002Fillustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21)\n- Applying word2vec to Recommenders and Advertising. [`url`](http:\u002F\u002Fmccormickml.com\u002F2018\u002F06\u002F15\u002Fapplying-word2vec-to-recommenders-and-advertising\u002F)\n\n\n## 4. Github\n\n* CLUE. [`github`](https:\u002F\u002Fgithub.com\u002FCLUEbenchmark\u002FCLUE)\n* transformers. [`github`](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n* HanLP. [`github`](https:\u002F\u002Fgithub.com\u002Fhankcs\u002FHanLP)\n* ML-For-Beginners. [`github`](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FML-For-Beginners.git)\n","# 自然语言处理之旅\n\n[![Star](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmsgi\u002Fnlp-journey?color=success)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002F)\n[![Fork](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fmsgi\u002Fnlp-journey)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Ffork)\n[![GitHub Issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fmsgi\u002Fnlp-journey?color=success)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Fissues)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202-blue)](https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey)\n\n\n## 0. 大模型聊天\n\n[llm-chat](llm-chat\u002F)\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmsgi_nlp-journey_readme_a89cdecd297e.png)\n\n## 1. 书籍\n\n1. 图形模型手册。[`在线`](https:\u002F\u002Fstat.ethz.ch\u002F~maathuis\u002Fpapers\u002FHandbook.pdf)\n2. 深度学习。[`在线`](https:\u002F\u002Fwww.deeplearningbook.org\u002F)\n3. 神经网络与深度学习。[`在线`](http:\u002F\u002Fneuralnetworksanddeeplearning.com\u002F)\n4. 语音与语言处理。[`在线`](http:\u002F\u002Fweb.stanford.edu\u002F~jurafsky\u002Fslp3\u002Fed3book.pdf)\n\n## 2. 论文\n\n### 01) Transformer相关论文\n\n1. BERT：用于语言理解的深度双向Transformer预训练。[`论文`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04805)\n2. GPT-2：语言模型是无监督的多任务学习者。[`论文`](https:\u002F\u002Fblog.openai.com\u002Fbetter-language-models\u002F)\n3. Transformer-XL：超越固定长度上下文的注意力语言模型。[`论文`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.02860)\n4. XLNet：面向语言理解的广义自回归预训练。[`论文`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.08237)\n5. RoBERTa：鲁棒优化的BERT预训练方法。[`论文`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11692)\n6. DistilBERT：BERT的蒸馏版本，更小、更快、更便宜、更轻。[`论文`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.01108)\n7. ALBERT：用于语言表示自监督学习的轻量级BERT。[`论文`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11942)\n8. T5：使用统一的文本到文本Transformer探索迁移学习的极限。[`论文`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)\n9. ELECTRA：将文本编码器作为判别器而非生成器进行预训练。[`论文`](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)\n10. GPT3：语言模型是少样本学习者。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.14165.pdf)\n\n\n### 02) 模型\n\n1. LSTM（长短期记忆网络）。[`论文`](http:\u002F\u002Fwww.bioinf.jku.at\u002Fpublications\u002Folder\u002F2604.pdf)\n2. 基于神经网络的序列到序列学习。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1409.3215.pdf)\n3. 使用RNN编码器-解码器学习短语表示以进行统计机器翻译。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1406.1078.pdf)\n4. 残差网络（用于图像识别的深度残差学习）。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.03385.pdf)\n5. Dropout（通过防止特征检测器的协同适应来改进神经网络）。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1207.0580.pdf)\n6. 批量归一化：通过减少内部协变量偏移加速深度网络训练。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1502.03167.pdf)\n\n### 03) 总结\n\n1. 梯度下降优化算法综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.04747.pdf)\n2. 神经语言处理中的分析方法：综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.08951.pdf)\n3. 使用统一的文本到文本Transformer探索迁移学习的极限。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.10683.pdf)\n4. 生成对抗网络：算法、理论与应用综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2001.06937.pdf)\n5. 图深度学习入门。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1912.12693.pdf)\n6. 命名实体识别深度学习综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.09449.pdf)\n7. 更多数据、更多关系、更多上下文和更多开放性：关系抽取的回顾与展望。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.03186.pdf)\n8. 基于深度学习的文本分类：综合评论。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.03705.pdf)\n9. 自然语言处理的预训练模型：综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.08271.pdf)\n10. 上下文嵌入综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.07278.pdf)\n11. 知识图谱：表示、获取与应用综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.00388.pdf)\n12. 知识图谱。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.02320v2.pdf)\n13. 自然语言处理的预训练模型：综述。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.08271.pdf)\n\n### 04) 预训练\n\n1. 神经概率语言模型。[`论文`](https:\u002F\u002Fwww.researchgate.net\u002Fpublication\u002F221618573_A_Neural_Probabilistic_Language_Model)\n2. word2vec参数学习详解。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1411.2738.pdf)\n3. 语言模型是无监督的多任务学习者。[`论文`](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage-models.pdf)\n4. 语言建模平滑技术的实证研究。[`论文`](https:\u002F\u002Fdash.harvard.edu\u002Fbitstream\u002Fhandle\u002F1\u002F25104739\u002Ftr-10-98.pdf?sequence=1)\n5. 向量空间中词表示的有效估计。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1301.3781.pdf)\n6. 句子和文档的分布式表示。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1405.4053.pdf)\n7. 利用子词信息丰富词向量（FastText）。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.04606.pdf)\n8. GloVe：用于词表示的全局向量。[`在线`](https:\u002F\u002Fnlp.stanford.edu\u002Fprojects\u002Fglove\u002F)\n9. ELMo（深度上下文化词表示）。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.05365.pdf)\n10. 针对中文BERT的全词掩码预训练。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08101.pdf)\n\n### 05) 分类\n\n1. 用于高效文本分类的技巧包（FastText）。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.01759.pdf)\n2. 用于句子分类的卷积神经网络。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1408.5882.pdf)\n3. 基于注意力的双向长短期记忆网络用于关系分类。[`论文`](http:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP16-2034)\n\n### 06) 文本生成\n\n1. 具有槽位对齐的深度集成模型用于序列到序列的自然语言生成。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.06553.pdf)\n2. SeqGAN：基于策略梯度的序列生成对抗网络。[`论文`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.05473.pdf)\n\n### 07) 文本相似度\n\n1. 使用卷积深度神经网络学习对短文本对进行排序。[`论文`](http:\u002F\u002Fciteseerx.ist.psu.edu\u002Fviewdoc\u002Fdownload?doi=10.1.1.723.6492&rep=rep1&type=pdf)\n2. 使用暹罗循环网络学习文本相似度。[`论文`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW16-1617)\n3. 用于匹配短文本的深度架构。[`论文`](http:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F5019-a-deep-architecture-for-matching-short-texts.pdf)\n\n### 08) 问答\n\n1. 面向问题的多因子注意力网络用于问答。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1801.08290.pdf)\n2. 小冰：一款共情社交聊天机器人的设计与实现。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.08989.pdf)\n3. 基于知识的神经对话模型。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1702.01932.pdf)\n4. 神经生成式问答。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.01337v1.pdf)\n5. 序列匹配网络：一种用于基于检索的聊天机器人多轮回复选择的新架构。[`paper`](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01627)\n6. 使用深度话语聚合建模多轮对话。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.09102.pdf)\n7. 基于深度注意力匹配网络的聊天机器人多轮回复选择。[`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP18-1103)\n8. 用于建模具有离散属性的闲聊对话的深度强化学习。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.02848.pdf)\n\n### 09) 机器翻译\n\n1. 使用 RNN 编码器-解码器学习短语表示以进行统计机器翻译。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1406.1078v3.pdf)\n2. 通过联合学习对齐与翻译实现神经机器翻译。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1409.0473.pdf)\n3. Transformer（注意力就是你所需要的）。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.03762.pdf)\n\n### 10) 摘要\n\n1. 抓住要点：基于指针-生成器网络的摘要生成。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.04368.pdf)\n2. 用于抽象文本摘要的深度循环生成解码器。[`paper`](https:\u002F\u002Faclweb.org\u002Fanthology\u002FD17-1222)\n\n### 11) 关系抽取\n\n1. 基于分段卷积神经网络的关系抽取远程监督。[`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FD15-1203)\n2. 基于多语言注意力的神经关系抽取。[`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP17-1004)\n3. FewRel：一个大规模有监督的小样本关系分类数据集，并附有最先进的评估。[`paper`](https:\u002F\u002Faclweb.org\u002Fanthology\u002FD18-1514)\n4. 使用 LSTM 对序列和树结构进行端到端关系抽取。[`paper`](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP16-1105)\n\n### 12) 大型语言模型\n\n1. 基于人类反馈训练语言模型遵循指令。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2203.02155.pdf)\n2. LLaMA：开放且高效的基座语言模型。[`paper`](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.13971.pdf)\n\n## 3. 文章\n\n- 从零开始理解 Transformer。[`url`](http:\u002F\u002Fpeterbloem.nl\u002Fblog\u002Ftransformers)\n- 图解 Transformer。[`url`](https:\u002F\u002Fjalammar.github.io\u002Fillustrated-transformer\u002F)\n- 基于注意力的模型。[`url`](http:\u002F\u002Fwww.wildml.com\u002F2016\u002F01\u002Fattention-and-memory-in-deep-learning-and-nlp\u002F)\n- 现代深度学习技术在自然语言处理中的应用。[`url`](https:\u002F\u002Fnlpoverview.com\u002F)\n- LSTM 和 GRU 的图解指南：逐步解释。[`url`](https:\u002F\u002Ftowardsdatascience.com\u002Fillustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21)\n- Word2Vec 在推荐系统和广告中的应用。[`url`](http:\u002F\u002Fmccormickml.com\u002F2018\u002F06\u002F15\u002Fapplying-word2vec-to-recommenders-and-advertising\u002F)\n\n\n## 4. Github\n\n* CLUE。[`github`](https:\u002F\u002Fgithub.com\u002FCLUEbenchmark\u002FCLUE)\n* transformers。[`github`](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n* HanLP。[`github`](https:\u002F\u002Fgithub.com\u002Fhankcs\u002FHanLP)\n* ML-For-Beginners。[`github`](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FML-For-Beginners.git)","# nlp-journey 快速上手指南\n\n`nlp-journey` 并非一个需要安装运行的软件库，而是一个**自然语言处理（NLP）领域的精选学习资源索引**。它汇集了从基础理论到前沿大模型（LLM）的经典书籍、核心论文、技术文章及开源项目链接。\n\n本指南将帮助你快速利用该仓库构建 NLP 知识体系。\n\n## 1. 环境准备\n\n由于本项目主要是文档和资源链接集合，**无需安装任何 Python 依赖或配置特定运行环境**。你只需要：\n\n*   **操作系统**：Windows \u002F macOS \u002F Linux 均可。\n*   **必备工具**：\n    *   Web 浏览器（用于访问论文和文章链接）。\n    *   PDF 阅读器（用于阅读学术文献）。\n    *   Git（可选，用于克隆仓库到本地离线浏览）。\n*   **网络建议**：\n    *   部分论文链接指向 `arxiv.org` 或 `google.com`，国内访问可能较慢。\n    *   **加速方案**：建议使用学术镜像站（如 [ArXiv 中文镜像](https:\u002F\u002Farxiv.cn\u002F)）或通过配置科学上网环境访问外链。对于 GitHub 仓库链接，可使用 [GitClone](https:\u002F\u002Fgitclone.com\u002F) 等国内加速服务进行克隆。\n\n## 2. 获取资源\n\n你可以选择在线浏览或直接克隆到本地。\n\n### 方式一：在线浏览（推荐）\n直接访问 GitHub 仓库页面，点击目录中的链接跳转阅读：\n> https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\n\n### 方式二：克隆到本地\n如果你希望离线整理或贡献内容，可以使用以下命令克隆仓库：\n\n```bash\n# 使用官方源\ngit clone https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey.git\n\n# 或者使用国内加速源（推荐国内开发者）\ngit clone https:\u002F\u002Fgitclone.com\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey.git\n```\n\n进入目录查看结构：\n```bash\ncd nlp-journey\nls\n```\n\n## 3. 基本使用与学习路径\n\n本仓库按主题分类，建议根据你的当前水平选择对应的模块进行学习。\n\n### 3.1 入门基础 (Books & Models)\n如果你是初学者，请先阅读 **Section 1: Books** 中的经典教材，并研读 **Section 2.02: Models** 中的基础模型论文。\n\n*   **必读教材**：\n    *   *Deep Learning* (花书): [在线阅读](https:\u002F\u002Fwww.deeplearningbook.org\u002F)\n    *   *Speech and Language Processing*: [在线阅读](http:\u002F\u002Fweb.stanford.edu\u002F~jurafsky\u002Fslp3\u002Fed3book.pdf)\n*   **基础模型**：\n    *   LSTM, Seq2Seq, ResNet, Dropout, Batch Normalization 等原始论文。\n\n### 3.2 进阶核心 (Transformer & Pre-training)\n掌握基础后，进入 **Section 2.01 (Transformer papers)** 和 **Section 2.04 (Pre-training)**，这是现代 NLP 的基石。\n\n*   **核心论文序列**：\n    1.  Transformer (Attention Is All You Need)\n    2.  BERT \u002F RoBERTa \u002F ALBERT\n    3.  GPT-2 \u002F GPT-3\n    4.  T5 \u002F ELECTRA\n*   **词向量技术**：Word2Vec, GloVe, FastText, ELMo。\n\n### 3.3 任务实战 (Tasks)\n针对具体应用场景，参考 **Section 2** 下的细分领域论文：\n*   **文本分类** (Classification)\n*   **文本生成** (Text generation)\n*   **问答系统** (QA)\n*   **机器翻译** (NMT)\n*   **关系抽取** (Relation extraction)\n*   **大语言模型** (Large Language Models): 包含 LLaMA 及人类反馈强化学习 (RLHF) 相关论文。\n\n### 3.4 代码实践 (Github)\n理论学习后，结合 **Section 4: Github** 中的开源项目进行代码实战：\n*   **Hugging Face Transformers**: 目前最流行的预训练模型库。\n*   **HanLP**: 适合中文处理的开源库。\n*   **CLUE**: 中文语言理解测评基准。\n\n### 3.5 直观理解 (Articles)\n如果论文过于晦涩，可先阅读 **Section 3: Articles** 中的图解教程：\n*   *The Illustrated Transformer*: 图解 Transformer 架构。\n*   *Illustrated Guide to LSTM's and GRU's*: 一步步解释循环神经网络。\n\n---\n**提示**：本仓库是动态更新的学习地图，建议将其作为书签长期关注，按图索骥深入钻研每个链接背后的技术细节。","某初创公司的算法工程师团队正着手构建一个智能客服系统，急需快速调研并复现最新的文本分类与实体识别模型以验证技术可行性。\n\n### 没有 nlp-journey 时\n- 研究人员需在 arXiv、Google Scholar 等多个平台分散搜索，耗时数天才能凑齐 BERT、RoBERTa 及各类综述论文，效率极低。\n- 面对海量的深度学习理论书籍（如图模型、语音处理），难以筛选出权威且免费的在线资源，学习路径混乱。\n- 缺乏系统的代码与模型对照参考，在复现 Transformer-XL 或 ELECTRA 等复杂架构时，常因找不到官方实现细节而陷入调试困境。\n- 团队内部知识沉淀困难，新人入职后需重复造轮子去整理基础算法（如 LSTM、Dropout）的核心文献，拖慢项目启动速度。\n\n### 使用 nlp-journey 后\n- 团队直接利用其整理的\"Transformer papers\"清单，一键获取从 BERT 到 GPT-3 的十篇核心论文链接，将文献调研时间从数天压缩至几小时。\n- 通过\"Books\"板块直达《Deep Learning》和《Speech and Language Processing》等经典教材的免费在线版，迅速统一了团队的技术理论基础。\n- 借助\"Models\"与\"Summaries\"分类，工程师能快速定位到残差网络、批归一化等关键技术的原始论文及综述，大幅降低了模型复现的试错成本。\n- 新员工可直接将该仓库作为入职“导航图”，按主题模型、文本生成等模块系统性学习，实现了技术知识的标准化传承与快速上手。\n\nnlp-journey 将散落的 NLP 核心资源聚合成一张清晰的“技术地图”，让研发团队能从繁琐的资料搜集工作中解放出来，专注于算法创新与落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmsgi_nlp-journey_832b2aa3.png","msgi","David Ma","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmsgi_32d05064.jpg","Algorithm engineer focused on NLP and Deep Learning.",null,"mayuan120226@163.com","https:\u002F\u002Fmsgi.github.io","https:\u002F\u002Fgithub.com\u002Fmsgi",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,1634,375,"2026-04-02T08:38:48","Apache-2.0",1,"","未说明",{"notes":96,"python":94,"dependencies":97},"该项目主要是一个自然语言处理（NLP）的学习资源汇总仓库，包含书籍、论文链接、文章教程以及相关开源项目（如 transformers, HanLP）的索引，并非一个可直接安装运行的单一软件工具。README 中未提供具体的代码运行环境、依赖库版本或硬件配置要求。用户需根据项目中链接的具体论文或子项目（如 llm-chat）去查阅各自的独立文档以获取运行需求。",[],[13],[100,101],"deep-learning","paper","2026-03-27T02:49:30.150509","2026-04-06T05:37:59.245070",[105,110,115,120],{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},17736,"运行代码时遇到 'keras_contrib' 报错或兼容性问题怎么办？","keras-contrib 库仅支持与 Keras 一起使用，并不支持 TensorFlow 2.0。如果遇到此类错误，需要修改代码以移除对 keras-contrib 的依赖或适配 TensorFlow 2.0 的等效实现。","https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Fissues\u002F6",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},17737,"出现 'No such file or directory: model\u002Fgensim\u002Fmodel.txt' 错误如何解决？","该文件不是项目自带的，需要用户自己训练模型生成。请运行相应的训练脚本以生成 'model\u002Fgensim\u002Fmodel.txt' 文件。","https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Fissues\u002F5",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},17738,"遇到 'InvalidArgumentError: indices... = -1 is not in...' CRF 相关错误怎么办？","这是一个已知的代码 Bug，通常由数据索引处理不当引起。维护者已修复该问题并上传了最新代码，请拉取（pull）最新的代码版本即可解决。","https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Fissues\u002F7",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},17739,"运行 pre_process.py 时提示 'undefined name' (如 stop_words, lines) 错误？","这是代码中的变量未定义错误（F821）。维护者已确认该问题，请更新代码到最新版本，开发者已修复了这些未定义变量的引用问题。","https:\u002F\u002Fgithub.com\u002Fmsgi\u002Fnlp-journey\u002Fissues\u002F4",[]]