awesome-rnn

GitHub
6.2k 1.4k 困难 1 次阅读 昨天语言模型图像音频视频其他
AI 解读 由 AI 自动生成,仅供参考

awesome-rnn 是一个专为循环神经网络(RNN)打造的精选资源清单,旨在帮助开发者和研究人员系统性地探索这一深度学习核心领域。面对 RNN 相关教程、代码库和论文分散且难以筛选的痛点,它通过人工 curated 的方式,将零散的知识整合为结构清晰的导航指南。

这份清单涵盖了从基础理论到前沿应用的全方位内容:包括 TensorFlow、Theano 等主流框架的代码实现与教程,LSTM 等架构变体的原理解析,以及在自然语言处理(如机器翻译、对话系统)、计算机视觉(如视频分析)和多模态任务中的具体应用案例。此外,它还收录了相关的学术书籍、综述文章、公开数据集及在线演示,为用户提供了从入门学习到深入研究的完整路径。

awesome-rnn 特别适合人工智能领域的开发者、算法工程师及学术研究人员使用。无论是想要快速上手 RNN 项目的新手,还是寻求最新架构灵感或对比不同实现方案的资深专家,都能从中高效获取高质量资源。虽然该项目目前不再活跃维护,但其沉淀的经典资料依然具有极高的参考价值,是理解序列建模技术不可或缺的知识库。

使用场景

某初创公司的算法工程师团队正致力于开发一款基于循环神经网络(RNN)的金融舆情情感分析系统,急需从理论选型到代码落地的全套解决方案。

没有 awesome-rnn 时

  • 资源检索低效:团队成员需在 Google、GitHub 和各类论文库中盲目搜索,花费数天时间筛选过时的教程或质量参差不齐的代码库。
  • 架构选型困难:面对 LSTM、GRU 等多种变体,缺乏系统的对比综述和权威理论指引,导致技术选型依赖个人经验,存在试错风险。
  • 复现成本高昂:找不到与金融文本处理匹配的开源基准代码(如 TensorFlow 或 Theano 实现),从零编写数据预处理和模型训练脚本耗时费力。
  • 应用场景迷茫:难以快速定位 NLP 领域外是否有可借鉴的多模态方案(如结合新闻图表分析),限制了产品功能的创新边界。

使用 awesome-rnn 后

  • 一站式的资源聚合:直接获取按“代码”、“理论”、“应用”分类的精良清单,半小时内即可锁定适合情感分析的高星 GitHub 项目和经典论文。
  • 清晰的演进路径:通过"Architecture Variants"和"Surveys"章节,迅速理解不同 RNN 变体的优劣,科学选定最适合短文本情感分类的模型结构。
  • 开箱即用的代码基线:利用列表中提供的 char-rnn-tensorflow 或 Keras 示例代码,快速搭建原型并迁移至自有数据集,将开发周期从周缩短至天。
  • 跨域灵感激发:参考"Multimodal"和"Conversation Modeling"板块的案例,成功引入对话上下文机制,显著提升了舆情判断的准确度。

awesome-rnn 通过将分散的深度学习资源结构化,帮助团队消除了信息不对称,实现了从理论调研到工程落地的高效闭环。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目是一个资源列表(Awesome List),而非单一的可执行软件工具。它汇总了多种不同的深度学习框架(如 TensorFlow, Theano, PyTorch, Torch 等)下的 RNN 相关代码、教程和论文。因此,具体的运行环境需求取决于用户选择使用的特定子项目或框架。例如,使用 Torch 需要 Lua 环境,使用 DL4J 需要 Java/Scala 环境,而其他大多数项目基于 Python。建议根据具体想运行的示例代码去查阅对应子项目的仓库以获取详细的环境配置要求。
python未说明
TensorFlow
Theano
Caffe
Torch (Lua)
PyTorch
DL4J
Keras
Chainer
Numpy
awesome-rnn hero image

快速开始

令人惊叹的循环神经网络

一个精心整理的资源列表,专门针对循环神经网络(与深度学习密切相关)。

维护者 - Myungsub ChoiTaeksoo KimJiwon Kim

我们还有其他主题的页面:awesome-deep-visionawesome-random-forest

贡献

欢迎随时提交拉取请求,或发送邮件至 Myungsub Choi (cms6539@gmail.com),亦可加入我们的聊天群,添加相关链接。

该项目目前未处于积极维护状态。

加入 https://gitter.im/kjw0612/awesome-rnn 的聊天

分享

目录

代码

  • TensorFlow - Python、C++
  • Theano - Python
  • Caffe - C++,带有 MATLAB/Python 封装
    • LRCN by Jeff Donahue
  • Torch - Lua
    • torchnet:模块化框架,可用于构建神经网络模型
    • char-rnn by Andrej Karpathy:多层 RNN/LSTM/GRU,用于训练和采样字符级别的语言模型
    • torch-rnn by Justin Johnson:可重用的 RNN/LSTM 模块,基于 torch7,是对 char-rnn 的更快且更节省内存的重新实现
    • neuraltalk2 by Andrej Karpathy:循环神经网络为图像生成描述,是原始 neuraltalk 的更快更好版本
    • LSTM by Wojciech Zaremba:长短期记忆单元,用于在单词级别的 Penn Tree Bank 数据集上训练语言模型
    • Oxford by Nando de Freitas:牛津大学计算机科学系 2015 年机器学习实践课程
    • rnn by Nicholas Leonard:通用的 RNN、LSTM、BRNN 和 BLSTM 实现库(经过高度单元测试)。
  • PyTorch - Python
  • DL4J by Skymind:适用于 Java、Scala 和 Clojure 的深度学习库,支持 Hadoop、Spark 和 GPU
  • 其他
    • Neon:新的 Python 深度学习库,支持 RNN/LSTM,并提供快速的图像描述模型
    • Brainstorm:由 IDSIA 开发的 Python 深度学习库,包含多种循环结构
    • Chainer:新的灵活的 Python 深度学习库
    • CGT(计算图工具包):复制了 Theano 的 API,但编译时间极短,并支持多线程
    • RNNLIB by Alex Graves:基于 C++ 的 LSTM 库
    • RNNLM by Tomas Mikolov:简单的 C++ 代码
    • faster-RNNLM of Yandex:旨在处理大规模数据集的 C++ RNNLM 实现
    • neuraltalk by Andrej Karpathy:基于 numpy 的 RNN/LSTM 实现
    • gist by Andrej Karpathy:高效的批量 LSTM 实现的原始 numpy 代码
    • Recurrentjs by Andrej Karpathy:RNN 的 beta 版 JavaScript 库
    • DARQN by 5vision:深度注意力循环 Q 网络

理论

讲座

书籍 / 学位论文

架构变体

结构

  • 双向RNN [论文]
    • 迈克·舒斯特和库尔迪普·K·帕利瓦尔,《双向循环神经网络》,信号处理汇刊,1997年
  • 多维RNN [论文]
    • 亚历克斯·格雷夫斯、圣地亚哥·费尔南德斯和尤尔根·施密德胡伯,《多维循环神经网络》,ICANN 2007
  • GFRNN [论文-arXiv] [论文-ICML] [补充材料]
    • 朱永忠、恰格拉尔·居尔切赫雷、丘庆贤、约书亚·本吉奥,《门控反馈循环神经网络》,arXiv:1502.02367 / ICML 2015
  • 树结构RNNs
    • 凯·盛泰、理查德·索彻和克里斯托弗·D·曼宁,《基于树结构长短期记忆网络的语义表示改进》,arXiv:1503.00075 / ACL 2015 [论文]
    • 塞缪尔·R·鲍曼、克里斯托弗·D·曼宁和克里斯托弗·波茨,《无需树状架构的神经网络中的树状组合》,arXiv:1506.04834 [论文]
  • 网格LSTM [论文] [代码]
    • 纳尔·卡尔希布伦纳、伊沃·丹尼赫尔卡和亚历克斯·格雷夫斯,《网格长短期记忆》,arXiv:1507.01526
  • 分段RNN [论文]
    • 孔令鹏、克里斯·戴尔、诺亚·史密斯,《分段循环神经网络》,ICLR 2016。
  • 集合的Seq2seq [论文]
    • 奥里奥尔·维尼亚尔斯、萨米·本吉奥、曼朱纳特·库德卢尔,《顺序很重要:用于集合的序列到序列模型》,ICLR 2016。
  • 层次化循环神经网络 [论文]
    • 朱永忠、安成镇、约书亚·本吉奥,《层次化多尺度循环神经网络》,arXiv:1609.01704

记忆模块

  • LSTM [论文]
    • 塞普·霍克赖特和尤尔根·施密德胡伯,《长短期记忆》,神经计算,1997年
  • GRU(门控循环单元)[论文]
    • 丘庆贤、巴特·范·贝尔伦博尔、恰格拉尔·居尔切赫雷、季米特里·巴赫达诺夫、费蒂·布加雷斯、霍尔格·施文克和约书亚·本吉奥,《使用RNN编码器-解码器进行统计机器翻译的短语表示学习》,arXiv:1406.1078 / EMNLP 2014
  • NTM [论文]
    • A.格雷夫斯、G.韦恩和I.丹尼赫尔卡,《神经图灵机》,arXiv预印本arXiv:1410.5401
  • 神经GPU [论文]
    • 卢卡什·凯泽、伊利亚·苏茨克维尔,arXiv:1511.08228 / ICML 2016(待审)
  • 记忆网络 [论文]
    • 杰森·韦斯顿、苏米特·乔普拉、安托万·博尔德斯,《记忆网络》,arXiv:1410.3916
  • 指针网络 [论文]
    • 奥里奥尔·维尼亚尔斯、梅雷·福图纳托和纳夫迪普·贾特利,《指针网络》,arXiv:1506.03134 / NIPS 2015
  • 深度注意力循环Q网络 [论文]
    • 伊万·索罗金、阿列克谢·谢列兹涅夫、米哈伊尔·帕夫洛夫、亚历山大·费多罗夫、安娜斯塔西娅·伊格纳捷娃,《深度注意力循环Q网络》,arXiv:1512.01693
  • 动态记忆网络 [论文]
    • 安基特·库马尔、奥赞·伊尔索伊、彼得·翁德鲁斯卡、莫希特·艾耶尔、詹姆斯·布拉德伯里、伊桑·古尔拉贾尼、维克多·钟、罗曼·保卢斯、理查德·索彻,《有问必答:用于自然语言处理的动态记忆网络》,arXiv:1506.07285

综述

  • 扬·勒丘恩、约书亚·本吉奥和杰弗里·辛顿,《深度学习》(Nature,2015年)
  • 克劳斯·格雷夫、鲁佩什·库马尔·斯里瓦斯塔瓦、扬·考特尼克、巴斯·R·斯托因布林克、尤尔根·施密德胡伯,《LSTM:搜索空间之旅》(arXiv,2015年)
  • 扎卡里·C·利普顿,《关于用于序列学习的循环神经网络的批判性评论》(arXiv,2015年)
  • 安德烈·卡帕西、贾斯汀·约翰逊、李飞飞,《可视化与理解循环网络》(arXiv,2015年)
  • 拉法尔·约泽福维奇、沃伊切赫·扎伦巴、伊利亚·苏茨克维尔,《对循环网络架构的实证探索》(JMLR,2015年)。

应用

自然语言处理

语言建模

  • 托马斯·米科洛夫、马丁·卡拉菲亚特、卢卡斯·布尔盖特、扬“洪扎”切尔诺茨基、桑杰夫·库丹普尔,《基于循环神经网络的语言模型》,Interspeech 2010 [论文]
  • 托马斯·米科洛夫、斯特凡·孔布林克、卢卡斯·布尔盖特、扬“洪扎”切尔诺茨基、桑杰夫·库丹普尔,《循环神经网络语言模型的扩展》,ICASSP 2011 [论文]
  • 斯特凡·孔布林克、托马斯·米科洛夫、马丁·卡拉菲亚特、卢卡斯·布尔盖特,《会议识别中的基于循环神经网络的语言建模》,Interspeech 2011 [论文]
  • 李纪伟、明堂龙和丹·朱拉夫斯基,《用于段落和文档的层次化神经自动编码器》,ACL 2015 [论文], [代码]
  • 瑞安·基罗斯、于坤·朱、鲁斯兰·萨拉胡丁诺夫和理查德·S·泽梅尔,《跳过思想向量》,arXiv:1506.06726 / NIPS 2015 [论文]
  • 尹金、雅辛·热尔尼特、大卫·松塔格和亚历山大·M·拉什,《字符感知型神经语言模型》,arXiv:1508.06615 [论文]
  • 张兴兴、梁陆和米雷拉·拉帕塔,《树形循环神经网络及其在语言建模中的应用》,arXiv:1511.00060 [论文]
  • 费利克斯·希尔、安托万·博尔德斯、苏米特·乔普拉和杰森·韦斯顿,《金发姑娘原则:用显式记忆表示阅读儿童读物》,arXiv:1511.0230 [论文]

语音识别

  • 杰弗里·辛顿、李邓、董宇、乔治·E·达尔、阿卜杜勒-拉赫曼·穆罕默德、纳夫迪普·贾特利、安德鲁·塞尼尔、文森特·范霍克、帕特里克·阮、塔拉·N·赛纳特和布赖恩·金斯伯里,《用于语音识别声学建模的深度神经网络》,IEEE信号处理杂志,2012年 [论文]
  • 亚历克斯·格雷夫斯、阿卜杜勒-拉赫曼·穆罕默德和杰弗里·辛顿,《基于深度循环神经网络的语音识别》,arXiv:1303.5778 / ICASSP 2013 [论文]
  • 扬·乔罗夫斯基、季米特里·巴达诺夫、德米特里·谢尔久克、邱炯炫和约书亚·本吉奥,《基于注意力机制的语音识别模型》,arXiv:1506.07503 / NIPS 2015 [论文]
  • 哈希姆·萨克、安德鲁·塞尼尔、卡尼什卡·拉奥和弗朗索瓦丝·博菲斯。《用于语音识别的快速且准确的循环神经网络声学模型》,arXiv:1507.06947 2015年 [论文]。

机器翻译

  • 牛津大学 [论文]
    • 纳尔·卡尔奇布伦纳和菲尔·布伦索姆,《递归连续翻译模型》,EMNLP 2013
  • 蒙特利尔大学
    • 邱炯炫、巴特·范·贝尔里恩博尔、恰格拉尔·古尔切赫雷、季米特里·巴达诺夫、费蒂·布加雷斯、霍尔格·施文克和约书亚·本吉奥,《使用RNN编码器-解码器学习短语表示以进行统计机器翻译》,arXiv:1406.1078 / EMNLP 2014 [论文]
    • 邱炯炫、巴特·范·梅里恩博尔、季米特里·巴达诺夫和约书亚·本吉奥,《神经机器翻译的性质:编码器-解码器方法》,SSST-8 2014 [论文]
    • 让·普热特-阿巴迪、季米特里·巴达诺夫、巴特·范·梅里恩博尔、邱炯炫和约书亚·本吉奥,《通过自动分段克服神经机器翻译中句子长度的诅咒》,SSST-8 2014
    • 季米特里·巴达诺夫、邱炯炫和约书亚·本吉奥,《通过联合学习对齐与翻译实现神经机器翻译》,arXiv:1409.0473 / ICLR 2015 [论文]
    • 塞巴斯蒂安·让、邱炯炫、罗兰·梅米塞维奇和约书亚·本吉奥,《关于在神经机器翻译中使用超大目标词汇表》,arXiv:1412.2007 / ACL 2015 [论文]
  • 蒙特利尔大学 + 中东技术大学 + 缅因大学 [论文]
    • 恰格拉尔·古尔切赫雷、奥尔汗·菲拉特、凯尔文·徐、邱炯炫、洛伊克·巴拉尔、惠伊-奇·林、费蒂·布加雷斯、霍尔格·施文克和约书亚·本吉奥,《在神经机器翻译中使用单语语料库》,arXiv:1503.03535
  • 谷歌 [论文]
    • 伊利亚·苏茨克维尔、奥里奥尔·维尼亚尔斯和郭文乐,《基于神经网络的序列到序列学习》,arXiv:1409.3215 / NIPS 2014
  • 谷歌 + 纽约大学 [论文]
    • 明-汤·隆、伊利亚·苏茨克维尔、郭文乐、奥里奥尔·维尼亚尔斯和沃伊切赫·扎伦巴,《解决神经机器翻译中的罕见词问题》,arXiv:1410.8206 / ACL 2015
  • ICT + 华为 [论文]
    • 孟凡东、陆正东、涂兆鹏、李航和刘群,《一种基于深度记忆的序列到序列学习架构》,arXiv:1506.06442
  • 斯坦福大学 [论文]
    • 明-汤·隆、辉·范和克里斯托弗·D·曼宁,《基于注意力的有效神经机器翻译方法》,arXiv:1508.04025
  • 中东技术大学 + 纽约大学 + 蒙特利尔大学 [论文]
    • 奥尔汗·菲拉特、邱炯炫和约书亚·本吉奥,《具有共享注意力机制的多路多语种神经机器翻译》,arXiv:1601.01073

对话建模

  • 尚立峰、陆正东和李航,《用于短文本对话的神经响应机器》,arXiv:1503.02364 / ACL 2015 [论文]
  • 奥里奥尔·维尼亚尔斯和郭文乐,《一种神经对话模型》,arXiv:1506.05869 [论文]
  • 瑞安·洛厄、尼桑·鲍、尤利安·V·塞尔班和乔埃尔·派诺,《Ubuntu对话语料库:用于非结构化多轮对话系统研究的大规模数据集》,arXiv:1506.08909 [论文]
  • 杰西·道奇、安德烈娅·加内、张翔、安托万·博尔德斯、苏米特·乔普拉、亚历山大·米勒、阿瑟·斯拉姆和杰森·韦斯顿,《评估端到端对话系统学习的前提条件》,arXiv:1511.06931 [论文]
  • 杰森·韦斯顿,《基于对话的语言学习》,arXiv:1604.06045,[论文]
  • 安托万·博尔德斯和杰森·韦斯顿,《学习端到端的目标导向对话》,arXiv:1605.07683 [论文]

问答

  • FAIR
    • 杰森·韦斯顿、安托万·博尔德斯、苏米特·乔普拉、托马斯·米科洛夫和亚历山大·M·拉什,《迈向人工智能完备的问答:一组前提玩具任务》,arXiv:1502.05698 [网页] [论文]
    • 安托万·博尔德斯、尼古拉斯·乌苏涅尔、苏米特·乔普拉和杰森·韦斯顿,《使用记忆网络进行简单问答》,arXiv:1506.02075 [论文]
    • 费利克斯·希尔、安托万·博尔德斯、苏米特·乔普拉、杰森·韦斯顿,《金发姑娘原则:用显式记忆表示阅读儿童书籍》,ICLR 2016 [论文]
  • DeepMind + 牛津大学 [论文]
    • 卡尔·M·赫尔曼、托马斯·科奇斯基、爱德华·格雷芬斯特特、拉斯·埃斯佩霍尔特、威尔·凯、穆斯塔法·苏莱曼和菲尔·布伦索姆,《教机器阅读和理解》,arXiv:1506.03340 / NIPS 2015
  • MetaMind [论文]
    • 安基特·库马尔、欧赞·伊尔索伊、乔纳森·苏、詹姆斯·布拉德伯里、罗伯特·英格利什、布莱恩·皮尔斯、彼得·翁德鲁斯卡、莫希特·艾耶尔、伊尚·古尔拉贾尼和理查德·索彻,《问我任何问题:用于自然语言处理的动态记忆网络》,arXiv:1506.07285

计算机视觉

物体识别

  • Pedro Pinheiro 和 Ronan Collobert,《用于场景标注的循环卷积神经网络》,ICML 2014 [论文]
  • Ming Liang 和 Xiaolin Hu,《用于物体识别的循环卷积神经网络》,CVPR 2015 [论文]
  • Wonmin Byeon、Thomas Breuel、Federico Raue1 和 Marcus Liwicki1,《使用 LSTM 循环神经网络进行场景标注》,CVPR 2015 [论文]
  • Mircea Serban Pavel、Hannes Schulz 和 Sven Behnke,《用于 RGB-D 视频中物体类别分割的循环卷积神经网络》,IJCNN 2015 [论文]
  • Shuai Zheng、Sadeep Jayasumana、Bernardino Romera-Paredes、Vibhav Vineet、Zhizhong Su、Dalong Du、Chang Huang 和 Philip H. S. Torr,《条件随机场作为循环神经网络》,arXiv:1502.03240 [论文]
  • Xiaodan Liang、Xiaohui Shen、Donglai Xiang、Jiashi Feng、Liang Lin 和 Shuicheng Yan,《基于局部-全局长短时记忆网络的语义对象解析》,arXiv:1511.04510 [论文]
  • Sean Bell、C. Lawrence Zitnick、Kavita Bala 和 Ross Girshick,《内外网:利用跳跃池化和循环神经网络在上下文中检测目标》,arXiv:1512.04143 / ICCV 2015 研讨会 [论文]

视觉跟踪

  • Quan Gan、Qipeng Guo、Zheng Zhang 和 Kyunghyun Cho,《迈向无模型、匿名物体跟踪的第一步:使用循环神经网络》,arXiv:1511.06425 [论文]

图像生成

  • Karol Gregor、Ivo Danihelka、Alex Graves、Danilo J. Rezende 和 Daan Wierstra,《DRAW:一种用于图像生成的循环神经网络》,ICML 2015 [论文]
  • Angeliki Lazaridou、Dat T. Nguyen、R. Bernardi 和 M. Baroni,《揭开词嵌入之梦:迈向语言驱动的图像生成》,arXiv:1506.03500 [论文]
  • Lucas Theis 和 Matthias Bethge,《使用空间 LSTM 进行生成式图像建模》,arXiv:1506.03478 / NIPS 2015 [论文]
  • Aaron van den Oord、Nal Kalchbrenner 和 Koray Kavukcuoglu,《像素递归神经网络》,arXiv:1601.06759 [论文]

视频分析

  • 多伦多大学 [论文]
    • Nitish Srivastava、Elman Mansimov、Ruslan Salakhutdinov,《使用 LSTM 进行视频表示的无监督学习》,arXiv:1502.04681 / ICML 2015
  • 剑桥大学 [论文]
    • Viorica Patraucean、Ankur Handa、Roberto Cipolla,《具有可微记忆的时空视频自编码器》,arXiv:1511.06309

多模态(计算机视觉 + 自然语言处理)

图像字幕生成

  • UCLA + 百度 [网页] [论文-arXiv1], [论文-arXiv2]
    • Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, 和 Alan L. Yuille,《用多模态循环神经网络解释图像》,arXiv:1410.1090
    • Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, 和 Alan L. Yuille,《基于多模态循环神经网络(m-RNN)的深度字幕生成》,arXiv:1412.6632 / ICLR 2015
  • 多伦多大学 [论文] [网页演示]
    • Ryan Kiros, Ruslan Salakhutdinov, 和 Richard S. Zemel,《用多模态神经语言模型统一视觉-语义嵌入》,arXiv:1411.2539 / TACL 2015
  • 伯克利 [网页] [论文]
    • Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, 和 Trevor Darrell,《用于视觉识别和描述的长期循环卷积网络》,arXiv:1411.4389 / CVPR 2015
  • 谷歌 [论文]
    • Oriol Vinyals, Alexander Toshev, Samy Bengio, 和 Dumitru Erhan,《展示与讲述:一种神经图像字幕生成器》,arXiv:1411.4555 / CVPR 2015
  • 斯坦福 [网页] [论文]
    • Andrej Karpathy 和 Li Fei-Fei,《用于生成图像描述的深度视觉-语义对齐》,CVPR 2015
  • 微软 [论文]
    • Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh Srivastava, Li Deng, Piotr Dollar, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, Lawrence Zitnick, 和 Geoffrey Zweig,《从字幕到视觉概念再返回》,arXiv:1411.4952 / CVPR 2015
  • CMU + 微软 [论文-arXiv], [论文-CVPR]
    • Xinlei Chen, 和 C. Lawrence Zitnick,《学习用于图像字幕生成的循环视觉表示》
    • Xinlei Chen, 和 C. Lawrence Zitnick,《心灵之眼:用于图像字幕生成的循环视觉表示》,CVPR 2015
  • 蒙特利尔大学 + 多伦多大学 [网页] [论文]
    • Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, 和 Yoshua Bengio,《展示、注意与讲述:基于视觉注意力的神经图像字幕生成》,arXiv:1502.03044 / ICML 2015
  • Idiap + EPFL + Facebook [论文]
    • Remi Lebret, Pedro O. Pinheiro, 和 Ronan Collobert,《基于短语的图像字幕生成》,arXiv:1502.03671 / ICML 2015
  • UCLA + 百度 [论文]
    • Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, 和 Alan L. Yuille,《像孩子一样学习:从图像的句子描述中快速学习新的视觉概念》,arXiv:1504.06692
  • MS + 伯克利
    • Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, 和 C. Lawrence Zitnick,《探索最近邻方法用于图像字幕生成》,arXiv:1505.04467(注:严格来说并非RNN)[论文]
    • Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig, 和 Margaret Mitchell,《用于图像字幕生成的语言模型:特点及有效方法》,arXiv:1505.01809 [论文]
  • 阿德莱德 [论文]
    • Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, 和 Anthony Dick,《使用中间属性层进行图像字幕生成》,arXiv:1506.01144
  • 提尔堡 [论文]
    • Grzegorz Chrupala, Akos Kadar, 和 Afra Alishahi,《通过图片学习语言》,arXiv:1506.03694
  • 蒙特利尔大学 [论文]
    • Kyunghyun Cho, Aaron Courville, 和 Yoshua Bengio,《使用基于注意力的编码器-解码器网络描述多媒体内容》,arXiv:1507.01053
  • 康奈尔 [论文]
    • Jack Hessel, Nicolas Savva, 和 Michael J. Wilber,《神经图像字幕生成中的图像表示与新领域》,arXiv:1508.02091

视频字幕生成

  • 伯克利 [网页] [论文]
    • Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, 和 Trevor Darrell,《用于视觉识别和描述的长期循环卷积网络》,arXiv:1411.4389 / CVPR 2015
  • UT Austin + UML + 伯克利 [论文]
    • Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, 和 Kate Saenko,《使用深度循环神经网络将视频翻译成自然语言》,arXiv:1412.4729
  • 微软 [论文]
    • Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, 和 Yong Rui,《联合建模嵌入与翻译以连接视频和语言》,arXiv:1505.01861
  • UT Austin + 伯克利 + UML [论文]
    • Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, 和 Kate Saenko,《序列到序列——视频到文本》,arXiv:1505.00487
  • 蒙特利尔大学 + 舍布鲁克大学 [论文]
    • Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, 和 Aaron Courville,《利用时间结构描述视频》,arXiv:1502.08029
  • MPI + 伯克利 [论文]
    • Anna Rohrbach, Marcus Rohrbach, 和 Bernt Schiele,《电影描述的长短期故事》,arXiv:1506.01698
  • 多伦多大学 + MIT [论文]
    • Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, 和 Sanja Fidler,《对齐书籍与电影:通过观看电影和阅读书籍实现类似故事的视觉解释》,arXiv:1506.06724
  • 蒙特利尔大学 [论文]
    • Kyunghyun Cho, Aaron Courville, 和 Yoshua Bengio,《使用基于注意力的编码器-解码器网络描述多媒体内容》,arXiv:1507.01053
  • 浙江大学 + UTS [论文]
    • Pingbo Pan, Zhongwen Xu, Yi Yang, Fei Wu, Yueting Zhuang,《用于视频表示并应用于字幕生成的层次化循环神经编码器》,arXiv:1511.03476
  • 蒙特利尔大学 + NYU + IBM [论文]
    • Li Yao, Nicolas Ballas, Kyunghyun Cho, John R. Smith, 和 Yoshua Bengio,《图像和视频字幕生成的经验性能上限》,arXiv:1511.04590

视觉问答

  • 弗吉尼亚理工大学 + 微软研究院 [网页] [论文]
    • Stanislaw Antol、Aishwarya Agrawal、Jiasen Lu、Margaret Mitchell、Dhruv Batra、C. Lawrence Zitnick 和 Devi Parikh,《VQA:视觉问答》,arXiv:1505.00468 / CVPR 2015 SUNw:场景理解研讨会
  • 马普学会 + 伯克利 [网页] [论文]
    • Mateusz Malinowski、Marcus Rohrbach 和 Mario Fritz,《问问你的神经元:一种基于神经网络的图像问题解答方法》,arXiv:1505.01121
  • 多伦多大学 [论文] [数据集]
    • Mengye Ren、Ryan Kiros 和 Richard Zemel,《探索用于图像问答的模型和数据》,arXiv:1505.02074 / ICML 2015 深度学习研讨会
  • 百度 + UCLA [论文] [数据集]
    • Hauyuan Gao、Junhua Mao、Jie Zhou、Zhiheng Huang、Lei Wang 和 Wei Xu,《你在和机器对话吗?多语言图像问答的数据集与方法》,arXiv:1505.05612 / NIPS 2015
  • 首尔国立大学 + NAVER [论文]
    • Jin-Hwa Kim、Sang-Woo Lee、Dong-Hyun Kwak、Min-Oh Heo、Jeonghee Kim、Jung-Woo Ha、Byoung-Tak Zhang,《用于视觉问答的多模态残差学习》,arXiv:1606.01455
  • 加州大学伯克利分校 + 索尼 [论文]
    • Akira Fukui、Dong Huk Park、Daylen Yang、Anna Rohrbach、Trevor Darrell 和 Marcus Rohrbach,《用于视觉问答和视觉定位的多模态紧凑双线性池化》,arXiv:1606.01847
  • 浦项工科大学 [论文]
    • Hyeonwoo Noh 和 Bohyung Han,《通过联合损失最小化训练递归回答单元以用于VQA》,arXiv:1606.03647
  • 首尔国立大学 + NAVER [论文]
    • Jin-Hwa Kim、Kyoung Woon On、Jeonghee Kim、Jung-Woo Ha、Byoung-Tak Zhang,《低秩双线性池化的哈达玛积》,arXiv:1610.04325
  • 视频问答
    • 卡内基梅隆大学 + UTS [论文]
      • Linchao Zhu、Zhongwen Xu、Yi Yang、Alexander G. Hauptmann,《揭示视频问答中的时间上下文》,arXiv:1511.04670
    • KIT + MIT + 多伦多大学 [论文] [数据集]
      • Makarand Tapaswi、Yukun Zhu、Rainer Stiefelhagen、Antonio Torralba、Raquel Urtasun、Sanja Fidler,《MovieQA:通过问答理解电影故事》,arXiv:1512.02902

图灵机

  • A.Graves、G. Wayne 和 I. Danihelka,《神经图灵机》,arXiv 预印本 arXiv:1410.5401 [论文]
  • Jason Weston、Sumit Chopra、Antoine Bordes,《记忆网络》,arXiv:1410.3916 [论文]
  • Armand Joulin 和 Tomas Mikolov,《利用栈增强的循环网络推断算法模式》,arXiv:1503.01007 / NIPS 2015 [论文]
  • Sainbayar Sukhbaatar、Arthur Szlam、Jason Weston 和 Rob Fergus,《端到端记忆网络》,arXiv:1503.08895 / NIPS 2015 [论文]
  • Wojciech Zaremba 和 Ilya Sutskever,《强化学习神经图灵机》,arXiv:1505.00521 [论文]
  • Baolin Peng 和 Kaisheng Yao,《具有外部记忆的循环神经网络用于语言理解》,arXiv:1506.00195 [论文]
  • Fandong Meng、Zhengdong Lu、Zhaopeng Tu、Hang Li 和 Qun Liu,《基于深度记忆的序列到序列学习架构》,arXiv:1506.06442 [论文]
  • Arvind Neelakantan、Quoc V. Le 和 Ilya Sutskever,《神经程序员:利用梯度下降诱导潜在程序》,arXiv:1511.04834 [论文]
  • Scott Reed 和 Nando de Freitas,《神经程序员-解释器》,arXiv:1511.06279 [论文]
  • Karol Kurach、Marcin Andrychowicz 和 Ilya Sutskever,《神经随机存取机器》,arXiv:1511.06392 [论文]
  • Łukasz Kaiser 和 Ilya Sutskever,《神经GPU学习算法》,arXiv:1511.08228 [论文]
  • Ethan Caballero,《跳过式记忆网络》,arXiv:1511.6420 [论文]
  • Wojciech Zaremba、Tomas Mikolov、Armand Joulin 和 Rob Fergus,《从示例中学习简单算法》,arXiv:1511.07275 [论文]

机器人学

  • Hongyuan Mei、Mohit Bansal 和 Matthew R. Walter,《听、注意并行走:将导航指令映射为动作序列的神经网络》,arXiv:1506.04089 [论文]
  • Marvin Zhang、Sergey Levine、Zoe McCarthy、Chelsea Finn 和 Pieter Abbeel,《针对部分可观测机器人控制的连续记忆状态策略学习》,arXiv:1507.01273。[论文]

其他

  • Alex Graves,《使用循环神经网络生成序列》,arXiv:1308.0850 [论文]
  • Volodymyr Mnih、Nicolas Heess、Alex Graves 和 Koray Kavukcuoglu,《视觉注意力的循环模型》,NIPS 2014 / arXiv:1406.6247 [论文]
  • Wojciech Zaremba 和 Ilya Sutskever,《学习执行》,arXiv:1410.4615 [论文] [代码]
  • Samy Bengio、Oriol Vinyals、Navdeep Jaitly 和 Noam Shazeer,《基于循环神经网络的序列预测中的调度采样》,arXiv:1506.03099 / NIPS 2015 [论文]
  • Bing Shuai、Zhen Zuo、Gang Wang 和 Bing Wang,《用于场景标注的DAG-循环神经网络》,arXiv:1509.00552 [论文]
  • Soren Kaae Sonderby、Casper Kaae Sonderby、Lars Maaloe 和 Ole Winther,《循环空间变换网络》,arXiv:1509.05329 [论文]
  • Cesar Laurent、Gabriel Pereyra、Philemon Brakel、Ying Zhang 和 Yoshua Bengio,《批归一化循环神经网络》,arXiv:1510.01378 [论文]
  • Jiwon Kim、Jung Kwon Lee、Kyoung Mu Lee,《用于图像超分辨率的深度递归卷积网络》,arXiv:1511.04491 [论文]
  • Quan Gan、Qipeng Guo、Zheng Zhang 和 Kyunghyun Cho,《迈向无模型匿名目标跟踪的第一步:基于循环神经网络的方法》,arXiv:1511.06425 [论文]
  • Francesco Visin、Kyle Kastner、Aaron Courville、Yoshua Bengio、Matteo Matteucci 和 Kyunghyun Cho,《ReSeg:一种用于目标分割的循环神经网络》,arXiv:1511.07053 [论文]
  • Juergen Schmidhuber,《关于学习思考:强化学习控制器与循环世界模型的新组合的算法信息论》,arXiv:1511.09249 [论文]

数据集

博客

在线演示

  • Alex Graves的手写生成[链接]
  • Ink Poster:手写便签[链接]
  • LSTMVis:循环神经网络的可视化分析[链接]

版本历史

v0.12015/09/02

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

155.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|4天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|5天前
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent