Chronos
Chronos 是全球首款专为“调试”而生的大语言模型,由 Kodezi 团队研发。它专注于解决软件开发中最棘手的痛点:在大规模代码库中精准定位并修复复杂错误。与传统通用模型擅长生成新代码不同,Chronos 在理解现有项目结构和自主调试方面表现卓越,其在权威基准 SWE-bench Lite 上取得了 80.33% 的通过率,真实场景下的修复准确率也高达 67%,性能远超 GPT-4 等主流模型。
这款工具特别适合专业开发者、技术团队及 AI 研究人员使用。对于深受遗留代码维护、隐蔽 Bug 排查困扰的工程师而言,Chronos 能显著减少手动调试时间(约 40%),并提供更符合人类偏好的修复方案。其核心技术创新在于采用了“自适应图引导检索”与“持久化调试记忆”架构,使模型能够像资深专家一样,跨文件追踪上下文线索并记住之前的调试尝试,从而避免重复错误。需要注意的是,Chronos 目前属于专有模型,预计将于 2026 年第一季度通过 Kodezi OS 正式向公众开放,当前仓库主要供学术界参考其研究成果与评测数据。
使用场景
某大型电商平台的后端团队正在紧急修复一个涉及库存扣减逻辑的复杂并发 Bug,该问题隐藏在跨越多个微服务模块的十万行代码库中。
没有 Chronos 时
- 开发人员需手动梳理跨文件调用链,花费数小时定位根源,往往因遗漏上下文而误判故障点。
- 通用大模型(如 GPT-4)仅能生成片段式代码建议,无法理解仓库级依赖,给出的修复方案常导致新的回归错误。
- 反复试错导致调试周期拉长,团队不得不加班熬夜验证假设,上线窗口被迫推迟,业务损失风险激增。
- 缺乏持久化记忆机制,每次重新分析都需要重复输入大量背景信息,沟通与认知成本极高。
使用 Chronos 后
- Chronos 利用自适应图引导检索技术,秒级锁定分散在不同模块中的并发竞争条件,直接指向根本原因。
- 凭借专为调试训练的架构,它生成的修复补丁不仅通过本地测试,更在 SWE-bench 基准上展现出 80.33% 的高通过率,确保一次修好。
- 依托持久化调试记忆,Chronos 自动记录并关联历史排查路径,将原本数天的排查工作压缩至几小时内完成,效率提升 40% 以上。
- 团队无需再人工拼凑上下文,Chronos 自主理解全仓代码语义,输出的解决方案获得 89% 的工程师偏好认可,大幅降低复核负担。
Chronos 将原本令人头疼的“大海捞针”式调试转变为精准的自动化修复流程,让开发者从繁琐的排错中解放出来,专注于核心业务创新。
运行环境要求
未说明
未说明

快速开始
Kodezi Chronos
全球首个以调试为核心的代码理解语言模型,专为仓库级代码分析而设计
性能徽章
核心成就
SWE-bench Lite 80.33% • 自主调试成功率67.3% • 人类偏好89% • 时间缩短40%
目录
模型访问说明
Chronos为专有模型,仅通过Kodezi OS开放使用
| 时间线 | 访问方式 | 详情 |
|---|---|---|
| 2025年第四季度 | 测试版 | 有限的企业级访问 |
| 2026年第一季度 | 正式发布 | 通过Kodezi OS |
本仓库仅包含研究论文、基准测试及评估结果。
🏅 最先进成果
📈 SWE-bench Lite表现
行业标准基准测试结果
| 排名 | 系统 | 成功率 | 实例数 | 差距 | 年份 |
|---|---|---|---|---|---|
| 1 | Kodezi Chronos | 80.33% | 241/300 | +20.0pp | 2025 |
| 2 | ExpeRepair-v1.0 + Claude 4.5 Sonnet | 60.33% | 181/300 | - | 2025 |
| 3 | Claude 4.5 Sonnet(仅Bash) | ~14% | ~42/300 | -66.3pp | 2025 |
| 4 | Claude 4.1 Opus(仅Bash) | 14.2% | 43/300 | -66.1pp | 2025 |
| 5 | GPT-4.1 | 13.8% | 41/300 | -66.5pp | 2025 |
| 6 | Gemini 2.0 Pro | 13.4% | 40/300 | -67.0pp | 2025 |
比第二名高出20个百分点的绝对优势
调试差距
通用模型:代码生成与调试性能对比
| 模型 | SWE-bench Full (代码生成) |
SWE-bench Lite (调试) |
性能差距 |
|---|---|---|---|
| Claude 4.5 Sonnet | 72.7% | ~14% | -58.7pp |
| Claude 4.1 Opus | 72.5% | 14.2% | -58.3pp |
| Claude 4.1 Opus(Bash) | 67.60% | 14.2% | -53.4pp |
| GPT-4.1 | 54.6% | 13.8% | -40.8pp |
| Kodezi Chronos | N/A | 80.33% | 专用 |
核心发现:即使在代码生成任务中达到70%以上的模型,在调试任务中的表现也会降至15%以下,显示出超过50个百分点的差距。Chronos专为调试而设计,成功达到80.33%——这表明调试需要专门的架构,而不仅仅是更大的上下文窗口。
仓库特定结果
SWE-bench Lite:领域特定性能
| 仓库 | 领域 | Chronos成功率 | 实例数 | 意义 |
|---|---|---|---|---|
| sympy | 符号数学 | 96.1% | 51/53 | 几乎完美的数学推理能力 |
| sphinx | 文档系统 | 93.8% | 60/64 | 极其出色的文档生成错误修复 |
| django | Web框架 | 90.4% | 104/115 | 复杂框架的调试能力 |
| 总体 | 混合领域 | 80.33% | 241/300 | 最先进水平 |
🔬 MRR基准测试结果
📊 整体性能(5,000个多重随机检索场景——现有500个样本数据集)
| 指标 | Chronos | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | 提升幅度 |
|---|---|---|---|---|---|
| 调试成功率 | 67.3% ± 2.1% | 13.8% | 14.2% | 15.0% | 4.5倍 |
| 根本原因定位准确率 | 89%* | 12.3% ± 1.8% | 11.7% ± 2.0% | 15.8% ± 1.5% | 5.6–7.6倍 |
| 检索精确度 | 92%* | 68% ± 2.3% | 67% ± 2.4% | 74% ± 1.8% | 1.2–1.4倍 |
| 检索召回率 | 85% | 32% ± 2.1% | 34% ± 2.0% | 42% ± 1.9% | 2.0–2.7倍 |
| 平均修复次数 | 7.8 | 1–2 | 1–2 | 1–2 | 更彻底 |
| 时间缩短 | 40% | - | - | - | 快40% |
p < 0.001,与最佳基线相比(双尾t检验,n=5,000) • 样本数据集(n=500)现已提供,完整基准测试将于2026年第一季度发布
🐛 按错误类别划分的性能
| 错误类别 | Chronos | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | Chronos优势 |
|---|---|---|---|---|---|
| 语法错误 | 94.2% | 82.3% | 79.8% | 85.1% | 1.1倍 |
| 逻辑错误 | 72.8% | 12.1% | 10.7% | 15.3% | 6.0倍 |
| 并发问题 | 58.3% | 3.2% | 2.8% | 4.1% | 18.2倍 |
| 内存问题 | 61.7% | 5.7% | 4.3% | 6.9% | 10.8倍 |
| API误用 | 79.1% | 18.9% | 16.2% | 22.4% | 4.2倍 |
| 性能问题 | 65.4% | 7.4% | 6.1% | 9.8% | 8.8倍 |
📏 仓库规模性能
| 仓库大小 | Chronos 成功率 | 最佳基线 | 基线模型 | 提升幅度 |
|---|---|---|---|---|
| <10K LOC | 71.2% ± 2.8% | 21.3% ± 3.5% | Gemini 2.0 Pro | 3.3x |
| 10K-100K LOC | 68.9% ± 2.5% | 14.7% ± 3.2% | Gemini 2.0 Pro | 4.7x |
| 100K-1M LOC | 64.3% ± 2.9% | 8.9% ± 2.8% | Gemini 2.0 Pro | 7.2x |
| >1M LOC | 59.7% ± 3.1% | 3.8% ± 1.9% | Gemini 2.0 Pro | 15.7x |
💡 关键创新
1. 调试优先架构
- 基于 4250万条真实调试示例 训练(而非代码补全)
- 专为 根因分析 和 多文件修复 设计
- 89% 的根因准确率,而最佳基线仅为15.8%
- 7层架构 针对调试工作流进行优化
2. 持久化调试记忆(PDM)
- 基于 1500万+ 次调试会话 的仓库特定学习
- 成功率随时间从 35% 提升至 65%
- 跨会话模式识别与学习
- 类似问题的缓存命中率达到 87%
- 能够跨项目生命周期学习时间序列模式
3. 自适应图引导检索(AGR)
- 复杂度为 O(k log d),支持动态 k-hop 扩展
- 在多文件上下文中达到 92% 的精确率和85% 的召回率
- 可智能处理 无限规模的代码库
- 基于置信度终止的多跳遍历
- 比传统检索方法快 3.8倍
4. 输出优化设计
- 针对 约3000个输出标记(修复、测试、文档)进行优化
- 输出熵密度为 47.2%,而补全模型仅为12.8%
- 专为 复杂补丁生成 设计
- 具备模板感知的生成能力以保证一致性
- 基于置信度的输出策略
5. 自主调试循环
- 平均需要 7.8次迭代 才能成功修复
- 包含 提出 → 测试 → 分析 → 优化 循环
- 67.3% 的完全自主成功率
- 使用执行沙盒并提供实时反馈
- 通过迭代优化直至验证通过
🏗️ 架构
七层系统设计
┌─────────────────────────────────────────────┐
│ 7. 可解释性层 │ 人类可读的根因分析
├─────────────────────────────────────────────┤
│ 6. 执行沙盒 │ 隔离的测试验证环境
├─────────────────────────────────────────────┤
│ 5. 持久化调试记忆(PDM) │ 仓库特定的学习
├─────────────────────────────────────────────┤
│ 4. 协调控制器 │ 自主调试循环管理
├─────────────────────────────────────────────┤
│ 3. 调试优化的 LLM 核心 │ 4250万条调试示例
├─────────────────────────────────────────────┤
│ 2. 自适应检索引擎(AGR) │ 动态 k-hop 图遍历
├─────────────────────────────────────────────┤
│ 1. 多源输入层 │ 代码、日志、追踪、测试、文档
└─────────────────────────────────────────────┘
层级说明
- 多源输入层:同时处理代码、日志、追踪、测试和文档。
- 自适应检索引擎(AGR):动态 k-hop 图遍历,精确率达92%。
- 调试优化的 LLM 核心:基于4250万条调试示例训练,而非代码补全。
- 协调控制器:负责管理自主调试循环。
- 持久化调试记忆(PDM):仓库特定的学习机制,使成功率从35%提升至65%。
- 执行沙盒:隔离的测试验证环境。
- 可解释性层:提供人类可读的根因分析。
🧪 基准测试与评估
📋 可用基准测试
| 基准测试 | 类型 | 实例数 | 目的 | 结果 |
|---|---|---|---|---|
| SWE-bench Lite | 行业标准 | 300 | 真实世界调试 | 80.33% |
| MRR 基准测试 | 自定义 | 5,000(500样本) | 多随机检索 | 67.3% |
| 仓库规模测试 | 自定义 | 各种规模 | 大型代码库测试 | 59.7-71.2% |
| Bug 类别测试 | 自定义 | 4,400+ | Bug 类型专项测试 | 58.3-94.2% |
🏆 SWE-bench Lite 评估结果
评估目录包含:
- README.md:详细的提交结果和方法论
- metadata.yaml:提交元数据和配置
- all_preds.jsonl:所有300个实例的预测结果
- Kodezi Chronos-1.hybrid_eval.json:完整的评估指标
- logs/:所有实例的执行日志
- results/:每个实例的结果和分析
- trajs/:调试轨迹和修复尝试
🎯 多随机检索(MRR)基准测试
MRR 模拟了真实的调试复杂性:
- 空间分布:Bug 上下文分散在10-50个文件中
- 时间分散:相关信息来自3-12个月的历史
- 混淆程度:低/中/高代码复杂度
- 5,000个场景:跨语言的全面评估(现提供500个样本数据集,完整基准将于2026年第一季度发布)
| 指标 | Chronos | GPT-4.1+RAG | Claude 4.1+VectorDB | Gemini 2.0+Graph |
|---|---|---|---|---|
| Precision@10 | 92% | 42.3% | 48.1% | 51.7% |
| Recall@10 | 85% | 31.7% | 36.2% | 41.8% |
| 修复准确率 | 67.3% | 8.9% | 11.2% | 14.6% |
| 上下文效率 | 0.71 | 0.23 | 0.28 | 0.31 |
📚 研究论文
已发表的研究
标题:Kodezi Chronos:面向仓库规模代码理解的调试优先语言模型
作者:Ishraq Khan、Assad Chowdary、Sharoz Haseeb、Urvish Patel、Yousuf Zaii
机构:Kodezi Inc.
出版物:arXiv:2507.12482(2025年)
论文资源
| 资源 | 描述 | 链接 |
|---|---|---|
| arXiv 论文 | 官方出版物 | 查看 |
| 完整论文(Markdown) | 以 Markdown 格式的完整论文 | 查看 |
| 2025 更新 | 最新研究发现 | 查看 |
| 摘要 | 执行摘要 | 查看 |
| 方法学 | 研究方法 | 查看 |
| 相关工作 | 文献综述 | 查看 |
| 未来工作 | 研究方向 | 查看 |
主要贡献
- 调试专用架构:首个专门针对调试工作流训练的语言模型(4250万条示例)
- 自适应图引导检索(AGR):新颖的多跳检索方法,复杂度为O(k log d)
- 持久化调试记忆(PDM):跨会话学习系统,用于识别仓库特定模式
- 全面评估:涵盖多个基准测试的12,500个真实世界缺陷
- 最先进结果:在SWE-bench Lite上达到80.33%的准确率(领先第二名20个百分点)
🚀 快速入门
前置条件
# 需要 Python 3.8 或更高版本
python --version
# 需要 Git 进行克隆
git --version
快速开始:运行基准测试
# 克隆仓库
git clone https://github.com/kodezi/chronos-research.git
cd chronos-research
# 安装依赖
pip install -r requirements.txt
# 在您的模型上运行 MRR 基准测试
python benchmarks/run_mrr_benchmark_2025.py \
--model your_model \
--scenarios 100 # 先从子集开始测试
# 运行完整样本评估(有500个场景可用)
python benchmarks/run_mrr_benchmark_2025.py \
--model your_model \
--scenarios 500
# 分析结果
python benchmarks/analyze_results.py \
--results_dir results/your_model
模型访问
Chronos 模型不包含在此仓库中
本仓库包含:
- 研究论文及文档
- 基准测试套件与评估框架
- 性能结果与分析
- Chronos 模型(专有,未包含)
若需访问 Chronos 模型:
| 访问方式 | 可用性 | 详情 |
|---|---|---|
| Kodezi OS | 2025年第四季度(Beta) | 企业版 Beta 访问 |
| Kodezi OS | 2026年第一季度(GA) | 正式发布 |
| API 访问 | 2026年第一季度 | API 接口 |
📁 仓库结构
chronos-research/
│
├── benchmarks/ # 基准测试套件
│ ├── multi-random-retrieval/ # 5,000场景MRR基准测试(有500个样本可用)
│ ├── comprehensive_benchmarks/ # 扩展测试场景
│ ├── debug_categories/ # 缺陷类型分类(6种)
│ ├── evaluation_metrics/ # 自定义指标实现
│ ├── run_mrr_benchmark_2025.py # 主基准测试运行脚本
│ └── analyze_results.py # 结果分析工具
│
├── evaluation/ # 评估结果
│ └── lite/ # SWE-bench Lite结果(80.33%)
│ └── 20251111_kodezi_chronos_1/ # 官方提交
│ ├── all_preds.jsonl # 所有300个预测
│ ├── logs/ # 300多个执行日志
│ ├── results/ # 每个实例的结果
│ └── trajs/ # 调试轨迹
│
├── paper/ # 研究论文
│ ├── chronos-research.md # 完整论文(arXiv:2507.12482)
│ ├── chronos-research-2025.md # 2025年更新
│ ├── abstract.md # 执行摘要
│ ├── methodology.md # 研究方法论
│ └── figures/ # 可视化图表
│
├── architecture/ # 架构文档
│ ├── README.md # 架构概述
│ ├── AGR_ALGORITHM.md # 自适应图引导检索
│ ├── memory_engine.md # 持久化调试记忆(PDM)
│ └── debugging_loop.md # 自主循环设计
│
├── results/ # 性能数据
│ ├── figures/ # 15+ SVG可视化图表
│ ├── ablation_studies/ # 组件影响分析
│ ├── case_studies/ # 真实世界调试案例
│ └── raw_data/ # 基准测试输出(CSV/JSON)
│
├── reference_implementations/ # 算法参考代码
│ ├── algorithms/ # AGR、PDM参考实现
│ └── NOTICE.md # 专有声明
│
├── docs/ # 文档
│ ├── getting_started.md # 快速入门指南
│ ├── API_DOCUMENTATION.md # API 参考文档(2026年第一季度)
│ ├── faq.md # 常见问题解答
│ └── limitations.md # 已知限制
│
├── LEADERBOARD.md # 性能排名
├── CITATION.cff # 引用信息(BibTeX)
├── CONTRIBUTING.md # 贡献指南
├── LICENSE # MIT 许可证 + 专有声明
└── requirements.txt # Python 依赖项
关键目录:
- benchmarks/:5,000场景MRR基准测试(有500个样本可用),支持多语言,自动化评估
- evaluation/:SWE-bench Lite结果(80.33%,241/300个实例)
- paper/:完整的研究论文及文档(arXiv:2507.12482)
- architecture/:7层系统设计,AGR/PDM文档
- results/:12,500+个缺陷修复,可视化图表,统计分析
- reference_implementations/:算法参考代码(非实际模型)
🔬 研究亮点
训练数据构成
| 数据来源 | 数量 | 描述 |
|---|---|---|
| 调试示例 | 42.5M | 完整的调试工作流 |
| GitHub Issues | 15M | 已验证修复的问题 |
| 堆栈跟踪 | 8M | 包含解决方案的错误堆栈 |
| CI/CD 日志 | 3M | 构建和部署调试日志 |
| 生产环境会话 | 2.5M | 真实生产环境中的缺陷 |
| 精选基准测试 | 14M | Defects4J、SWE-bench、BugsInPy |
总训练数据:42.5M条调试专用示例(非代码补全)
AGR 按深度的性能
| 检索策略 | 成功率 | 平均时间(秒) | 使用场景 |
|---|---|---|---|
| k=1 跳 | 58.2% | 12.3 | 简单缺陷 |
| k=2 跳 | 72.4% | 18.7 | 多文件缺陷 |
| k=3 跳 | 83.1% | 24.5 | 复杂依赖关系 |
| k=自适应 | 87.1% | 23.4 | 最优策略 |
| 平坦检索 | 23.4% | 45.2 | 基线对比 |
PDM 学习曲线
| 会话数 | 成功率 | 令牌效率 | 内存大小 |
|---|---|---|---|
| 初始 | 35% | 1.0x | 0 GB |
| 100次会话 | 52% | 3.2x | 2.1 GB |
| 500次会话 | 65% | 7.3x | 8.7 GB |
| 1000+次会话 | 67% | 8.1x | 15.2 GB |
核心见解:PDM通过跨会话学习实现持续改进
📊 详细性能
语言特定性能
| 语言 | Chronos | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | 测试用例 |
|---|---|---|---|---|---|
| Python | 68.7% ± 2.1% | 11.2% ± 2.8% | 10.3% ± 2.9% | 14.6% ± 2.6% | 1,823 个 bug |
| JavaScript | 64.2% ± 2.3% | 7.8% ± 2.5% | 6.9% ± 2.6% | 10.1% ± 2.4% | 1,547 个 bug |
| Java | 63.9% ± 2.2% | 6.3% ± 2.2% | 5.7% ± 2.3% | 9.2% ± 2.1% | 1,630 个 bug |
| Go | 66.8% ± 2.4% | 9.1% ± 2.6% | 8.4% ± 2.7% | 12.3% ± 2.5% | 892 个 bug |
| C++ | 61.2% ± 2.6% | 5.2% ± 2.1% | 4.8% ± 2.2% | 7.9% ± 2.0% | 1,108 个 bug |
| Rust | 59.8% ± 2.7% | 4.1% ± 1.9% | 3.7% ± 2.0% | 6.3% ± 1.8% | 687 个 bug |
调试循环效率
| 迭代次数 | Chronos 成功率 | GPT-4.1 成功率 | 节省时间 | 累计 |
|---|---|---|---|---|
| 第一次尝试 | 42.3% | 3.2% | -87% | 42.3% |
| 第二次尝试 | +16.4% (58.7%) | +1.9% (5.1%) | -83% | 58.7% |
| 第三次尝试 | +6.6% (65.3%) | +1.7% (6.8%) | -79% | 65.3% |
| 第四次及以后尝试 | +2.0% (67.3%) | +1.7% (8.5%) | -74% | 67.3% |
注: Chronos 的迭代更为彻底(平均 7.8 次),而竞争对手则为平均 1–2 次。
上下文窗口效率
| 模型 | 上下文大小 | 调试成功率 | 每个 Bug 的成本 | 备注 |
|---|---|---|---|---|
| GPT-4.1 (32K) | 32K tokens | 7.2% | $5.53 | 更多上下文并不意味着更好的调试效果 |
| Claude 4.1 (200K) | 200K tokens | 9.8% | $4.89 | 规模扩大时注意力会分散 |
| Gemini 2.0 Pro (1M) | 1M tokens | 14.3% | $4.25 | 最佳传统模型 |
| Chronos | 无限制* | 71.2% | $1.36 | *通过智能检索 |
消融实验
| 配置 | 调试成功率 | 精确率 | 召回率 | 影响 |
|---|---|---|---|---|
| 完整 Chronos | 67.3% | 92% | 85% | 完整系统 |
| 不含 AGR(扁平检索) | 28.7% | 42% | 31% | -56%(关键影响) |
| 不含 PDM(静态内存) | 40.1% | 67% | 58% | -39%(重大影响) |
| 不含编排循环 | 42.5% | 71% | 62% | -35%(重大影响) |
| 不含多代码关联 | 35.8% | 54% | 47% | -45%(关键影响) |
| 不含执行沙盒 | 48.2% | 78% | 69% | -27%(显著影响) |
📖 文档
核心文档
| 入门指南 | 架构 | 基准测试 | API 参考 |
|---|---|---|---|
| 快速入门指南 | 系统设计细节 | 评估方法论 | 未来 API 文档 |
性能与分析
| 性能 | 案例研究 | 常见问题解答 | 局限性 |
|---|---|---|---|
| 详细指标 | 实际案例 | 常见问题 | 已知限制 |
结果与排名
| 排行榜 | 评估结果 | 分析 | 基准测试 |
|---|---|---|---|
| 性能排名 | SWE-bench Lite | 统计分析 | 全套测试集 |
🤝 贡献
我们欢迎对评估框架和基准测试的贡献!
如何贡献
# 1. 分支并克隆仓库
git clone https://github.com/[your-username]/chronos-research.git
cd chronos-research
# 2. 创建功能分支
git checkout -b feature/your-contribution
# 3. 进行更改
# - 添加新的基准测试
# - 改进文档
# - 修复评估脚本中的 bug
# 4. 运行测试
python -m pytest tests/
# 5. 提交更改
git add .
git commit -m "feat: description of your changes"
# 6. 推送并创建 PR
git push origin feature/your-contribution
贡献指南
- 为新功能添加测试
- 遵循现有代码风格
- 更新文档
- 为新功能添加基准测试
- 包括性能分析
详细指南请参阅 CONTRIBUTING.md。
📝 引用
如果您在工作中使用了本研究,请引用:
@article{khan2025chronos,
title={Kodezi Chronos: A Debugging-First Language Model for
Repository-Scale Code Understanding},
author={Khan, Ishraq and Chowdary, Assad and
Haseeb, Sharoz and Patel, Urvish and Zaii, Yousuf},
journal={arXiv preprint arXiv:2507.12482},
year={2025},
url={https://arxiv.org/abs/2507.12482},
note={State-of-the-art: 80.33\% on SWE-bench Lite}
}
🏢 关于 Kodezi
Kodezi 正在构建自主软件维护的未来。我们的使命是通过真正理解大规模代码的 AI,赋能开发者。
我们的产品
| 产品 | 描述 | 可用性 |
|---|---|---|
| Kodezi Code Web-IDE | 基于 AI 的网页版代码编辑器,具备实时调试功能 | 现已可用 |
| Kodezi Create | 从自然语言生成完整应用 | 现已可用 |
| Kodezi CLI | 用于自动化代码分析和修复的命令行界面 | 现已可用 |
| Kodezi OS | 自主软件维护平台,集成 Chronos | 2025 年第四季度(Beta 版) |
| Chronos | 调试优先的语言模型(SWE-bench Lite 80.33%) | 通过 Kodezi OS 使用 |
| 企业 API | 团队和企业部署的 API 访问 | 2026 年第一季度 |
📧 联系方式与社区
📄 许可证
© Kodezi Inc. 版权所有。 使用须遵守 Kodezi 的服务条款。
MIT 许可证
版权所有 © 2025 Kodezi Inc.
特此授予任何人免费获取本软件及与其相关的文档文件(以下简称“软件”)的副本的权利,允许以任何方式处理该软件,包括但不限于使用、复制、修改、合并、发布、分发、再许可和出售软件副本,并允许向任何接收软件的人提供软件以供其使用,但须遵守以下条件:
上述版权声明和本许可声明应包含在软件的所有副本或重要部分中。
本软件按“原样”提供,不提供任何形式的明示或暗示担保,包括但不限于适销性、特定用途适用性和非侵权性。在任何情况下,作者或版权所有者均不对因本软件或其使用而引起的任何索赔、损害或其他责任承担责任,无论该等责任是基于合同、侵权行为或其他原因产生的,亦无论该等责任是否与本软件或其使用有关。
⚠️ 重要提示
本许可证仅适用于本仓库中包含的研究论文、基准测试、评估框架和文档。
Kodezi Chronos 模型本身属于 Kodezi Inc. 的专有技术,并 未包含在本仓库中,亦不受本许可证的约束。
📦 MIT 许可证涵盖的内容
- 研究论文:arXiv 出版物及 Markdown 版本
- 基准测试套件:MRR 及评估框架
- 评估结果:SWE-bench Lite 结果及分析
- 文档:架构文档、指南和参考资料
- 参考实现:算法参考代码(并非实际模型)
🔒 专有组件
- Chronos 模型:未包含在本仓库中
- Kodezi OS 集成:专有平台组件
- 生产级 API:企业级部署基础设施
🚀 Chronos 模型访问权限
Chronos 模型仅可通过 Kodezi OS 获得:
- 2025 年第四季度:企业版 Beta 访问
- 2026 年第一季度:正式商用发布
- 了解更多信息:chronos.so
- 提前获取访问权限:kodezi.com/os
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器