Chronos

5k 213 困难 1 次阅读昨天NOASSERTION语言模型Agent开发框架其他插件

AI 解读由 AI 自动生成，仅供参考

Chronos 是全球首款专为“调试”而生的大语言模型，由 Kodezi 团队研发。它专注于解决软件开发中最棘手的痛点：在大规模代码库中精准定位并修复复杂错误。与传统通用模型擅长生成新代码不同，Chronos 在理解现有项目结构和自主调试方面表现卓越，其在权威基准 SWE-bench Lite 上取得了 80.33% 的通过率，真实场景下的修复准确率也高达 67%，性能远超 GPT-4 等主流模型。

这款工具特别适合专业开发者、技术团队及 AI 研究人员使用。对于深受遗留代码维护、隐蔽 Bug 排查困扰的工程师而言，Chronos 能显著减少手动调试时间（约 40%），并提供更符合人类偏好的修复方案。其核心技术创新在于采用了“自适应图引导检索”与“持久化调试记忆”架构，使模型能够像资深专家一样，跨文件追踪上下文线索并记住之前的调试尝试，从而避免重复错误。需要注意的是，Chronos 目前属于专有模型，预计将于 2026 年第一季度通过 Kodezi OS 正式向公众开放，当前仓库主要供学术界参考其研究成果与评测数据。

使用场景

某大型电商平台的后端团队正在紧急修复一个涉及库存扣减逻辑的复杂并发 Bug，该问题隐藏在跨越多个微服务模块的十万行代码库中。

没有 Chronos 时

开发人员需手动梳理跨文件调用链，花费数小时定位根源，往往因遗漏上下文而误判故障点。
通用大模型（如 GPT-4）仅能生成片段式代码建议，无法理解仓库级依赖，给出的修复方案常导致新的回归错误。
反复试错导致调试周期拉长，团队不得不加班熬夜验证假设，上线窗口被迫推迟，业务损失风险激增。
缺乏持久化记忆机制，每次重新分析都需要重复输入大量背景信息，沟通与认知成本极高。

使用 Chronos 后

Chronos 利用自适应图引导检索技术，秒级锁定分散在不同模块中的并发竞争条件，直接指向根本原因。
凭借专为调试训练的架构，它生成的修复补丁不仅通过本地测试，更在 SWE-bench 基准上展现出 80.33% 的高通过率，确保一次修好。
依托持久化调试记忆，Chronos 自动记录并关联历史排查路径，将原本数天的排查工作压缩至几小时内完成，效率提升 40% 以上。
团队无需再人工拼凑上下文，Chronos 自主理解全仓代码语义，输出的解决方案获得 89% 的工程师偏好认可，大幅降低复核负担。

Chronos 将原本令人头疼的“大海捞针”式调试转变为精准的自动化修复流程，让开发者从繁琐的排错中解放出来，专注于核心业务创新。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具（Kodezi Chronos）目前为专有模型，不在此开源仓库中提供代码或模型权重。仓库仅包含研究论文、基准测试和评估结果。模型预计于 2025 年第四季度通过 Kodezi OS 提供有限的企业访问，并于 2026 年第一季度正式通用发布。因此，当前无法在本地部署或运行该模型，也无具体的本地运行环境需求。

python未说明

快速开始

Kodezi Chronos

Introducing Kodezi Chronos-1

全球首个以调试为核心的代码理解语言模型，专为仓库级代码分析而设计

性能徽章

核心成就

SWE-bench Lite 80.33% • 自主调试成功率67.3% • 人类偏好89% • 时间缩短40%

Chronos架构

模型访问说明

Chronos为专有模型，仅通过Kodezi OS开放使用

时间线	访问方式	详情
2025年第四季度	测试版	有限的企业级访问
2026年第一季度	正式发布	通过Kodezi OS

本仓库仅包含研究论文、基准测试及评估结果。

抢先体验 • 阅读论文 • 查看排行榜 • 文档

🏅 最先进成果

📈 SWE-bench Lite表现

行业标准基准测试结果

排名	系统	成功率	实例数	差距	年份
1	Kodezi Chronos	80.33%	241/300	+20.0pp	2025
2	ExpeRepair-v1.0 + Claude 4.5 Sonnet	60.33%	181/300	-	2025
3	Claude 4.5 Sonnet（仅Bash）	~14%	~42/300	-66.3pp	2025
4	Claude 4.1 Opus（仅Bash）	14.2%	43/300	-66.1pp	2025
5	GPT-4.1	13.8%	41/300	-66.5pp	2025
6	Gemini 2.0 Pro	13.4%	40/300	-67.0pp	2025

比第二名高出20个百分点的绝对优势

调试差距

通用模型：代码生成与调试性能对比

模型	SWE-bench Full (代码生成)	SWE-bench Lite (调试)	性能差距
Claude 4.5 Sonnet	72.7%	~14%	-58.7pp
Claude 4.1 Opus	72.5%	14.2%	-58.3pp
Claude 4.1 Opus（Bash）	67.60%	14.2%	-53.4pp
GPT-4.1	54.6%	13.8%	-40.8pp
Kodezi Chronos	N/A	80.33%	专用

核心发现：即使在代码生成任务中达到70%以上的模型，在调试任务中的表现也会降至15%以下，显示出超过50个百分点的差距。Chronos专为调试而设计，成功达到80.33%——这表明调试需要专门的架构，而不仅仅是更大的上下文窗口。

仓库特定结果

SWE-bench Lite：领域特定性能

仓库	领域	Chronos成功率	实例数	意义
sympy	符号数学	96.1%	51/53	几乎完美的数学推理能力
sphinx	文档系统	93.8%	60/64	极其出色的文档生成错误修复
django	Web框架	90.4%	104/115	复杂框架的调试能力
总体	混合领域	80.33%	241/300	最先进水平

🔬 MRR基准测试结果

📊 整体性能（5,000个多重随机检索场景——现有500个样本数据集）

指标	Chronos	GPT-4.1	Claude 4.1 Opus	Gemini 2.0 Pro	提升幅度
调试成功率	67.3% ± 2.1%	13.8%	14.2%	15.0%	4.5倍
根本原因定位准确率	89%*	12.3% ± 1.8%	11.7% ± 2.0%	15.8% ± 1.5%	5.6–7.6倍
检索精确度	92%*	68% ± 2.3%	67% ± 2.4%	74% ± 1.8%	1.2–1.4倍
检索召回率	85%	32% ± 2.1%	34% ± 2.0%	42% ± 1.9%	2.0–2.7倍
平均修复次数	7.8	1–2	1–2	1–2	更彻底
时间缩短	40%	-	-	-	快40%

p < 0.001，与最佳基线相比（双尾t检验，n=5,000） • 样本数据集（n=500）现已提供，完整基准测试将于2026年第一季度发布

🐛 按错误类别划分的性能

错误类别	Chronos	GPT-4.1	Claude 4.1 Opus	Gemini 2.0 Pro	Chronos优势
语法错误	94.2%	82.3%	79.8%	85.1%	1.1倍
逻辑错误	72.8%	12.1%	10.7%	15.3%	6.0倍
并发问题	58.3%	3.2%	2.8%	4.1%	18.2倍
内存问题	61.7%	5.7%	4.3%	6.9%	10.8倍
API误用	79.1%	18.9%	16.2%	22.4%	4.2倍
性能问题	65.4%	7.4%	6.1%	9.8%	8.8倍

📏 仓库规模性能

仓库大小	Chronos 成功率	最佳基线	基线模型	提升幅度
<10K LOC	71.2% ± 2.8%	21.3% ± 3.5%	Gemini 2.0 Pro	3.3x
10K-100K LOC	68.9% ± 2.5%	14.7% ± 3.2%	Gemini 2.0 Pro	4.7x
100K-1M LOC	64.3% ± 2.9%	8.9% ± 2.8%	Gemini 2.0 Pro	7.2x
>1M LOC	59.7% ± 3.1%	3.8% ± 1.9%	Gemini 2.0 Pro	15.7x

💡 关键创新

1. 调试优先架构

基于 4250万条真实调试示例 训练（而非代码补全）
专为 根因分析 和 多文件修复 设计
89% 的根因准确率，而最佳基线仅为15.8%
7层架构 针对调试工作流进行优化

2. 持久化调试记忆（PDM）

基于 1500万+ 次调试会话 的仓库特定学习
成功率随时间从 35% 提升至 65%
跨会话模式识别与学习
类似问题的缓存命中率达到 87%
能够跨项目生命周期学习时间序列模式

3. 自适应图引导检索（AGR）

复杂度为 O(k log d)，支持动态 k-hop 扩展
在多文件上下文中达到 92% 的精确率和85% 的召回率
可智能处理 无限规模的代码库
基于置信度终止的多跳遍历
比传统检索方法快 3.8倍

4. 输出优化设计

针对 约3000个输出标记（修复、测试、文档）进行优化
输出熵密度为 47.2%，而补全模型仅为12.8%
专为 复杂补丁生成 设计
具备模板感知的生成能力以保证一致性
基于置信度的输出策略

5. 自主调试循环

平均需要 7.8次迭代 才能成功修复
包含 提出 → 测试 → 分析 → 优化 循环
67.3% 的完全自主成功率
使用执行沙盒并提供实时反馈
通过迭代优化直至验证通过

🏗️ 架构

七层系统设计

┌─────────────────────────────────────────────┐
│   7. 可解释性层                   │  人类可读的根因分析
├─────────────────────────────────────────────┤
│   6. 执行沙盒                      │  隔离的测试验证环境
├─────────────────────────────────────────────┤
│   5. 持久化调试记忆（PDM）          │  仓库特定的学习
├─────────────────────────────────────────────┤
│   4. 协调控制器                    │  自主调试循环管理
├─────────────────────────────────────────────┤
│   3. 调试优化的 LLM 核心           │  4250万条调试示例
├─────────────────────────────────────────────┤
│   2. 自适应检索引擎（AGR）          │  动态 k-hop 图遍历
├─────────────────────────────────────────────┤
│   1. 多源输入层                     │  代码、日志、追踪、测试、文档
└─────────────────────────────────────────────┘

层级说明

多源输入层：同时处理代码、日志、追踪、测试和文档。
自适应检索引擎（AGR）：动态 k-hop 图遍历，精确率达92%。
调试优化的 LLM 核心：基于4250万条调试示例训练，而非代码补全。
协调控制器：负责管理自主调试循环。
持久化调试记忆（PDM）：仓库特定的学习机制，使成功率从35%提升至65%。
执行沙盒：隔离的测试验证环境。
可解释性层：提供人类可读的根因分析。

查看详细架构文档 →

🧪 基准测试与评估

📋 可用基准测试

基准测试	类型	实例数	目的	结果
SWE-bench Lite	行业标准	300	真实世界调试	80.33%
MRR 基准测试	自定义	5,000（500样本）	多随机检索	67.3%
仓库规模测试	自定义	各种规模	大型代码库测试	59.7-71.2%
Bug 类别测试	自定义	4,400+	Bug 类型专项测试	58.3-94.2%

🏆 SWE-bench Lite 评估结果

查看完整的 SWE-bench Lite 提交 →

评估目录包含：

README.md：详细的提交结果和方法论
metadata.yaml：提交元数据和配置
all_preds.jsonl：所有300个实例的预测结果
Kodezi Chronos-1.hybrid_eval.json：完整的评估指标
logs/：所有实例的执行日志
results/：每个实例的结果和分析
trajs/：调试轨迹和修复尝试

🎯 多随机检索（MRR）基准测试

MRR 模拟了真实的调试复杂性：

空间分布：Bug 上下文分散在10-50个文件中
时间分散：相关信息来自3-12个月的历史
混淆程度：低/中/高代码复杂度
5,000个场景：跨语言的全面评估（现提供500个样本数据集，完整基准将于2026年第一季度发布）

指标	Chronos	GPT-4.1+RAG	Claude 4.1+VectorDB	Gemini 2.0+Graph
Precision@10	92%	42.3%	48.1%	51.7%
Recall@10	85%	31.7%	36.2%	41.8%
修复准确率	67.3%	8.9%	11.2%	14.6%
上下文效率	0.71	0.23	0.28	0.31

查看完整的基准测试文档 →

📚 研究论文

已发表的研究

标题：Kodezi Chronos：面向仓库规模代码理解的调试优先语言模型

作者：Ishraq Khan、Assad Chowdary、Sharoz Haseeb、Urvish Patel、Yousuf Zaii

机构：Kodezi Inc.

出版物：arXiv:2507.12482（2025年）

论文资源

资源	描述	链接
arXiv 论文	官方出版物	查看
完整论文（Markdown）	以 Markdown 格式的完整论文	查看
2025 更新	最新研究发现	查看
摘要	执行摘要	查看
方法学	研究方法	查看
相关工作	文献综述	查看
未来工作	研究方向	查看

主要贡献

调试专用架构：首个专门针对调试工作流训练的语言模型（4250万条示例）
自适应图引导检索（AGR）：新颖的多跳检索方法，复杂度为O(k log d)
持久化调试记忆（PDM）：跨会话学习系统，用于识别仓库特定模式
全面评估：涵盖多个基准测试的12,500个真实世界缺陷
最先进结果：在SWE-bench Lite上达到80.33%的准确率（领先第二名20个百分点）

🚀 快速入门

前置条件

# 需要 Python 3.8 或更高版本
python --version

# 需要 Git 进行克隆
git --version

快速开始：运行基准测试

# 克隆仓库
git clone https://github.com/kodezi/chronos-research.git
cd chronos-research

# 安装依赖
pip install -r requirements.txt

# 在您的模型上运行 MRR 基准测试
python benchmarks/run_mrr_benchmark_2025.py \
  --model your_model \
  --scenarios 100  # 先从子集开始测试

# 运行完整样本评估（有500个场景可用）
python benchmarks/run_mrr_benchmark_2025.py \
  --model your_model \
  --scenarios 500

# 分析结果
python benchmarks/analyze_results.py \
  --results_dir results/your_model

模型访问

Chronos 模型不包含在此仓库中

本仓库包含：

研究论文及文档
基准测试套件与评估框架
性能结果与分析
Chronos 模型（专有，未包含）

若需访问 Chronos 模型：

访问方式	可用性	详情
Kodezi OS	2025年第四季度（Beta）	企业版 Beta 访问
Kodezi OS	2026年第一季度（GA）	正式发布
API 访问	2026年第一季度	API 接口

加入候补名单 → | 联系销售 →

📁 仓库结构

chronos-research/
│
├── benchmarks/                    # 基准测试套件
│   ├── multi-random-retrieval/      # 5,000场景MRR基准测试（有500个样本可用）
│   ├── comprehensive_benchmarks/    # 扩展测试场景
│   ├── debug_categories/            # 缺陷类型分类（6种）
│   ├── evaluation_metrics/          # 自定义指标实现
│   ├── run_mrr_benchmark_2025.py    # 主基准测试运行脚本
│   └── analyze_results.py           # 结果分析工具
│
├── evaluation/                    # 评估结果
│   └── lite/                        # SWE-bench Lite结果（80.33%）
│       └── 20251111_kodezi_chronos_1/  # 官方提交
│           ├── all_preds.jsonl      # 所有300个预测
│           ├── logs/                # 300多个执行日志
│           ├── results/             # 每个实例的结果
│           └── trajs/               # 调试轨迹
│
├── paper/                         # 研究论文
│   ├── chronos-research.md          # 完整论文（arXiv:2507.12482）
│   ├── chronos-research-2025.md     # 2025年更新
│   ├── abstract.md                  # 执行摘要
│   ├── methodology.md               # 研究方法论
│   └── figures/                     # 可视化图表
│
├── architecture/                  # 架构文档
│   ├── README.md                    # 架构概述
│   ├── AGR_ALGORITHM.md             # 自适应图引导检索
│   ├── memory_engine.md             # 持久化调试记忆（PDM）
│   └── debugging_loop.md            # 自主循环设计
│
├── results/                       # 性能数据
│   ├── figures/                     # 15+ SVG可视化图表
│   ├── ablation_studies/            # 组件影响分析
│   ├── case_studies/                # 真实世界调试案例
│   └── raw_data/                    # 基准测试输出（CSV/JSON）
│
├── reference_implementations/     # 算法参考代码
│   ├── algorithms/                  # AGR、PDM参考实现
│   └── NOTICE.md                    # 专有声明
│
├── docs/                          # 文档
│   ├── getting_started.md           # 快速入门指南
│   ├── API_DOCUMENTATION.md         # API 参考文档（2026年第一季度）
│   ├── faq.md                       # 常见问题解答
│   └── limitations.md               # 已知限制
│
├── LEADERBOARD.md                 # 性能排名
├── CITATION.cff                   # 引用信息（BibTeX）
├── CONTRIBUTING.md                # 贡献指南
├── LICENSE                        # MIT 许可证 + 专有声明
└── requirements.txt               # Python 依赖项

关键目录：

benchmarks/：5,000场景MRR基准测试（有500个样本可用），支持多语言，自动化评估
evaluation/：SWE-bench Lite结果（80.33%，241/300个实例）
paper/：完整的研究论文及文档（arXiv:2507.12482）
architecture/：7层系统设计，AGR/PDM文档
results/：12,500+个缺陷修复，可视化图表，统计分析
reference_implementations/：算法参考代码（非实际模型）

🔬 研究亮点

训练数据构成

数据来源	数量	描述
调试示例	42.5M	完整的调试工作流
GitHub Issues	15M	已验证修复的问题
堆栈跟踪	8M	包含解决方案的错误堆栈
CI/CD 日志	3M	构建和部署调试日志
生产环境会话	2.5M	真实生产环境中的缺陷
精选基准测试	14M	Defects4J、SWE-bench、BugsInPy

总训练数据：42.5M条调试专用示例（非代码补全）

AGR 按深度的性能

检索策略	成功率	平均时间（秒）	使用场景
k=1 跳	58.2%	12.3	简单缺陷
k=2 跳	72.4%	18.7	多文件缺陷
k=3 跳	83.1%	24.5	复杂依赖关系
k=自适应	87.1%	23.4	最优策略
平坦检索	23.4%	45.2	基线对比

PDM 学习曲线

会话数	成功率	令牌效率	内存大小
初始	35%	1.0x	0 GB
100次会话	52%	3.2x	2.1 GB
500次会话	65%	7.3x	8.7 GB
1000+次会话	67%	8.1x	15.2 GB

核心见解：PDM通过跨会话学习实现持续改进

📊 详细性能

语言特定性能

语言	Chronos	GPT-4.1	Claude 4.1 Opus	Gemini 2.0 Pro	测试用例
Python	68.7% ± 2.1%	11.2% ± 2.8%	10.3% ± 2.9%	14.6% ± 2.6%	1,823 个 bug
JavaScript	64.2% ± 2.3%	7.8% ± 2.5%	6.9% ± 2.6%	10.1% ± 2.4%	1,547 个 bug
Java	63.9% ± 2.2%	6.3% ± 2.2%	5.7% ± 2.3%	9.2% ± 2.1%	1,630 个 bug
Go	66.8% ± 2.4%	9.1% ± 2.6%	8.4% ± 2.7%	12.3% ± 2.5%	892 个 bug
C++	61.2% ± 2.6%	5.2% ± 2.1%	4.8% ± 2.2%	7.9% ± 2.0%	1,108 个 bug
Rust	59.8% ± 2.7%	4.1% ± 1.9%	3.7% ± 2.0%	6.3% ± 1.8%	687 个 bug

调试循环效率

迭代次数	Chronos 成功率	GPT-4.1 成功率	节省时间	累计
第一次尝试	42.3%	3.2%	-87%	42.3%
第二次尝试	+16.4% (58.7%)	+1.9% (5.1%)	-83%	58.7%
第三次尝试	+6.6% (65.3%)	+1.7% (6.8%)	-79%	65.3%
第四次及以后尝试	+2.0% (67.3%)	+1.7% (8.5%)	-74%	67.3%

注: Chronos 的迭代更为彻底（平均 7.8 次），而竞争对手则为平均 1–2 次。

上下文窗口效率

模型	上下文大小	调试成功率	每个 Bug 的成本	备注
GPT-4.1 (32K)	32K tokens	7.2%	$5.53	更多上下文并不意味着更好的调试效果
Claude 4.1 (200K)	200K tokens	9.8%	$4.89	规模扩大时注意力会分散
Gemini 2.0 Pro (1M)	1M tokens	14.3%	$4.25	最佳传统模型
Chronos	无限制*	71.2%	$1.36	*通过智能检索

消融实验

配置	调试成功率	精确率	召回率	影响
完整 Chronos	67.3%	92%	85%	完整系统
不含 AGR（扁平检索）	28.7%	42%	31%	-56%（关键影响）
不含 PDM（静态内存）	40.1%	67%	58%	-39%（重大影响）
不含编排循环	42.5%	71%	62%	-35%（重大影响）
不含多代码关联	35.8%	54%	47%	-45%（关键影响）
不含执行沙盒	48.2%	78%	69%	-27%（显著影响）

📖 文档

核心文档

入门指南	架构	基准测试	API 参考
快速入门指南	系统设计细节	评估方法论	未来 API 文档

性能与分析

性能	案例研究	常见问题解答	局限性
详细指标	实际案例	常见问题	已知限制

结果与排名

排行榜	评估结果	分析	基准测试
性能排名	SWE-bench Lite	统计分析	全套测试集

🤝 贡献

我们欢迎对评估框架和基准测试的贡献！

如何贡献

# 1. 分支并克隆仓库
git clone https://github.com/[your-username]/chronos-research.git
cd chronos-research

# 2. 创建功能分支
git checkout -b feature/your-contribution

# 3. 进行更改
# - 添加新的基准测试
# - 改进文档
# - 修复评估脚本中的 bug

# 4. 运行测试
python -m pytest tests/

# 5. 提交更改
git add .
git commit -m "feat: description of your changes"

# 6. 推送并创建 PR
git push origin feature/your-contribution

贡献指南

为新功能添加测试
遵循现有代码风格
更新文档
为新功能添加基准测试
包括性能分析

详细指南请参阅 CONTRIBUTING.md。

📝 引用

如果您在工作中使用了本研究，请引用：

@article{khan2025chronos,
  title={Kodezi Chronos: A Debugging-First Language Model for
         Repository-Scale Code Understanding},
  author={Khan, Ishraq and Chowdary, Assad and
          Haseeb, Sharoz and Patel, Urvish and Zaii, Yousuf},
  journal={arXiv preprint arXiv:2507.12482},
  year={2025},
  url={https://arxiv.org/abs/2507.12482},
  note={State-of-the-art: 80.33\% on SWE-bench Lite}
}

🏢 关于 Kodezi

Kodezi 正在构建自主软件维护的未来。我们的使命是通过真正理解大规模代码的 AI，赋能开发者。

我们的产品

产品	描述	可用性
Kodezi Code Web-IDE	基于 AI 的网页版代码编辑器，具备实时调试功能	现已可用
Kodezi Create	从自然语言生成完整应用	现已可用
Kodezi CLI	用于自动化代码分析和修复的命令行界面	现已可用
Kodezi OS	自主软件维护平台，集成 Chronos	2025 年第四季度（Beta 版）
Chronos	调试优先的语言模型（SWE-bench Lite 80.33%）	通过 Kodezi OS 使用
企业 API	团队和企业部署的 API 访问	2026 年第一季度

📧 联系方式与社区

与我们联系

企业客户

销售: sales@kodezi.com 支持: support@kodezi.com 合作伙伴关系: partnerships@kodezi.com

📄 许可证

MIT 许可证

特此授予任何人免费获取本软件及与其相关的文档文件（以下简称“软件”）的副本的权利，允许以任何方式处理该软件，包括但不限于使用、复制、修改、合并、发布、分发、再许可和出售软件副本，并允许向任何接收软件的人提供软件以供其使用，但须遵守以下条件：

⚠️ 重要提示

本许可证仅适用于本仓库中包含的研究论文、基准测试、评估框架和文档。

Kodezi Chronos 模型本身属于 Kodezi Inc. 的专有技术，并 未包含在本仓库中，亦不受本许可证的约束。

📦 MIT 许可证涵盖的内容

研究论文：arXiv 出版物及 Markdown 版本
基准测试套件：MRR 及评估框架
评估结果：SWE-bench Lite 结果及分析
文档：架构文档、指南和参考资料
参考实现：算法参考代码（并非实际模型）

🔒 专有组件

Chronos 模型：未包含在本仓库中
Kodezi OS 集成：专有平台组件
生产级 API：企业级部署基础设施

🚀 Chronos 模型访问权限

Chronos 模型仅可通过 Kodezi OS 获得：

2025 年第四季度：企业版 Beta 访问
2026 年第一季度：正式商用发布
了解更多信息：chronos.so
提前获取访问权限：kodezi.com/os

研究与资源

加入候补名单 → | 阅读论文 → | 查看结果 → | 了解更多 →

_{最后更新：2025 年 11 月 | 版本：2.0.0}

Kodezi Chronos 快速上手指南

重要提示：Kodezi Chronos 是一款专有模型，目前不提供开源代码下载或直接本地部署。本仓库仅包含研究论文、基准测试数据和评估结果。模型功能需通过 Kodezi OS 平台访问。

以下指南将帮助您了解如何获取访问权限并准备使用环境。

1. 环境准备

由于 Chronos 是通过云端 API 或 Kodezi OS 集成提供的服务，您无需配置复杂的本地 GPU 环境，但需要满足以下基础条件：

操作系统：Windows, macOS, 或 Linux (推荐 Ubuntu 20.04+)
网络要求：稳定的互联网连接（访问 chronos.so 和 kodezi.com）
开发工具：
- Git (用于克隆本仓库查看文档)
- Python 3.8+ (如果使用 SDK 或脚本交互)
- 支持 Bash 的终端环境
账号权限：需要申请并获得 Kodezi Chronos 的访问资格（见下文）。

2. 安装与访问步骤

目前无法通过 pip 或 docker 直接安装模型权重。请按照以下步骤获取访问权限：

第一步：申请访问权限

访问官方等待列表页面进行注册：

# 请在浏览器中打开以下链接申请 Early Access
https://chronos.so

第二步：克隆研究仓库（可选）

如果您需要查看详细的基准测试数据、论文草稿或评估脚本，可以克隆本仓库：

git clone https://github.com/kodezi/chronos.git
cd chronos

第三步：集成 Kodezi OS (预计 2026 Q1 正式发布)

根据官方路线图，通用访问将通过 Kodezi OS 提供。请关注官方文档以获取未来的 SDK 安装命令：

Beta 阶段 (2025 Q4)：仅限有限的企业用户访问。
正式发布 (2026 Q1)：通过 Kodezi OS 集成使用。

(注：当前暂无公开的 Python SDK 安装命令，如 pip install kodezi-chronos，请勿尝试安装不存在的包。)

3. 基本使用

由于模型尚未完全公开，目前的使用方式主要为提交等待列表或查阅评估报告。一旦获得访问权限，典型的使用流程将如下所示（基于架构描述的预期工作流）：

场景：自主调试循环 (Autonomous Debugging Loop)

Chronos 设计用于处理仓库级别的代码理解与调试。获得权限后，预期的交互模式如下：

输入上下文：提供代码库路径、错误日志、堆栈跟踪或测试失败信息。
执行调试：模型将通过自适应图引导检索 (AGR) 分析多文件上下文。
获取修复：模型生成修复补丁、测试用例及根本原因分析。

预期命令示例（未来版本）：

# 以下为基于文档架构的预期命令格式，具体语法请以正式发布的 SDK 文档为准
kodezi chronos debug --repo ./my-project --error-log "logs/failure.txt" --auto-fix

核心能力指标参考：

SWE-bench Lite 成功率: 80.33%
自主调试成功率: 67.3%
平均修复迭代次数: 7.8 次
适用场景: 逻辑错误、并发问题、内存问题及跨文件 API 误用。

相关链接：

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|2天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|5天前

插件开发框架