[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Kodezi--Chronos":3,"tool-Kodezi--Chronos":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150720,2,"2026-04-11T11:33:10",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":72,"owner_website":77,"owner_url":78,"languages":79,"stars":109,"forks":110,"last_commit_at":111,"license":112,"difficulty_score":113,"env_os":114,"env_gpu":115,"env_ram":115,"env_deps":116,"category_tags":119,"github_topics":121,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":140,"updated_at":141,"faqs":142,"releases":143},6690,"Kodezi\u002FChronos","Chronos","Kodezi Chronos is a debugging-first language model that achieves state-of-the-art results on SWE-bench Lite (80.33%) and 67% real-world fix accuracy, over six times better than GPT-4. Built with Adaptive Graph-Guided Retrieval and Persistent Debug Memory. Model available Q1 2026 via Kodezi OS.","Chronos 是全球首款专为“调试”而生的大语言模型，由 Kodezi 团队研发。它专注于解决软件开发中最棘手的痛点：在大规模代码库中精准定位并修复复杂错误。与传统通用模型擅长生成新代码不同，Chronos 在理解现有项目结构和自主调试方面表现卓越，其在权威基准 SWE-bench Lite 上取得了 80.33% 的通过率，真实场景下的修复准确率也高达 67%，性能远超 GPT-4 等主流模型。\n\n这款工具特别适合专业开发者、技术团队及 AI 研究人员使用。对于深受遗留代码维护、隐蔽 Bug 排查困扰的工程师而言，Chronos 能显著减少手动调试时间（约 40%），并提供更符合人类偏好的修复方案。其核心技术创新在于采用了“自适应图引导检索”与“持久化调试记忆”架构，使模型能够像资深专家一样，跨文件追踪上下文线索并记住之前的调试尝试，从而避免重复错误。需要注意的是，Chronos 目前属于专有模型，预计将于 2026 年第一季度通过 Kodezi OS 正式向公众开放，当前仓库主要供学术界参考其研究成果与评测数据。","\u003Cdiv align=\"center\">\n\n# Kodezi Chronos\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKodezi_Chronos_readme_56b44192d46c.png\" alt=\"Introducing Kodezi Chronos-1\" width=\"100%\">\n\u003C\u002Fp>\n\n## The World's First Debugging-First Language Model for Repository-Scale Code Understanding\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2507.12482-b31b1b.svg?style=for-the-badge)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482)\n[![Model Access](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModel-Chronos%20Waitlist-4B7BFF.svg?style=for-the-badge)](https:\u002F\u002Fchronos.so)\n[![Research](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FResearch-Paper-orange.svg?style=for-the-badge)](paper\u002Fchronos-research.md)\n[![Benchmark](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBenchmark-SWE--bench%20Lite-purple.svg?style=for-the-badge)](evaluation\u002Flite\u002F)\n[![Leaderboard](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLeaderboard-Results-gold.svg?style=for-the-badge)](LEADERBOARD.md)\n\n### Performance Badges\n\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FSWE--bench%20Lite-80.33%25-gold?style=for-the-badge\" alt=\"SWE-bench Lite\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDebug%20Success-67.3%25-brightgreen?style=for-the-badge\" alt=\"Debug Success Rate\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuman%20Preference-89%25-blue?style=for-the-badge\" alt=\"Human Preference\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FImprovement-4--5x-yellow?style=for-the-badge\" alt=\"Improvement over GPT-4.1\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTime%20Reduction-40%25-orange?style=for-the-badge\" alt=\"Time Reduction\">\n\n### Key Achievements\n\n**80.33% SWE-bench Lite** • **67.3% Autonomous Debugging** • **89% Human Preference** • **40% Time Reduction**\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"results\u002Ffigures\u002Farchitecture_overview.svg\" alt=\"Chronos Architecture\" width=\"800\">\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n---\n\n## Table of Contents\n\n- [State-of-the-Art Results](#state-of-the-art-results)\n  - [SWE-bench Lite Performance](#swe-bench-lite-performance)\n  - [The Debugging Gap](#the-debugging-gap)\n  - [Repository-Specific Results](#repository-specific-results)\n- [MRR Benchmark Results](#mrr-benchmark-results)\n- [Key Innovations](#key-innovations)\n- [Architecture](#architecture)\n- [Benchmarks & Evaluation](#benchmarks--evaluation)\n- [Research Paper](#research-paper)\n- [Getting Started](#getting-started)\n- [Repository Structure](#repository-structure)\n- [Research Highlights](#research-highlights)\n- [Detailed Performance](#detailed-performance)\n- [Documentation](#documentation)\n- [Contributing](#contributing)\n- [Citation](#citation)\n- [License](#license)\n\n---\n\n## Model Access Notice\n\n\u003Cdiv align=\"center\">\n\n**Chronos is proprietary and available exclusively through Kodezi OS**\n\n| Timeline | Access | Details |\n|:--------:|:------:|:-------:|\n| **Q4 2025** | Beta | Limited enterprise access |\n| **Q1 2026** | GA | Via [Kodezi OS](https:\u002F\u002Fkodezi.com\u002Fos) |\n\n**This repository contains research paper, benchmarks, and evaluation results only.**\n\n**[Get Early Access](https:\u002F\u002Fchronos.so)** • **[Read Paper](paper\u002Fchronos-research.md)** • **[View Leaderboard](LEADERBOARD.md)** • **[Documentation](docs\u002F)**\n\n\u003C\u002Fdiv>\n\n---\n\n## 🏅 State-of-the-Art Results\n\n### 📈 SWE-bench Lite Performance\n\n\u003Cdiv align=\"center\">\n\n**Industry-Standard Benchmark Results**\n\n| Rank | System | Success Rate | Instances | Lead | Year |\n|:----:|:-------|:------------:|:---------:|:----:|:----:|\n| **1** | **Kodezi Chronos** | **80.33%** | **241\u002F300** | **+20.0pp** | **2025** |\n| 2 | ExpeRepair-v1.0 + Claude 4.5 Sonnet | 60.33% | 181\u002F300 | - | 2025 |\n| 3 | Claude 4.5 Sonnet (Bash Only) | ~14% | ~42\u002F300 | -66.3pp | 2025 |\n| 4 | Claude 4.1 Opus (Bash Only) | 14.2% | 43\u002F300 | -66.1pp | 2025 |\n| 5 | GPT-4.1 | 13.8% | 41\u002F300 | -66.5pp | 2025 |\n| 6 | Gemini 2.0 Pro | 13.4% | 40\u002F300 | -67.0pp | 2025 |\n\n**20 percentage point absolute lead over second place**\n\n\u003C\u002Fdiv>\n\n### The Debugging Gap\n\n\u003Cdiv align=\"center\">\n\n**General-Purpose Models: Code Generation vs Debugging Performance**\n\n| Model | SWE-bench Full\u003Cbr\u002F>(Code Gen) | SWE-bench Lite\u003Cbr\u002F>(Debugging) | Performance Gap |\n|:------|:-----------------------------:|:------------------------------:|:---------------:|\n| Claude 4.5 Sonnet | 72.7% | ~14% | **-58.7pp** |\n| Claude 4.1 Opus | 72.5% | 14.2% | **-58.3pp** |\n| Claude 4.1 Opus (Bash) | 67.60% | 14.2% | **-53.4pp** |\n| GPT-4.1 | 54.6% | 13.8% | **-40.8pp** |\n| **Kodezi Chronos** | **N\u002FA** | **80.33%** | **Specialized** |\n\n**Key Insight**: Even models achieving 70%+ on code generation drop to \u003C15% on debugging tasks, revealing a 50+ percentage point gap. **Chronos, purpose-built for debugging, achieves 80.33%**—demonstrating that debugging requires specialized architectures, not just larger context windows.\n\n\u003C\u002Fdiv>\n\n### Repository-Specific Results\n\n\u003Cdiv align=\"center\">\n\n**SWE-bench Lite: Domain-Specific Performance**\n\n| Repository | Domain | Chronos Success | Instances | Significance |\n|:-----------|:-------|:---------------:|:---------:|:-------------|\n| **sympy** | Symbolic Mathematics | **96.1%** | 51\u002F53 | Near-perfect mathematical reasoning |\n| **sphinx** | Documentation Systems | **93.8%** | 60\u002F64 | Exceptional doc generation bugs |\n| **django** | Web Frameworks | **90.4%** | 104\u002F115 | Complex framework debugging |\n| **Overall** | Mixed Domains | **80.33%** | **241\u002F300** | **State-of-the-art** |\n\n\u003C\u002Fdiv>\n\n---\n\n## 🔬 MRR Benchmark Results\n\n\u003Cdiv align=\"center\">\n\n### 📊 Overall Performance (5,000 Multi-Random Retrieval Scenarios - Sample Dataset of 500 Available)\n\n| Metric | **Chronos** | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | Improvement |\n|:-------|:-----------:|:-------:|:---------------:|:--------------:|:-----------:|\n| **Debug Success Rate** | **67.3% ± 2.1%** | 13.8% | 14.2% | 15.0% | **4.5x** |\n| **Root Cause Accuracy** | **89%*** | 12.3% ± 1.8% | 11.7% ± 2.0% | 15.8% ± 1.5% | **5.6-7.6x** |\n| **Retrieval Precision** | **92%*** | 68% ± 2.3% | 67% ± 2.4% | 74% ± 1.8% | **1.2-1.4x** |\n| **Retrieval Recall** | **85%** | 32% ± 2.1% | 34% ± 2.0% | 42% ± 1.9% | **2.0-2.7x** |\n| **Avg Fix Iterations** | **7.8** | 1-2 | 1-2 | 1-2 | More thorough |\n| **Time Reduction** | **40%** | - | - | - | 40% faster |\n\n***p \u003C 0.001 compared to best baseline (two-tailed t-test, n=5,000)** • Sample dataset (n=500) available now, full benchmark Q1 2026*\n\n\u003C\u002Fdiv>\n\n### 🐛 Performance by Bug Category\n\n\u003Cdiv align=\"center\">\n\n| Bug Category | Chronos | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | Chronos Advantage |\n|:-------------|:-------:|:-------:|:---------------:|:--------------:|:-----------------:|\n| **Syntax Errors** | 94.2% | 82.3% | 79.8% | 85.1% | 1.1x |\n| **Logic Bugs** | 72.8% | 12.1% | 10.7% | 15.3% | **6.0x** |\n| **Concurrency Issues** | 58.3% | 3.2% | 2.8% | 4.1% | **18.2x** |\n| **Memory Problems** | 61.7% | 5.7% | 4.3% | 6.9% | **10.8x** |\n| **API Misuse** | 79.1% | 18.9% | 16.2% | 22.4% | **4.2x** |\n| **Performance Bugs** | 65.4% | 7.4% | 6.1% | 9.8% | **8.8x** |\n\n\u003C\u002Fdiv>\n\n### 📏 Repository Scale Performance\n\n\u003Cdiv align=\"center\">\n\n| Repository Size | Chronos Success | Best Baseline | Baseline Model | Improvement |\n|:---------------:|:---------------:|:-------------:|:--------------:|:-----------:|\n| **\u003C10K LOC** | 71.2% ± 2.8% | 21.3% ± 3.5% | Gemini 2.0 Pro | **3.3x** |\n| **10K-100K LOC** | 68.9% ± 2.5% | 14.7% ± 3.2% | Gemini 2.0 Pro | **4.7x** |\n| **100K-1M LOC** | 64.3% ± 2.9% | 8.9% ± 2.8% | Gemini 2.0 Pro | **7.2x** |\n| **>1M LOC** | 59.7% ± 3.1% | 3.8% ± 1.9% | Gemini 2.0 Pro | **15.7x** |\n\n\u003C\u002Fdiv>\n\n---\n\n## 💡 Key Innovations\n\n### 1. **Debugging-First Architecture**\n- Trained on **42.5M real debugging examples** (not code completion)\n- Specialized for **root cause analysis** and **multi-file patches**\n- **89% root cause accuracy** vs 15.8% best baseline\n- **7-layer architecture** optimized for debugging workflows\n\n### 2. **Persistent Debug Memory (PDM)**\n- Repository-specific learning from **15M+ debugging sessions**\n- Improves from **35% → 65%** success rate over time\n- Cross-session pattern recognition and learning\n- **87% cache hit rate** for similar bugs\n- Temporal pattern learning across project lifecycles\n\n### 3. **Adaptive Graph-Guided Retrieval (AGR)**\n- **O(k log d)** complexity with dynamic k-hop expansion\n- **92% precision, 85% recall** on multi-file context\n- Handles **unlimited repository scale** intelligently\n- Multi-hop traversal with confidence-based termination\n- **3.8x faster** than traditional retrieval methods\n\n### 4. **Output-Optimized Design**\n- Optimized for **~3K output tokens** (fixes, tests, docs)\n- **47.2% output entropy density** vs 12.8% for completion models\n- Designed for **complex patch generation**\n- Template-aware generation for consistency\n- Confidence-guided output strategy\n\n### 5. **Autonomous Debugging Loop**\n- Average **7.8 iterations** to successful fix\n- **Propose → Test → Analyze → Refine** cycles\n- **67.3% fully autonomous** success rate\n- Execution sandbox with real-time feedback\n- Iterative refinement until validation succeeds\n\n---\n\n## 🏗️ Architecture\n\n### Seven-Layer System Design\n\n```\n┌─────────────────────────────────────────────┐\n│   7. Explainability Layer                   │  Human-readable root cause analysis\n├─────────────────────────────────────────────┤\n│   6. Execution Sandbox                      │  Isolated test validation\n├─────────────────────────────────────────────┤\n│   5. Persistent Debug Memory (PDM)          │  Repository-specific learning\n├─────────────────────────────────────────────┤\n│   4. Orchestration Controller               │  Autonomous debugging loop\n├─────────────────────────────────────────────┤\n│   3. Debug-Tuned LLM Core                   │  42.5M debugging examples\n├─────────────────────────────────────────────┤\n│   2. Adaptive Retrieval Engine (AGR)        │  Dynamic k-hop graph traversal\n├─────────────────────────────────────────────┤\n│   1. Multi-Source Input Layer               │  Code, logs, traces, tests, docs\n└─────────────────────────────────────────────┘\n```\n\n### Layer Descriptions\n\n1. **Multi-Source Input Layer**: Processes code, logs, traces, tests, docs simultaneously\n2. **Adaptive Retrieval Engine (AGR)**: Dynamic k-hop graph traversal (92% precision)\n3. **Debug-Tuned LLM Core**: 42.5M debugging examples, not code completion\n4. **Orchestration Controller**: Autonomous debugging loop management\n5. **Persistent Debug Memory (PDM)**: Repository-specific learning (35% → 65% improvement)\n6. **Execution Sandbox**: Isolated test validation environment\n7. **Explainability Layer**: Human-readable root cause analysis\n\n**[View Detailed Architecture Documentation →](architecture\u002FREADME.md)**\n\n---\n\n## 🧪 Benchmarks & Evaluation\n\n### 📋 Available Benchmarks\n\n| Benchmark | Type | Instances | Purpose | Results |\n|:----------|:-----|:---------:|:--------|:-------:|\n| **SWE-bench Lite** | Industry Standard | 300 | Real-world debugging | [**80.33%**](evaluation\u002Flite\u002F) |\n| **MRR Benchmark** | Custom | 5,000 (500 sample) | Multi-random retrieval | [**67.3%**](benchmarks\u002Fmulti-random-retrieval\u002F) |\n| **Repository Scale** | Custom | Varied | Large codebase testing | [**59.7-71.2%**](benchmarks\u002F) |\n| **Bug Categories** | Custom | 4,400+ | Bug type specialization | [**58.3-94.2%**](benchmarks\u002F) |\n\n### 🏆 SWE-bench Lite Evaluation Results\n\n**[View Complete SWE-bench Lite Submission →](evaluation\u002Flite\u002F20251111_kodezi_chronos_1\u002F)**\n\nThe evaluation directory contains:\n- **README.md**: Detailed submission results and methodology\n- **metadata.yaml**: Submission metadata and configuration\n- **all_preds.jsonl**: All 300 instance predictions\n- **Kodezi Chronos-1.hybrid_eval.json**: Complete evaluation metrics\n- **logs\u002F**: Execution logs for all instances\n- **results\u002F**: Per-instance results and analysis\n- **trajs\u002F**: Debugging trajectories and fix attempts\n\n### 🎯 Multi-Random Retrieval (MRR) Benchmark\n\n**MRR simulates real-world debugging complexity:**\n- **Spatial Distribution**: Bug context scattered across 10-50 files\n- **Temporal Dispersion**: Relevant information from 3-12 months of history\n- **Obfuscation Levels**: Low\u002Fmedium\u002Fhigh code complexity\n- **5,000 Scenarios**: Comprehensive evaluation across languages (sample dataset of 500 available now, full benchmark Q1 2026)\n\n| Metric | Chronos | GPT-4.1+RAG | Claude 4.1+VectorDB | Gemini 2.0+Graph |\n|:-------|:-------:|:-----------:|:-------------------:|:----------------:|\n| **Precision@10** | 92% | 42.3% | 48.1% | 51.7% |\n| **Recall@10** | 85% | 31.7% | 36.2% | 41.8% |\n| **Fix Accuracy** | 67.3% | 8.9% | 11.2% | 14.6% |\n| **Context Efficiency** | 0.71 | 0.23 | 0.28 | 0.31 |\n\n**[View Complete Benchmark Documentation →](benchmarks\u002FREADME.md)**\n\n---\n\n## 📚 Research Paper\n\n### Published Research\n\n**Title**: Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding\n\n**Authors**: Ishraq Khan, Assad Chowdary, Sharoz Haseeb, Urvish Patel, Yousuf Zaii\n\n**Institution**: Kodezi Inc.\n\n**Publication**: arXiv:2507.12482 (2025)\n\n### Paper Resources\n\n| Resource | Description | Link |\n|:---------|:------------|:----:|\n| **arXiv Paper** | Official publication | [View](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482) |\n| **Full Paper (Markdown)** | Complete paper in markdown | [View](paper\u002Fchronos-research.md) |\n| **2025 Updates** | Latest research findings | [View](paper\u002Fchronos-research-2025.md) |\n| **Abstract** | Executive summary | [View](paper\u002Fabstract.md) |\n| **Methodology** | Research methodology | [View](paper\u002Fmethodology.md) |\n| **Related Work** | Literature review | [View](paper\u002Frelated_work.md) |\n| **Future Work** | Research directions | [View](paper\u002Ffuture_work.md) |\n\n### Key Contributions\n\n1. **Debugging-Specific Architecture**: First LM trained specifically on debugging workflows (42.5M examples)\n2. **Adaptive Graph-Guided Retrieval (AGR)**: Novel multi-hop retrieval with O(k log d) complexity\n3. **Persistent Debug Memory (PDM)**: Cross-session learning system for repository-specific patterns\n4. **Comprehensive Evaluation**: 12,500 real-world bugs across multiple benchmarks\n5. **State-of-the-Art Results**: 80.33% on SWE-bench Lite (20pp lead over second place)\n\n---\n\n## 🚀 Getting Started\n\n### Prerequisites\n\n```bash\n# Python 3.8+ required\npython --version\n\n# Git for cloning\ngit --version\n```\n\n### Quick Start: Running Benchmarks\n\n```bash\n# Clone the repository\ngit clone https:\u002F\u002Fgithub.com\u002Fkodezi\u002Fchronos-research.git\ncd chronos-research\n\n# Install dependencies\npip install -r requirements.txt\n\n# Run MRR benchmark on your model\npython benchmarks\u002Frun_mrr_benchmark_2025.py \\\n  --model your_model \\\n  --scenarios 100  # Start with subset for testing\n\n# Run full sample evaluation (500 scenarios available)\npython benchmarks\u002Frun_mrr_benchmark_2025.py \\\n  --model your_model \\\n  --scenarios 500\n\n# Analyze results\npython benchmarks\u002Fanalyze_results.py \\\n  --results_dir results\u002Fyour_model\n```\n\n### Model Access\n\n**The Chronos model is NOT included in this repository**\n\nThis repository contains:\n- Research paper and documentation\n- Benchmark suite and evaluation framework\n- Performance results and analysis\n- Chronos model (proprietary - NOT included)\n\n**To access Chronos model**:\n\n| Access Method | Availability | Details |\n|:--------------|:-------------|:--------|\n| **Kodezi OS** | Q4 2025 (Beta) | Enterprise beta access |\n| **Kodezi OS** | Q1 2026 (GA) | General availability |\n| **API Access** | Q1 2026 | API endpoints |\n\n**[Join Waitlist →](https:\u002F\u002Fchronos.so)** | **[Contact Sales →](mailto:sales@kodezi.com)**\n\n---\n\n## 📁 Repository Structure\n\n```\nchronos-research\u002F\n│\n├── benchmarks\u002F                    # Benchmark Suite\n│   ├── multi-random-retrieval\u002F      # 5,000 scenario MRR benchmark (500 sample available)\n│   ├── comprehensive_benchmarks\u002F    # Extended test scenarios\n│   ├── debug_categories\u002F            # Bug type categorization (6 types)\n│   ├── evaluation_metrics\u002F          # Custom metrics implementation\n│   ├── run_mrr_benchmark_2025.py    # Main benchmark runner\n│   └── analyze_results.py           # Results analysis tools\n│\n├── evaluation\u002F                    # Evaluation Results\n│   └── lite\u002F                        # SWE-bench Lite results (80.33%)\n│       └── 20251111_kodezi_chronos_1\u002F  # Official submission\n│           ├── all_preds.jsonl      # All 300 predictions\n│           ├── logs\u002F                # 300+ execution logs\n│           ├── results\u002F             # Per-instance results\n│           └── trajs\u002F               # Debugging trajectories\n│\n├── paper\u002F                         # Research Paper\n│   ├── chronos-research.md          # Full paper (arXiv:2507.12482)\n│   ├── chronos-research-2025.md     # 2025 updates\n│   ├── abstract.md                  # Executive summary\n│   ├── methodology.md               # Research methodology\n│   └── figures\u002F                     # Visualizations\n│\n├── architecture\u002F                  # Architecture Documentation\n│   ├── README.md                    # Architecture overview\n│   ├── AGR_ALGORITHM.md             # Adaptive Graph-Guided Retrieval\n│   ├── memory_engine.md             # Persistent Debug Memory (PDM)\n│   └── debugging_loop.md            # Autonomous loop design\n│\n├── results\u002F                       # Performance Data\n│   ├── figures\u002F                     # 15+ SVG visualizations\n│   ├── ablation_studies\u002F            # Component impact analysis\n│   ├── case_studies\u002F                # Real-world debugging examples\n│   └── raw_data\u002F                    # Benchmark outputs (CSV\u002FJSON)\n│\n├── reference_implementations\u002F     # Algorithm Reference Code\n│   ├── algorithms\u002F                  # AGR, PDM reference implementations\n│   └── NOTICE.md                    # Proprietary notice\n│\n├── docs\u002F                          # Documentation\n│   ├── getting_started.md           # Quick start guide\n│   ├── API_DOCUMENTATION.md         # API reference (Q1 2026)\n│   ├── faq.md                       # Frequently asked questions\n│   └── limitations.md               # Known constraints\n│\n├── LEADERBOARD.md                 # Performance rankings\n├── CITATION.cff                   # Citation information (BibTeX)\n├── CONTRIBUTING.md                # Contribution guidelines\n├── LICENSE                        # MIT License + proprietary notice\n└── requirements.txt               # Python dependencies\n```\n\n**Key Directories:**\n- **benchmarks\u002F**: 5,000 scenario MRR benchmark (500 sample available), multi-language support, automated evaluation\n- **evaluation\u002F**: SWE-bench Lite results (80.33%, 241\u002F300 instances)\n- **paper\u002F**: Complete research paper and documentation (arXiv:2507.12482)\n- **architecture\u002F**: 7-layer system design, AGR\u002FPDM documentation\n- **results\u002F**: 12,500+ bug resolutions, visualizations, statistical analysis\n- **reference_implementations\u002F**: Algorithm reference code (NOT the actual model)\n---\n\n## 🔬 Research Highlights\n\n### Training Dataset Composition\n\n| Data Source | Volume | Description |\n|:------------|:------:|:------------|\n| **Debugging Examples** | 42.5M | Complete debugging workflows |\n| **GitHub Issues** | 15M | Issues with verified fixes |\n| **Stack Traces** | 8M | Error traces with resolutions |\n| **CI\u002FCD Logs** | 3M | Build and deployment debugging |\n| **Production Sessions** | 2.5M | Real-world production bugs |\n| **Curated Benchmarks** | 14M | Defects4J, SWE-bench, BugsInPy |\n\n**Total Training Data**: 42.5M debugging-specific examples (not code completion)\n\n### AGR Performance by Depth\n\n| Retrieval Strategy | Success Rate | Avg Time (s) | Use Case |\n|:-------------------|:------------:|:------------:|:---------|\n| k=1 hop | 58.2% | 12.3 | Simple bugs |\n| k=2 hops | 72.4% | 18.7 | Multi-file bugs |\n| k=3 hops | 83.1% | 24.5 | Complex dependencies |\n| k=adaptive | **87.1%** | 23.4 | **Optimal strategy** |\n| Flat retrieval | 23.4% | 45.2 | Baseline comparison |\n\n### PDM Learning Curve\n\n| Sessions | Success Rate | Token Efficiency | Memory Size |\n|:--------:|:------------:|:----------------:|:-----------:|\n| Initial | 35% | 1.0x | 0 GB |\n| 100 sessions | 52% | 3.2x | 2.1 GB |\n| 500 sessions | **65%** | **7.3x** | 8.7 GB |\n| 1000+ sessions | 67% | 8.1x | 15.2 GB |\n\n**Key Insight**: PDM enables continuous improvement through cross-session learning\n\n---\n\n## 📊 Detailed Performance\n\n### Language-Specific Performance\n\n\u003Cdiv align=\"center\">\n\n| Language | Chronos | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | Test Cases |\n|:--------:|:-------:|:-------:|:---------------:|:--------------:|:----------:|\n| **Python** | 68.7% ± 2.1% | 11.2% ± 2.8% | 10.3% ± 2.9% | 14.6% ± 2.6% | 1,823 bugs |\n| **JavaScript** | 64.2% ± 2.3% | 7.8% ± 2.5% | 6.9% ± 2.6% | 10.1% ± 2.4% | 1,547 bugs |\n| **Java** | 63.9% ± 2.2% | 6.3% ± 2.2% | 5.7% ± 2.3% | 9.2% ± 2.1% | 1,630 bugs |\n| **Go** | 66.8% ± 2.4% | 9.1% ± 2.6% | 8.4% ± 2.7% | 12.3% ± 2.5% | 892 bugs |\n| **C++** | 61.2% ± 2.6% | 5.2% ± 2.1% | 4.8% ± 2.2% | 7.9% ± 2.0% | 1,108 bugs |\n| **Rust** | 59.8% ± 2.7% | 4.1% ± 1.9% | 3.7% ± 2.0% | 6.3% ± 1.8% | 687 bugs |\n\n\u003C\u002Fdiv>\n\n### Debugging Cycle Efficiency\n\n\u003Cdiv align=\"center\">\n\n| Iteration | Chronos Success | GPT-4.1 Success | Time Saved | Cumulative |\n|:---------:|:---------------:|:---------------:|:----------:|:----------:|\n| 1st Attempt | 42.3% | 3.2% | -87% | 42.3% |\n| 2nd Attempt | +16.4% (58.7%) | +1.9% (5.1%) | -83% | 58.7% |\n| 3rd Attempt | +6.6% (65.3%) | +1.7% (6.8%) | -79% | 65.3% |\n| 4th+ Attempts | +2.0% (67.3%) | +1.7% (8.5%) | -74% | 67.3% |\n\n**Note**: Chronos performs more thorough iterations (7.8 avg) vs competitors (1-2 avg)\n\n\u003C\u002Fdiv>\n\n### Context Window Efficiency\n\n\u003Cdiv align=\"center\">\n\n| Model | Context Size | Debug Success | Cost per Bug | Note |\n|:------|:------------:|:-------------:|:------------:|:-----|\n| GPT-4.1 (32K) | 32K tokens | 7.2% | $5.53 | More context ≠ better debugging |\n| Claude 4.1 (200K) | 200K tokens | 9.8% | $4.89 | Attention dilution at scale |\n| Gemini 2.0 Pro (1M) | 1M tokens | 14.3% | $4.25 | Best traditional model |\n| **Chronos** | **Unlimited*** | **71.2%** | **$1.36** | *Via intelligent retrieval |\n\n\u003C\u002Fdiv>\n\n### Ablation Studies\n\n\u003Cdiv align=\"center\">\n\n| Configuration | Debug Success | Precision | Recall | Impact |\n|:--------------|:-------------:|:---------:|:------:|:-------|\n| **Full Chronos** | **67.3%** | **92%** | **85%** | Complete system |\n| w\u002Fo AGR (Flat Retrieval) | 28.7% | 42% | 31% | **-56%** (critical) |\n| w\u002Fo PDM (Static Memory) | 40.1% | 67% | 58% | **-39%** (major) |\n| w\u002Fo Orchestration Loop | 42.5% | 71% | 62% | **-35%** (major) |\n| w\u002Fo Multi-Code Association | 35.8% | 54% | 47% | **-45%** (critical) |\n| w\u002Fo Execution Sandbox | 48.2% | 78% | 69% | **-27%** (significant) |\n\n\u003C\u002Fdiv>\n\n---\n\n## 📖 Documentation\n\n\u003Cdiv align=\"center\">\n\n### Core Documentation\n\n| [Getting Started](docs\u002Fgetting_started.md) | [Architecture](architecture\u002FREADME.md) | [Benchmarks](benchmarks\u002FREADME.md) | [API Reference](docs\u002Fapi_reference.md) |\n|:---:|:---:|:---:|:---:|\n| Quick start guide | System design details | Evaluation methodology | Future API docs |\n\n### Performance & Analysis\n\n| [Performance](performance.md) | [Case Studies](results\u002Fcase_studies\u002F) | [FAQ](docs\u002Ffaq.md) | [Limitations](docs\u002Flimitations.md) |\n|:---:|:---:|:---:|:---:|\n| Detailed metrics | Real-world examples | Common questions | Known constraints |\n\n### Results & Rankings\n\n| [Leaderboard](LEADERBOARD.md) | [Evaluation Results](evaluation\u002Flite\u002F) | [Analysis](results\u002Fanalysis\u002F) | [Benchmarks](benchmarks\u002F) |\n|:---:|:---:|:---:|:---:|\n| Performance rankings | SWE-bench Lite | Statistical analysis | Full test suite |\n\n\u003C\u002Fdiv>\n\n---\n\n## 🤝 Contributing\n\nWe welcome contributions to the evaluation framework and benchmarks!\n\n### How to Contribute\n\n```bash\n# 1. Fork and clone the repository\ngit clone https:\u002F\u002Fgithub.com\u002F[your-username]\u002Fchronos-research.git\ncd chronos-research\n\n# 2. Create a feature branch\ngit checkout -b feature\u002Fyour-contribution\n\n# 3. Make your changes\n# - Add new benchmarks\n# - Improve documentation\n# - Fix bugs in evaluation scripts\n\n# 4. Run tests\npython -m pytest tests\u002F\n\n# 5. Commit your changes\ngit add .\ngit commit -m \"feat: description of your changes\"\n\n# 6. Push and create PR\ngit push origin feature\u002Fyour-contribution\n```\n\n### Contribution Guidelines\n\n- Add tests for new features\n- Follow existing code style\n- Update documentation\n- Add benchmarks for new capabilities\n- Include performance analysis\n\nSee **[CONTRIBUTING.md](CONTRIBUTING.md)** for detailed guidelines.\n\n---\n\n## 📝 Citation\n\nIf you use this research in your work, please cite:\n\n```bibtex\n@article{khan2025chronos,\n  title={Kodezi Chronos: A Debugging-First Language Model for\n         Repository-Scale Code Understanding},\n  author={Khan, Ishraq and Chowdary, Assad and\n          Haseeb, Sharoz and Patel, Urvish and Zaii, Yousuf},\n  journal={arXiv preprint arXiv:2507.12482},\n  year={2025},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482},\n  note={State-of-the-art: 80.33\\% on SWE-bench Lite}\n}\n```\n\n---\n\n## 🏢 About Kodezi\n\n\u003Cdiv align=\"center\">\n\n[Kodezi](https:\u002F\u002Fkodezi.com) is building the future of autonomous software maintenance. Our mission is to empower developers with AI that truly understands code at scale.\n\n### Our Products\n\n| Product | Description | Availability |\n|:--------|:------------|:------------:|\n| **[Kodezi Code Web-IDE](https:\u002F\u002Fkodezi.com\u002Fcode)** | AI-powered web-based code editor with real-time debugging | Available Now |\n| **[Kodezi Create](https:\u002F\u002Fkodezi.com\u002Fcreate)** | Generate full applications from natural language | Available Now |\n| **[Kodezi CLI](https:\u002F\u002Fkodezi.com\u002Fcli)** | Command-line interface for automated code analysis and fixes | Available Now |\n| **[Kodezi OS](https:\u002F\u002Fkodezi.com\u002Fos)** | Autonomous software maintenance platform with Chronos integration | Q4 2025 (Beta) |\n| **Chronos** | Debugging-first language model (80.33% SWE-bench Lite) | Via Kodezi OS |\n| **Enterprise API** | API access for teams and enterprise deployment | Q1 2026 |\n\n\u003C\u002Fdiv>\n\n---\n\n## 📧 Contact & Community\n\n\u003Cdiv align=\"center\">\n\n### Connect With Us\n\n[![Website](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebsite-kodezi.com-blue?style=for-the-badge)](https:\u002F\u002Fkodezi.com)\n[![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv:2507.12482-red?style=for-the-badge)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-@Kodezi-1DA1F2?style=for-the-badge&logo=twitter)](https:\u002F\u002Ftwitter.com\u002Fkodezi)\n[![LinkedIn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLinkedIn-Kodezi-0077B5?style=for-the-badge&logo=linkedin)](https:\u002F\u002Flinkedin.com\u002Fcompany\u002Fkodezi)\n[![Email](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FEmail-research@kodezi.com-D14836?style=for-the-badge&logo=gmail)](mailto:research@kodezi.com)\n\n### For Enterprise\n\n**Sales**: [sales@kodezi.com](mailto:sales@kodezi.com)\n**Support**: [support@kodezi.com](mailto:support@kodezi.com)\n**Partnerships**: [partnerships@kodezi.com](mailto:partnerships@kodezi.com)\n\n\u003C\u002Fdiv>\n\n---\n\n## 📄 License\n\n© Kodezi Inc. All rights reserved.\nUse is subject to Kodezi's Terms of Service.\n\n### MIT License\n\n**Copyright (c) 2025 Kodezi Inc.**\n\nPermission is hereby granted, free of charge, to any person obtaining a copy\nof this software and associated documentation files (the \"Software\"), to deal\nin the Software without restriction, including without limitation the rights\nto use, copy, modify, merge, publish, distribute, sublicense, and\u002For sell\ncopies of the Software, and to permit persons to whom the Software is\nfurnished to do so, subject to the following conditions:\n\nThe above copyright notice and this permission notice shall be included in all\ncopies or substantial portions of the Software.\n\nTHE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\nIMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\nFITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE\nAUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\nLIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,\nOUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE\nSOFTWARE.\n\n### ⚠️ Important Notice\n\n**This license applies ONLY to the research paper, benchmarks, evaluation frameworks, and documentation contained in this repository.**\n\nThe **Kodezi Chronos model itself is proprietary technology** owned by Kodezi Inc. and is **NOT included** in this repository or covered by this license.\n\n### 📦 What's Included Under MIT License\n\n- **Research Paper**: arXiv publication and markdown versions\n- **Benchmark Suite**: MRR and evaluation frameworks\n- **Evaluation Results**: SWE-bench Lite results and analysis\n- **Documentation**: Architecture docs, guides, and references\n- **Reference Implementations**: Algorithm reference code (NOT the actual model)\n\n### 🔒 Proprietary Components\n\n- **Chronos Model**: NOT included in this repository\n- **Kodezi OS Integration**: Proprietary platform components\n- **Production APIs**: Enterprise deployment infrastructure\n\n### 🚀 Chronos Model Access\n\nThe Chronos model is available exclusively through Kodezi OS:\n- **Q4 2025**: Enterprise beta access\n- **Q1 2026**: General availability\n- **Learn more**: [chronos.so](https:\u002F\u002Fchronos.so)\n- **Early access**: [kodezi.com\u002Fos](https:\u002F\u002Fkodezi.com\u002Fos)\n\n---\n\n\u003Cdiv align=\"center\">\n\n### Research & Resources\n\n**[Join Waitlist →](https:\u002F\u002Fchronos.so)** | **[Read Paper →](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482)** | **[View Results →](LEADERBOARD.md)** | **[Learn More →](https:\u002F\u002Fkodezi.com)**\n\n---\n\n\u003Csub>Last Updated: November 2025 | Version: 2.0.0\u003C\u002Fsub>\n\n\u003C\u002Fdiv>\n","\u003Cdiv align=\"center\">\n\n# Kodezi Chronos\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKodezi_Chronos_readme_56b44192d46c.png\" alt=\"Introducing Kodezi Chronos-1\" width=\"100%\">\n\u003C\u002Fp>\n\n## 全球首个以调试为核心的代码理解语言模型，专为仓库级代码分析而设计\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2507.12482-b31b1b.svg?style=for-the-badge)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482)\n[![模型访问](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModel-Chronos%20Waitlist-4B7BFF.svg?style=for-the-badge)](https:\u002F\u002Fchronos.so)\n[![研究](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FResearch-Paper-orange.svg?style=for-the-badge)](paper\u002Fchronos-research.md)\n[![基准测试](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBenchmark-SWE--bench%20Lite-purple.svg?style=for-the-badge)](evaluation\u002Flite\u002F)\n[![排行榜](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLeaderboard-Results-gold.svg?style=for-the-badge)](LEADERBOARD.md)\n\n### 性能徽章\n\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FSWE--bench%20Lite-80.33%25-gold?style=for-the-badge\" alt=\"SWE-bench Lite\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDebug%20Success-67.3%25-brightgreen?style=for-the-badge\" alt=\"调试成功率\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuman%20Preference-89%25-blue?style=for-the-badge\" alt=\"人类偏好\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FImprovement-4--5x-yellow?style=for-the-badge\" alt=\"较GPT-4.1的提升\">\n\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTime%20Reduction-40%25-orange?style=for-the-badge\" alt=\"时间缩短\">\n\n### 核心成就\n\n**SWE-bench Lite 80.33%** • **自主调试成功率67.3%** • **人类偏好89%** • **时间缩短40%**\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"results\u002Ffigures\u002Farchitecture_overview.svg\" alt=\"Chronos架构\" width=\"800\">\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n---\n\n## 目录\n\n- [最先进成果](#state-of-the-art-results)\n  - [SWE-bench Lite表现](#swe-bench-lite-performance)\n  - [调试差距](#the-debugging-gap)\n  - [仓库特定结果](#repository-specific-results)\n- [MRR基准测试结果](#mrr-benchmark-results)\n- [关键创新](#key-innovations)\n- [架构](#architecture)\n- [基准测试与评估](#benchmarks--evaluation)\n- [研究论文](#research-paper)\n- [快速入门](#getting-started)\n- [仓库结构](#repository-structure)\n- [研究亮点](#research-highlights)\n- [详细性能](#detailed-performance)\n- [文档](#documentation)\n- [贡献](#contributing)\n- [引用](#citation)\n- [许可证](#license)\n\n---\n\n## 模型访问说明\n\n\u003Cdiv align=\"center\">\n\n**Chronos为专有模型，仅通过Kodezi OS开放使用**\n\n| 时间线 | 访问方式 | 详情 |\n|:--------:|:------:|:-------:|\n| **2025年第四季度** | 测试版 | 有限的企业级访问 |\n| **2026年第一季度** | 正式发布 | 通过[Kodezi OS](https:\u002F\u002Fkodezi.com\u002Fos) |\n\n**本仓库仅包含研究论文、基准测试及评估结果。**\n\n**[抢先体验](https:\u002F\u002Fchronos.so)** • **[阅读论文](paper\u002Fchronos-research.md)** • **[查看排行榜](LEADERBOARD.md)** • **[文档](docs\u002F)**\n\n\u003C\u002Fdiv>\n\n---\n\n## 🏅 最先进成果\n\n### 📈 SWE-bench Lite表现\n\n\u003Cdiv align=\"center\">\n\n**行业标准基准测试结果**\n\n| 排名 | 系统 | 成功率 | 实例数 | 差距 | 年份 |\n|:----:|:-------|:------------:|:---------:|:----:|:----:|\n| **1** | **Kodezi Chronos** | **80.33%** | **241\u002F300** | **+20.0pp** | **2025** |\n| 2 | ExpeRepair-v1.0 + Claude 4.5 Sonnet | 60.33% | 181\u002F300 | - | 2025 |\n| 3 | Claude 4.5 Sonnet（仅Bash） | ~14% | ~42\u002F300 | -66.3pp | 2025 |\n| 4 | Claude 4.1 Opus（仅Bash） | 14.2% | 43\u002F300 | -66.1pp | 2025 |\n| 5 | GPT-4.1 | 13.8% | 41\u002F300 | -66.5pp | 2025 |\n| 6 | Gemini 2.0 Pro | 13.4% | 40\u002F300 | -67.0pp | 2025 |\n\n**比第二名高出20个百分点的绝对优势**\n\n\u003C\u002Fdiv>\n\n### 调试差距\n\n\u003Cdiv align=\"center\">\n\n**通用模型：代码生成与调试性能对比**\n\n| 模型 | SWE-bench Full\u003Cbr\u002F>(代码生成) | SWE-bench Lite\u003Cbr\u002F>(调试) | 性能差距 |\n|:------|:-----------------------------:|:------------------------------:|:---------------:|\n| Claude 4.5 Sonnet | 72.7% | ~14% | **-58.7pp** |\n| Claude 4.1 Opus | 72.5% | 14.2% | **-58.3pp** |\n| Claude 4.1 Opus（Bash） | 67.60% | 14.2% | **-53.4pp** |\n| GPT-4.1 | 54.6% | 13.8% | **-40.8pp** |\n| **Kodezi Chronos** | **N\u002FA** | **80.33%** | **专用** |\n\n**核心发现**：即使在代码生成任务中达到70%以上的模型，在调试任务中的表现也会降至15%以下，显示出超过50个百分点的差距。**Chronos专为调试而设计，成功达到80.33%**——这表明调试需要专门的架构，而不仅仅是更大的上下文窗口。\n\n\u003C\u002Fdiv>\n\n### 仓库特定结果\n\n\u003Cdiv align=\"center\">\n\n**SWE-bench Lite：领域特定性能**\n\n| 仓库 | 领域 | Chronos成功率 | 实例数 | 意义 |\n|:-----------|:-------|:---------------:|:---------:|:-------------|\n| **sympy** | 符号数学 | **96.1%** | 51\u002F53 | 几乎完美的数学推理能力 |\n| **sphinx** | 文档系统 | **93.8%** | 60\u002F64 | 极其出色的文档生成错误修复 |\n| **django** | Web框架 | **90.4%** | 104\u002F115 | 复杂框架的调试能力 |\n| **总体** | 混合领域 | **80.33%** | **241\u002F300** | **最先进水平** |\n\n\u003C\u002Fdiv>\n\n---\n\n## 🔬 MRR基准测试结果\n\n\u003Cdiv align=\"center\">\n\n### 📊 整体性能（5,000个多重随机检索场景——现有500个样本数据集）\n\n| 指标 | **Chronos** | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | 提升幅度 |\n|:-------|:-----------:|:-------:|:---------------:|:--------------:|:-----------:|\n| **调试成功率** | **67.3% ± 2.1%** | 13.8% | 14.2% | 15.0% | **4.5倍** |\n| **根本原因定位准确率** | **89%*** | 12.3% ± 1.8% | 11.7% ± 2.0% | 15.8% ± 1.5% | **5.6–7.6倍** |\n| **检索精确度** | **92%*** | 68% ± 2.3% | 67% ± 2.4% | 74% ± 1.8% | **1.2–1.4倍** |\n| **检索召回率** | **85%** | 32% ± 2.1% | 34% ± 2.0% | 42% ± 1.9% | **2.0–2.7倍** |\n| **平均修复次数** | **7.8** | 1–2 | 1–2 | 1–2 | 更彻底 |\n| **时间缩短** | **40%** | - | - | - | 快40% |\n\n***p \u003C 0.001，与最佳基线相比（双尾t检验，n=5,000）** • 样本数据集（n=500）现已提供，完整基准测试将于2026年第一季度发布*\n\n\u003C\u002Fdiv>\n\n### 🐛 按错误类别划分的性能\n\n\u003Cdiv align=\"center\">\n\n| 错误类别 | Chronos | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | Chronos优势 |\n|:-------------|:-------:|:-------:|:---------------:|:--------------:|:-----------------:|\n| **语法错误** | 94.2% | 82.3% | 79.8% | 85.1% | 1.1倍 |\n| **逻辑错误** | 72.8% | 12.1% | 10.7% | 15.3% | **6.0倍** |\n| **并发问题** | 58.3% | 3.2% | 2.8% | 4.1% | **18.2倍** |\n| **内存问题** | 61.7% | 5.7% | 4.3% | 6.9% | **10.8倍** |\n| **API误用** | 79.1% | 18.9% | 16.2% | 22.4% | **4.2倍** |\n| **性能问题** | 65.4% | 7.4% | 6.1% | 9.8% | **8.8倍** |\n\n\u003C\u002Fdiv>\n\n### 📏 仓库规模性能\n\n\u003Cdiv align=\"center\">\n\n| 仓库大小 | Chronos 成功率 | 最佳基线 | 基线模型 | 提升幅度 |\n|:---------------:|:---------------:|:-------------:|:--------------:|:-----------:|\n| **\u003C10K LOC** | 71.2% ± 2.8% | 21.3% ± 3.5% | Gemini 2.0 Pro | **3.3x** |\n| **10K-100K LOC** | 68.9% ± 2.5% | 14.7% ± 3.2% | Gemini 2.0 Pro | **4.7x** |\n| **100K-1M LOC** | 64.3% ± 2.9% | 8.9% ± 2.8% | Gemini 2.0 Pro | **7.2x** |\n| **>1M LOC** | 59.7% ± 3.1% | 3.8% ± 1.9% | Gemini 2.0 Pro | **15.7x** |\n\n\u003C\u002Fdiv>\n\n---\n\n## 💡 关键创新\n\n### 1. **调试优先架构**\n- 基于 **4250万条真实调试示例** 训练（而非代码补全）\n- 专为 **根因分析** 和 **多文件修复** 设计\n- **89% 的根因准确率**，而最佳基线仅为15.8%\n- **7层架构** 针对调试工作流进行优化\n\n### 2. **持久化调试记忆（PDM）**\n- 基于 **1500万+ 次调试会话** 的仓库特定学习\n- 成功率随时间从 **35% 提升至 65%**\n- 跨会话模式识别与学习\n- 类似问题的缓存命中率达到 **87%**\n- 能够跨项目生命周期学习时间序列模式\n\n### 3. **自适应图引导检索（AGR）**\n- 复杂度为 **O(k log d)**，支持动态 k-hop 扩展\n- 在多文件上下文中达到 **92% 的精确率和85% 的召回率**\n- 可智能处理 **无限规模的代码库**\n- 基于置信度终止的多跳遍历\n- 比传统检索方法快 **3.8倍**\n\n### 4. **输出优化设计**\n- 针对 **约3000个输出标记**（修复、测试、文档）进行优化\n- 输出熵密度为 **47.2%**，而补全模型仅为12.8%\n- 专为 **复杂补丁生成** 设计\n- 具备模板感知的生成能力以保证一致性\n- 基于置信度的输出策略\n\n### 5. **自主调试循环**\n- 平均需要 **7.8次迭代** 才能成功修复\n- 包含 **提出 → 测试 → 分析 → 优化** 循环\n- **67.3% 的完全自主成功率**\n- 使用执行沙盒并提供实时反馈\n- 通过迭代优化直至验证通过\n\n---\n\n## 🏗️ 架构\n\n### 七层系统设计\n\n```\n┌─────────────────────────────────────────────┐\n│   7. 可解释性层                   │  人类可读的根因分析\n├─────────────────────────────────────────────┤\n│   6. 执行沙盒                      │  隔离的测试验证环境\n├─────────────────────────────────────────────┤\n│   5. 持久化调试记忆（PDM）          │  仓库特定的学习\n├─────────────────────────────────────────────┤\n│   4. 协调控制器                    │  自主调试循环管理\n├─────────────────────────────────────────────┤\n│   3. 调试优化的 LLM 核心           │  4250万条调试示例\n├─────────────────────────────────────────────┤\n│   2. 自适应检索引擎（AGR）          │  动态 k-hop 图遍历\n├─────────────────────────────────────────────┤\n│   1. 多源输入层                     │  代码、日志、追踪、测试、文档\n└─────────────────────────────────────────────┘\n```\n\n### 层级说明\n\n1. **多源输入层**：同时处理代码、日志、追踪、测试和文档。\n2. **自适应检索引擎（AGR）**：动态 k-hop 图遍历，精确率达92%。\n3. **调试优化的 LLM 核心**：基于4250万条调试示例训练，而非代码补全。\n4. **协调控制器**：负责管理自主调试循环。\n5. **持久化调试记忆（PDM）**：仓库特定的学习机制，使成功率从35%提升至65%。\n6. **执行沙盒**：隔离的测试验证环境。\n7. **可解释性层**：提供人类可读的根因分析。\n\n**[查看详细架构文档 →](architecture\u002FREADME.md)**\n\n---\n\n## 🧪 基准测试与评估\n\n### 📋 可用基准测试\n\n| 基准测试 | 类型 | 实例数 | 目的 | 结果 |\n|:----------|:-----|:---------:|:--------|:-------:|\n| **SWE-bench Lite** | 行业标准 | 300 | 真实世界调试 | [**80.33%**](evaluation\u002Flite\u002F) |\n| **MRR 基准测试** | 自定义 | 5,000（500样本） | 多随机检索 | [**67.3%**](benchmarks\u002Fmulti-random-retrieval\u002F) |\n| **仓库规模测试** | 自定义 | 各种规模 | 大型代码库测试 | [**59.7-71.2%**](benchmarks\u002F) |\n| **Bug 类别测试** | 自定义 | 4,400+ | Bug 类型专项测试 | [**58.3-94.2%**](benchmarks\u002F) |\n\n### 🏆 SWE-bench Lite 评估结果\n\n**[查看完整的 SWE-bench Lite 提交 →](evaluation\u002Flite\u002F20251111_kodezi_chronos_1\u002F)**\n\n评估目录包含：\n- **README.md**：详细的提交结果和方法论\n- **metadata.yaml**：提交元数据和配置\n- **all_preds.jsonl**：所有300个实例的预测结果\n- **Kodezi Chronos-1.hybrid_eval.json**：完整的评估指标\n- **logs\u002F**：所有实例的执行日志\n- **results\u002F**：每个实例的结果和分析\n- **trajs\u002F**：调试轨迹和修复尝试\n\n### 🎯 多随机检索（MRR）基准测试\n\n**MRR 模拟了真实的调试复杂性：**\n- **空间分布**：Bug 上下文分散在10-50个文件中\n- **时间分散**：相关信息来自3-12个月的历史\n- **混淆程度**：低\u002F中\u002F高代码复杂度\n- **5,000个场景**：跨语言的全面评估（现提供500个样本数据集，完整基准将于2026年第一季度发布）\n\n| 指标 | Chronos | GPT-4.1+RAG | Claude 4.1+VectorDB | Gemini 2.0+Graph |\n|:-------|:-------:|:-----------:|:-------------------:|:----------------:|\n| **Precision@10** | 92% | 42.3% | 48.1% | 51.7% |\n| **Recall@10** | 85% | 31.7% | 36.2% | 41.8% |\n| **修复准确率** | 67.3% | 8.9% | 11.2% | 14.6% |\n| **上下文效率** | 0.71 | 0.23 | 0.28 | 0.31 |\n\n**[查看完整的基准测试文档 →](benchmarks\u002FREADME.md)**\n\n---\n\n## 📚 研究论文\n\n### 已发表的研究\n\n**标题**：Kodezi Chronos：面向仓库规模代码理解的调试优先语言模型\n\n**作者**：Ishraq Khan、Assad Chowdary、Sharoz Haseeb、Urvish Patel、Yousuf Zaii\n\n**机构**：Kodezi Inc.\n\n**出版物**：arXiv:2507.12482（2025年）\n\n### 论文资源\n\n| 资源 | 描述 | 链接 |\n|:---------|:------------|:----:|\n| **arXiv 论文** | 官方出版物 | [查看](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482) |\n| **完整论文（Markdown）** | 以 Markdown 格式的完整论文 | [查看](paper\u002Fchronos-research.md) |\n| **2025 更新** | 最新研究发现 | [查看](paper\u002Fchronos-research-2025.md) |\n| **摘要** | 执行摘要 | [查看](paper\u002Fabstract.md) |\n| **方法学** | 研究方法 | [查看](paper\u002Fmethodology.md) |\n| **相关工作** | 文献综述 | [查看](paper\u002Frelated_work.md) |\n| **未来工作** | 研究方向 | [查看](paper\u002Ffuture_work.md) |\n\n### 主要贡献\n\n1. **调试专用架构**：首个专门针对调试工作流训练的语言模型（4250万条示例）\n2. **自适应图引导检索（AGR）**：新颖的多跳检索方法，复杂度为O(k log d)\n3. **持久化调试记忆（PDM）**：跨会话学习系统，用于识别仓库特定模式\n4. **全面评估**：涵盖多个基准测试的12,500个真实世界缺陷\n5. **最先进结果**：在SWE-bench Lite上达到80.33%的准确率（领先第二名20个百分点）\n\n---\n\n## 🚀 快速入门\n\n### 前置条件\n\n```bash\n# 需要 Python 3.8 或更高版本\npython --version\n\n# 需要 Git 进行克隆\ngit --version\n```\n\n### 快速开始：运行基准测试\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fkodezi\u002Fchronos-research.git\ncd chronos-research\n\n# 安装依赖\npip install -r requirements.txt\n\n# 在您的模型上运行 MRR 基准测试\npython benchmarks\u002Frun_mrr_benchmark_2025.py \\\n  --model your_model \\\n  --scenarios 100  # 先从子集开始测试\n\n# 运行完整样本评估（有500个场景可用）\npython benchmarks\u002Frun_mrr_benchmark_2025.py \\\n  --model your_model \\\n  --scenarios 500\n\n# 分析结果\npython benchmarks\u002Fanalyze_results.py \\\n  --results_dir results\u002Fyour_model\n```\n\n### 模型访问\n\n**Chronos 模型不包含在此仓库中**\n\n本仓库包含：\n- 研究论文及文档\n- 基准测试套件与评估框架\n- 性能结果与分析\n- Chronos 模型（专有，未包含）\n\n**若需访问 Chronos 模型**：\n\n| 访问方式 | 可用性 | 详情 |\n|:--------------|:-------------|:--------|\n| **Kodezi OS** | 2025年第四季度（Beta） | 企业版 Beta 访问 |\n| **Kodezi OS** | 2026年第一季度（GA） | 正式发布 |\n| **API 访问** | 2026年第一季度 | API 接口 |\n\n**[加入候补名单 →](https:\u002F\u002Fchronos.so)** | **[联系销售 →](mailto:sales@kodezi.com)**\n\n---\n\n## 📁 仓库结构\n\n```\nchronos-research\u002F\n│\n├── benchmarks\u002F                    # 基准测试套件\n│   ├── multi-random-retrieval\u002F      # 5,000场景MRR基准测试（有500个样本可用）\n│   ├── comprehensive_benchmarks\u002F    # 扩展测试场景\n│   ├── debug_categories\u002F            # 缺陷类型分类（6种）\n│   ├── evaluation_metrics\u002F          # 自定义指标实现\n│   ├── run_mrr_benchmark_2025.py    # 主基准测试运行脚本\n│   └── analyze_results.py           # 结果分析工具\n│\n├── evaluation\u002F                    # 评估结果\n│   └── lite\u002F                        # SWE-bench Lite结果（80.33%）\n│       └── 20251111_kodezi_chronos_1\u002F  # 官方提交\n│           ├── all_preds.jsonl      # 所有300个预测\n│           ├── logs\u002F                # 300多个执行日志\n│           ├── results\u002F             # 每个实例的结果\n│           └── trajs\u002F               # 调试轨迹\n│\n├── paper\u002F                         # 研究论文\n│   ├── chronos-research.md          # 完整论文（arXiv:2507.12482）\n│   ├── chronos-research-2025.md     # 2025年更新\n│   ├── abstract.md                  # 执行摘要\n│   ├── methodology.md               # 研究方法论\n│   └── figures\u002F                     # 可视化图表\n│\n├── architecture\u002F                  # 架构文档\n│   ├── README.md                    # 架构概述\n│   ├── AGR_ALGORITHM.md             # 自适应图引导检索\n│   ├── memory_engine.md             # 持久化调试记忆（PDM）\n│   └── debugging_loop.md            # 自主循环设计\n│\n├── results\u002F                       # 性能数据\n│   ├── figures\u002F                     # 15+ SVG可视化图表\n│   ├── ablation_studies\u002F            # 组件影响分析\n│   ├── case_studies\u002F                # 真实世界调试案例\n│   └── raw_data\u002F                    # 基准测试输出（CSV\u002FJSON）\n│\n├── reference_implementations\u002F     # 算法参考代码\n│   ├── algorithms\u002F                  # AGR、PDM参考实现\n│   └── NOTICE.md                    # 专有声明\n│\n├── docs\u002F                          # 文档\n│   ├── getting_started.md           # 快速入门指南\n│   ├── API_DOCUMENTATION.md         # API 参考文档（2026年第一季度）\n│   ├── faq.md                       # 常见问题解答\n│   └── limitations.md               # 已知限制\n│\n├── LEADERBOARD.md                 # 性能排名\n├── CITATION.cff                   # 引用信息（BibTeX）\n├── CONTRIBUTING.md                # 贡献指南\n├── LICENSE                        # MIT 许可证 + 专有声明\n└── requirements.txt               # Python 依赖项\n```\n\n**关键目录：**\n- **benchmarks\u002F**：5,000场景MRR基准测试（有500个样本可用），支持多语言，自动化评估\n- **evaluation\u002F**：SWE-bench Lite结果（80.33%，241\u002F300个实例）\n- **paper\u002F**：完整的研究论文及文档（arXiv:2507.12482）\n- **architecture\u002F**：7层系统设计，AGR\u002FPDM文档\n- **results\u002F**：12,500+个缺陷修复，可视化图表，统计分析\n- **reference_implementations\u002F**：算法参考代码（非实际模型）\n---\n\n## 🔬 研究亮点\n\n### 训练数据构成\n\n| 数据来源 | 数量 | 描述 |\n|:------------|:------:|:------------|\n| **调试示例** | 42.5M | 完整的调试工作流 |\n| **GitHub Issues** | 15M | 已验证修复的问题 |\n| **堆栈跟踪** | 8M | 包含解决方案的错误堆栈 |\n| **CI\u002FCD 日志** | 3M | 构建和部署调试日志 |\n| **生产环境会话** | 2.5M | 真实生产环境中的缺陷 |\n| **精选基准测试** | 14M | Defects4J、SWE-bench、BugsInPy |\n\n**总训练数据**：42.5M条调试专用示例（非代码补全）\n\n### AGR 按深度的性能\n\n| 检索策略 | 成功率 | 平均时间（秒） | 使用场景 |\n|:-------------------|:------------:|:------------:|:---------|\n| k=1 跳 | 58.2% | 12.3 | 简单缺陷 |\n| k=2 跳 | 72.4% | 18.7 | 多文件缺陷 |\n| k=3 跳 | 83.1% | 24.5 | 复杂依赖关系 |\n| k=自适应 | **87.1%** | 23.4 | **最优策略** |\n| 平坦检索 | 23.4% | 45.2 | 基线对比 |\n\n### PDM 学习曲线\n\n| 会话数 | 成功率 | 令牌效率 | 内存大小 |\n|:--------:|:------------:|:----------------:|:-----------:|\n| 初始 | 35% | 1.0x | 0 GB |\n| 100次会话 | 52% | 3.2x | 2.1 GB |\n| 500次会话 | **65%** | **7.3x** | 8.7 GB |\n| 1000+次会话 | 67% | 8.1x | 15.2 GB |\n\n**核心见解**：PDM通过跨会话学习实现持续改进\n\n---\n\n## 📊 详细性能\n\n### 语言特定性能\n\n\u003Cdiv align=\"center\">\n\n| 语言 | Chronos | GPT-4.1 | Claude 4.1 Opus | Gemini 2.0 Pro | 测试用例 |\n|:--------:|:-------:|:-------:|:---------------:|:--------------:|:----------:|\n| **Python** | 68.7% ± 2.1% | 11.2% ± 2.8% | 10.3% ± 2.9% | 14.6% ± 2.6% | 1,823 个 bug |\n| **JavaScript** | 64.2% ± 2.3% | 7.8% ± 2.5% | 6.9% ± 2.6% | 10.1% ± 2.4% | 1,547 个 bug |\n| **Java** | 63.9% ± 2.2% | 6.3% ± 2.2% | 5.7% ± 2.3% | 9.2% ± 2.1% | 1,630 个 bug |\n| **Go** | 66.8% ± 2.4% | 9.1% ± 2.6% | 8.4% ± 2.7% | 12.3% ± 2.5% | 892 个 bug |\n| **C++** | 61.2% ± 2.6% | 5.2% ± 2.1% | 4.8% ± 2.2% | 7.9% ± 2.0% | 1,108 个 bug |\n| **Rust** | 59.8% ± 2.7% | 4.1% ± 1.9% | 3.7% ± 2.0% | 6.3% ± 1.8% | 687 个 bug |\n\n\u003C\u002Fdiv>\n\n### 调试循环效率\n\n\u003Cdiv align=\"center\">\n\n| 迭代次数 | Chronos 成功率 | GPT-4.1 成功率 | 节省时间 | 累计 |\n|:---------:|:---------------:|:---------------:|:----------:|:----------:|\n| 第一次尝试 | 42.3% | 3.2% | -87% | 42.3% |\n| 第二次尝试 | +16.4% (58.7%) | +1.9% (5.1%) | -83% | 58.7% |\n| 第三次尝试 | +6.6% (65.3%) | +1.7% (6.8%) | -79% | 65.3% |\n| 第四次及以后尝试 | +2.0% (67.3%) | +1.7% (8.5%) | -74% | 67.3% |\n\n**注**: Chronos 的迭代更为彻底（平均 7.8 次），而竞争对手则为平均 1–2 次。\n\n\u003C\u002Fdiv>\n\n### 上下文窗口效率\n\n\u003Cdiv align=\"center\">\n\n| 模型 | 上下文大小 | 调试成功率 | 每个 Bug 的成本 | 备注 |\n|:------|:------------:|:-------------:|:------------:|:-----|\n| GPT-4.1 (32K) | 32K tokens | 7.2% | $5.53 | 更多上下文并不意味着更好的调试效果 |\n| Claude 4.1 (200K) | 200K tokens | 9.8% | $4.89 | 规模扩大时注意力会分散 |\n| Gemini 2.0 Pro (1M) | 1M tokens | 14.3% | $4.25 | 最佳传统模型 |\n| **Chronos** | **无限制*** | **71.2%** | **$1.36** | *通过智能检索 |\n\n\u003C\u002Fdiv>\n\n### 消融实验\n\n\u003Cdiv align=\"center\">\n\n| 配置 | 调试成功率 | 精确率 | 召回率 | 影响 |\n|:--------------|:-------------:|:---------:|:------:|:-------|\n| **完整 Chronos** | **67.3%** | **92%** | **85%** | 完整系统 |\n| 不含 AGR（扁平检索） | 28.7% | 42% | 31% | **-56%**（关键影响） |\n| 不含 PDM（静态内存） | 40.1% | 67% | 58% | **-39%**（重大影响） |\n| 不含编排循环 | 42.5% | 71% | 62% | **-35%**（重大影响） |\n| 不含多代码关联 | 35.8% | 54% | 47% | **-45%**（关键影响） |\n| 不含执行沙盒 | 48.2% | 78% | 69% | **-27%**（显著影响） |\n\n\u003C\u002Fdiv>\n\n---\n\n## 📖 文档\n\n\u003Cdiv align=\"center\">\n\n### 核心文档\n\n| [入门指南](docs\u002Fgetting_started.md) | [架构](architecture\u002FREADME.md) | [基准测试](benchmarks\u002FREADME.md) | [API 参考](docs\u002Fapi_reference.md) |\n|:---:|:---:|:---:|:---:|\n| 快速入门指南 | 系统设计细节 | 评估方法论 | 未来 API 文档 |\n\n### 性能与分析\n\n| [性能](performance.md) | [案例研究](results\u002Fcase_studies\u002F) | [常见问题解答](docs\u002Ffaq.md) | [局限性](docs\u002Flimitations.md) |\n|:---:|:---:|:---:|:---:|\n| 详细指标 | 实际案例 | 常见问题 | 已知限制 |\n\n### 结果与排名\n\n| [排行榜](LEADERBOARD.md) | [评估结果](evaluation\u002Flite\u002F) | [分析](results\u002Fanalysis\u002F) | [基准测试](benchmarks\u002F) |\n|:---:|:---:|:---:|:---:|\n| 性能排名 | SWE-bench Lite | 统计分析 | 全套测试集 |\n\n\u003C\u002Fdiv>\n\n---\n\n## 🤝 贡献\n\n我们欢迎对评估框架和基准测试的贡献！\n\n### 如何贡献\n\n```bash\n# 1. 分支并克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002F[your-username]\u002Fchronos-research.git\ncd chronos-research\n\n# 2. 创建功能分支\ngit checkout -b feature\u002Fyour-contribution\n\n# 3. 进行更改\n# - 添加新的基准测试\n# - 改进文档\n# - 修复评估脚本中的 bug\n\n# 4. 运行测试\npython -m pytest tests\u002F\n\n# 5. 提交更改\ngit add .\ngit commit -m \"feat: description of your changes\"\n\n# 6. 推送并创建 PR\ngit push origin feature\u002Fyour-contribution\n```\n\n### 贡献指南\n\n- 为新功能添加测试\n- 遵循现有代码风格\n- 更新文档\n- 为新功能添加基准测试\n- 包括性能分析\n\n详细指南请参阅 **[CONTRIBUTING.md](CONTRIBUTING.md)**。\n\n---\n\n## 📝 引用\n\n如果您在工作中使用了本研究，请引用：\n\n```bibtex\n@article{khan2025chronos,\n  title={Kodezi Chronos: A Debugging-First Language Model for\n         Repository-Scale Code Understanding},\n  author={Khan, Ishraq and Chowdary, Assad and\n          Haseeb, Sharoz and Patel, Urvish and Zaii, Yousuf},\n  journal={arXiv preprint arXiv:2507.12482},\n  year={2025},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482},\n  note={State-of-the-art: 80.33\\% on SWE-bench Lite}\n}\n```\n\n---\n\n## 🏢 关于 Kodezi\n\n\u003Cdiv align=\"center\">\n\n[Kodezi](https:\u002F\u002Fkodezi.com) 正在构建自主软件维护的未来。我们的使命是通过真正理解大规模代码的 AI，赋能开发者。\n\n### 我们的产品\n\n| 产品 | 描述 | 可用性 |\n|:--------|:------------|:------------:|\n| **[Kodezi Code Web-IDE](https:\u002F\u002Fkodezi.com\u002Fcode)** | 基于 AI 的网页版代码编辑器，具备实时调试功能 | 现已可用 |\n| **[Kodezi Create](https:\u002F\u002Fkodezi.com\u002Fcreate)** | 从自然语言生成完整应用 | 现已可用 |\n| **[Kodezi CLI](https:\u002F\u002Fkodezi.com\u002Fcli)** | 用于自动化代码分析和修复的命令行界面 | 现已可用 |\n| **[Kodezi OS](https:\u002F\u002Fkodezi.com\u002Fos)** | 自主软件维护平台，集成 Chronos | 2025 年第四季度（Beta 版） |\n| **Chronos** | 调试优先的语言模型（SWE-bench Lite 80.33%） | 通过 Kodezi OS 使用 |\n| **企业 API** | 团队和企业部署的 API 访问 | 2026 年第一季度 |\n\n\u003C\u002Fdiv>\n\n---\n\n## 📧 联系方式与社区\n\n\u003Cdiv align=\"center\">\n\n### 与我们联系\n\n[![网站](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebsite-kodezi.com-blue?style=for-the-badge)](https:\u002F\u002Fkodezi.com)\n[![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv:2507.12482-red?style=for-the-badge)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-@Kodezi-1DA1F2?style=for-the-badge&logo=twitter)](https:\u002F\u002Ftwitter.com\u002Fkodezi)\n[![LinkedIn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLinkedIn-Kodezi-0077B5?style=for-the-badge&logo=linkedin)](https:\u002F\u002Flinkedin.com\u002Fcompany\u002Fkodezi)\n[![电子邮件](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FEmail-research@kodezi.com-D14836?style=for-the-badge&logo=gmail)](mailto:research@kodezi.com)\n\n### 企业客户\n\n**销售**: [sales@kodezi.com](mailto:sales@kodezi.com)\n**支持**: [support@kodezi.com](mailto:support@kodezi.com)\n**合作伙伴关系**: [partnerships@kodezi.com](mailto:partnerships@kodezi.com)\n\n\u003C\u002Fdiv>\n\n---\n\n## 📄 许可证\n\n© Kodezi Inc. 版权所有。\n使用须遵守 Kodezi 的服务条款。\n\n### MIT 许可证\n\n**版权所有 © 2025 Kodezi Inc.**\n\n特此授予任何人免费获取本软件及与其相关的文档文件（以下简称“软件”）的副本的权利，允许以任何方式处理该软件，包括但不限于使用、复制、修改、合并、发布、分发、再许可和出售软件副本，并允许向任何接收软件的人提供软件以供其使用，但须遵守以下条件：\n\n上述版权声明和本许可声明应包含在软件的所有副本或重要部分中。\n\n本软件按“原样”提供，不提供任何形式的明示或暗示担保，包括但不限于适销性、特定用途适用性和非侵权性。在任何情况下，作者或版权所有者均不对因本软件或其使用而引起的任何索赔、损害或其他责任承担责任，无论该等责任是基于合同、侵权行为或其他原因产生的，亦无论该等责任是否与本软件或其使用有关。\n\n### ⚠️ 重要提示\n\n**本许可证仅适用于本仓库中包含的研究论文、基准测试、评估框架和文档。**\n\n**Kodezi Chronos 模型本身属于 Kodezi Inc. 的专有技术**，并 **未包含在本仓库中**，亦不受本许可证的约束。\n\n### 📦 MIT 许可证涵盖的内容\n\n- **研究论文**：arXiv 出版物及 Markdown 版本\n- **基准测试套件**：MRR 及评估框架\n- **评估结果**：SWE-bench Lite 结果及分析\n- **文档**：架构文档、指南和参考资料\n- **参考实现**：算法参考代码（并非实际模型）\n\n### 🔒 专有组件\n\n- **Chronos 模型**：未包含在本仓库中\n- **Kodezi OS 集成**：专有平台组件\n- **生产级 API**：企业级部署基础设施\n\n### 🚀 Chronos 模型访问权限\n\nChronos 模型仅可通过 Kodezi OS 获得：\n- **2025 年第四季度**：企业版 Beta 访问\n- **2026 年第一季度**：正式商用发布\n- **了解更多信息**：[chronos.so](https:\u002F\u002Fchronos.so)\n- **提前获取访问权限**：[kodezi.com\u002Fos](https:\u002F\u002Fkodezi.com\u002Fos)\n\n---\n\n\u003Cdiv align=\"center\">\n\n### 研究与资源\n\n**[加入候补名单 →](https:\u002F\u002Fchronos.so)** | **[阅读论文 →](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.12482)** | **[查看结果 →](LEADERBOARD.md)** | **[了解更多 →](https:\u002F\u002Fkodezi.com)**\n\n---\n\n\u003Csub>最后更新：2025 年 11 月 | 版本：2.0.0\u003C\u002Fsub>\n\n\u003C\u002Fdiv>","# Kodezi Chronos 快速上手指南\n\n> **重要提示**：Kodezi Chronos 是一款**专有模型**，目前**不提供开源代码下载或直接本地部署**。本仓库仅包含研究论文、基准测试数据和评估结果。模型功能需通过 **Kodezi OS** 平台访问。\n\n以下指南将帮助您了解如何获取访问权限并准备使用环境。\n\n## 1. 环境准备\n\n由于 Chronos 是通过云端 API 或 Kodezi OS 集成提供的服务，您无需配置复杂的本地 GPU 环境，但需要满足以下基础条件：\n\n*   **操作系统**：Windows, macOS, 或 Linux (推荐 Ubuntu 20.04+)\n*   **网络要求**：稳定的互联网连接（访问 `chronos.so` 和 `kodezi.com`）\n*   **开发工具**：\n    *   Git (用于克隆本仓库查看文档)\n    *   Python 3.8+ (如果使用 SDK 或脚本交互)\n    *   支持 Bash 的终端环境\n*   **账号权限**：需要申请并获得 Kodezi Chronos 的访问资格（见下文）。\n\n## 2. 安装与访问步骤\n\n目前无法通过 `pip` 或 `docker` 直接安装模型权重。请按照以下步骤获取访问权限：\n\n### 第一步：申请访问权限\n访问官方等待列表页面进行注册：\n```bash\n# 请在浏览器中打开以下链接申请 Early Access\nhttps:\u002F\u002Fchronos.so\n```\n\n### 第二步：克隆研究仓库（可选）\n如果您需要查看详细的基准测试数据、论文草稿或评估脚本，可以克隆本仓库：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fkodezi\u002Fchronos.git\ncd chronos\n```\n\n### 第三步：集成 Kodezi OS (预计 2026 Q1 正式发布)\n根据官方路线图，通用访问将通过 **Kodezi OS** 提供。请关注官方文档以获取未来的 SDK 安装命令：\n*   **Beta 阶段 (2025 Q4)**：仅限有限的企业用户访问。\n*   **正式发布 (2026 Q1)**：通过 [Kodezi OS](https:\u002F\u002Fkodezi.com\u002Fos) 集成使用。\n\n*(注：当前暂无公开的 Python SDK 安装命令，如 `pip install kodezi-chronos`，请勿尝试安装不存在的包。)*\n\n## 3. 基本使用\n\n由于模型尚未完全公开，目前的使用方式主要为**提交等待列表**或**查阅评估报告**。一旦获得访问权限，典型的使用流程将如下所示（基于架构描述的预期工作流）：\n\n### 场景：自主调试循环 (Autonomous Debugging Loop)\n\nChronos 设计用于处理仓库级别的代码理解与调试。获得权限后，预期的交互模式如下：\n\n1.  **输入上下文**：提供代码库路径、错误日志、堆栈跟踪或测试失败信息。\n2.  **执行调试**：模型将通过自适应图引导检索 (AGR) 分析多文件上下文。\n3.  **获取修复**：模型生成修复补丁、测试用例及根本原因分析。\n\n**预期命令示例（未来版本）：**\n```bash\n# 以下为基于文档架构的预期命令格式，具体语法请以正式发布的 SDK 文档为准\nkodezi chronos debug --repo .\u002Fmy-project --error-log \"logs\u002Ffailure.txt\" --auto-fix\n```\n\n**核心能力指标参考：**\n*   **SWE-bench Lite 成功率**: 80.33%\n*   **自主调试成功率**: 67.3%\n*   **平均修复迭代次数**: 7.8 次\n*   **适用场景**: 逻辑错误、并发问题、内存问题及跨文件 API 误用。\n\n---\n**相关链接：**\n*   [申请早期访问](https:\u002F\u002Fchronos.so)\n*   [阅读研究论文](paper\u002Fchronos-research.md)\n*   [查看排行榜结果](LEADERBOARD.md)","某大型电商平台的后端团队正在紧急修复一个涉及库存扣减逻辑的复杂并发 Bug，该问题隐藏在跨越多个微服务模块的十万行代码库中。\n\n### 没有 Chronos 时\n- 开发人员需手动梳理跨文件调用链，花费数小时定位根源，往往因遗漏上下文而误判故障点。\n- 通用大模型（如 GPT-4）仅能生成片段式代码建议，无法理解仓库级依赖，给出的修复方案常导致新的回归错误。\n- 反复试错导致调试周期拉长，团队不得不加班熬夜验证假设，上线窗口被迫推迟，业务损失风险激增。\n- 缺乏持久化记忆机制，每次重新分析都需要重复输入大量背景信息，沟通与认知成本极高。\n\n### 使用 Chronos 后\n- Chronos 利用自适应图引导检索技术，秒级锁定分散在不同模块中的并发竞争条件，直接指向根本原因。\n- 凭借专为调试训练的架构，它生成的修复补丁不仅通过本地测试，更在 SWE-bench 基准上展现出 80.33% 的高通过率，确保一次修好。\n- 依托持久化调试记忆，Chronos 自动记录并关联历史排查路径，将原本数天的排查工作压缩至几小时内完成，效率提升 40% 以上。\n- 团队无需再人工拼凑上下文，Chronos 自主理解全仓代码语义，输出的解决方案获得 89% 的工程师偏好认可，大幅降低复核负担。\n\nChronos 将原本令人头疼的“大海捞针”式调试转变为精准的自动化修复流程，让开发者从繁琐的排错中解放出来，专注于核心业务创新。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKodezi_Chronos_56b44192.png","Kodezi","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FKodezi_8b7c4b20.jpg","Kodezi is an AI CTO, the autonomous operating system for modern codebases.",null,"info@kodezi.com","https:\u002F\u002Fkodezi.com\u002F","https:\u002F\u002Fgithub.com\u002FKodezi",[80,84,88,92,96,100,103,106],{"name":81,"color":82,"percentage":83},"Java","#b07219",39.3,{"name":85,"color":86,"percentage":87},"Python","#3572A5",33.2,{"name":89,"color":90,"percentage":91},"JavaScript","#f1e05a",27.5,{"name":93,"color":94,"percentage":95},"Jupyter Notebook","#DA5B0B",0.1,{"name":97,"color":98,"percentage":99},"Shell","#89e051",0,{"name":101,"color":102,"percentage":99},"HTML","#e34c26",{"name":104,"color":105,"percentage":99},"Dockerfile","#384d54",{"name":107,"color":108,"percentage":99},"Makefile","#427819",5004,213,"2026-04-10T05:42:15","NOASSERTION",5,"","未说明",{"notes":117,"python":115,"dependencies":118},"该工具（Kodezi Chronos）目前为专有模型，不在此开源仓库中提供代码或模型权重。仓库仅包含研究论文、基准测试和评估结果。模型预计于 2025 年第四季度通过 Kodezi OS 提供有限的企业访问，并于 2026 年第一季度正式通用发布。因此，当前无法在本地部署或运行该模型，也无具体的本地运行环境需求。",[],[35,13,14,120,52],"其他",[122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139],"artificial-intelligence","benchmark","benchmark-report","bug-fixing","chronos","code","code-analysis","code-analysis-tool","code-debugger","code-understanding","debugging","developer-tools","kodezi","language-model","machine-learning","program-repair","software-engineering","autonomous-debugging","2026-03-27T02:49:30.150509","2026-04-12T03:20:07.809071",[],[]]