dingo

672 68 简单 1 次阅读 3天前Apache-2.0数据工具Agent开发框架其他语言模型

AI 解读由 AI 自动生成，仅供参考

Dingo 是一款专为人工智能领域打造的全方位质量评估工具，旨在帮助开发者系统性地衡量并提升数据、模型及应用的整体表现。在 AI 开发过程中，训练数据脏乱、大模型产生“幻觉”以及检索增强生成（RAG）系统效果不佳是常见痛点，Dingo 正是为解决这些问题而生。它能够对机器学习数据集进行深度清洗与验证，精准检测大语言模型训练数据中的错误与幻觉现象，并对 RAG 系统的实际运行效果进行量化评估。

这款工具特别适合机器学习工程师、数据科学家以及 AI 研究人员使用。无论是正在准备微调数据集的算法团队，还是致力于优化生产环境 AI 系统的技术专家，都能通过 Dingo 获得客观的质量反馈。其核心亮点在于将复杂的数据质量检查流程标准化和自动化，覆盖了从原始数据校验到最终应用评估的全链路。基于 Python 构建且开源免费，Dingo 不仅支持跨平台部署，还允许用户根据具体需求灵活扩展评估规则。通过引入 Dingo，团队可以更高效地识别数据缺陷，降低模型训练风险，从而构建出更可靠、更智能的 AI 应用。

使用场景

某金融科技公司的大模型团队正在构建一个基于 RAG（检索增强生成）的智能客服系统，急需对海量清洗后的训练数据和上线前的回答质量进行严格验收。

没有 dingo 时

数据质检依赖人工抽检，面对百万级语料库，不仅耗时数周，还极易遗漏带有偏见或错误的“脏数据”。
模型上线后频繁出现“幻觉”问题（如编造不存在的理财条款），团队缺乏自动化工具在测试阶段提前拦截这些风险。
评估标准模糊且分散，不同工程师使用各自的脚本打分，导致数据质量波动大，难以形成统一的优化闭环。
当业务方投诉回答质量下降时，开发人员需要花费大量时间回溯日志，无法快速定位是数据源污染还是检索环节出错。

使用 dingo 后

利用 dingo 内置的自动化评估流水线，团队在几小时内即可完成全量数据的毒性、重复性及一致性扫描，效率提升数十倍。
通过 dingo 的幻觉检测模块，系统在预发布阶段自动识别并标记了 300+ 条胡编乱造的问答对，确保高风险内容零上线。
借助 dingo 提供的标准化评分体系，团队建立了统一的质量基线，每次迭代都能清晰量化数据清洗带来的具体提升幅度。
遇到质量异常时，直接调用 dingo 的诊断报告，可迅速下钻到具体的问题数据片段或检索失效案例，将排查时间从几天缩短至分钟级。

dingo 将原本黑盒且滞后的质量管控，转变为可视、量化且实时的自动化防御体系，显著降低了大模型应用的落地风险。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
仅在启用 HHEM 幻觉检测模型（需 torch + transformers）或大规模 LLM 评估时建议配备 NVIDIA GPU
具体型号和显存未说明

内存

未说明（处理十亿级数据集建议使用 Spark 分布式集群以避免内存溢出）

依赖

notes该工具为跨平台 Python 库，可通过 pip 安装。基础功能仅需安装核心包；若需使用幻觉检测（HHEM）或代理功能，需安装额外依赖（如 torch 和 transformers）。支持本地执行或使用 Spark 进行大规模数据扩展。未明确提及具体的 CUDA 版本或最低显存要求，但在处理海量数据时推荐分布式环境。

python3.8+

torch

transformers

sqlalchemy

pyspark

dingo-python

快速开始

Dingo AI数据质量评估工具Logo

English · 简体中文 · 日本語

👋 欢迎加入我们的Discord和微信

如果你喜欢Dingo，请在GitHub上给我们点个赞吧！

简介

Dingo是一款全面的AI数据、模型及应用质量评估工具，专为机器学习从业者、数据工程师和AI研究人员设计。它可以帮助您系统地评估和提升训练数据、微调数据集以及生产环境中的AI系统的质量。

🚀 企业级Dingo SaaS版本

需要一个生产级别的数据质量平台吗？试试Dingo SaaS企业版吧！

✨ 相较于开源版本，SaaS提供了：

🌐 Web UI - 可视化评估界面，无需编码
🔐 访问控制 - JWT + Google OAuth 2.0
📊 可视化报告 - 交互式图表、趋势分析、导出功能
🔌 RESTful API - 与现有系统无缝集成

📝 如何获取免费的SaaS代码

👉 申请Dingo SaaS仓库访问权限

审核时间：1–5个工作日 | 适用于企业数据治理、团队协作场景

为什么选择Dingo？

🎯 生产级质量检查 - 从预训练数据集到RAG系统，确保您的AI获得高质量的数据

🗄️ 多源数据集成 - 无缝对接本地文件、SQL数据库（PostgreSQL/MySQL/SQLite）、HuggingFace数据集以及S3存储

🔍 多字段评估 - 可以并行对不同字段应用不同的质量规则（例如，对isbn进行ISBN校验，对title进行文本质量评估）

🤖 RAG系统评估 - 基于5项学术支持指标，全面评估检索与生成质量

🧠 LLM、规则与Agent混合模式 - 结合快速启发式规则（内置30余种）与基于大模型的深度评估

🚀 灵活执行方式 - 可在本地快速迭代，也可借助Spark扩展至十亿级数据集规模

📊 丰富的报告功能 - 提供详细的质量报告，配有GUI可视化界面和字段级洞察

架构图

Dingo架构图

快速入门

安装

# 核心包（包含规则评估、大模型评估、MCP服务器、数据源支持）
pip install dingo-python

# 配备HHEM幻觉检测模型（需安装transformers和torch）
pip install "dingo-python[hhem]"

# 包含所有功能（HHEM + Agent）
pip install "dingo-python[all]"

Dingo示例用例

1. 评估大模型聊天数据

from dingo.config.input_args import EvaluatorLLMArgs
from dingo.io.input import Data
from dingo.model.llm.text_quality.llm_text_quality_v4 import LLMTextQualityV4
from dingo.model.rule.rule_common import RuleSpecialCharacter

data = Data(
    data_id='123',
    prompt="你好，请介绍一下这个世界",
    content="我今年8岁。^我喜欢苹果是因为："
)


def llm():
    LLMTextQualityV4.dynamic_config = EvaluatorLLMArgs(
        key='YOUR_API_KEY',
        api_url='https://api.openai.com/v1/chat/completions',
        model='gpt-4o',
    )
    res = LLMTextQualityV4.eval(data)
    print(res)

def rule():
    res = RuleSpecialCharacter().eval(data)
    print(res)

rule()

2. 评估数据集

from dingo.config import InputArgs
from dingo.exec import Executor

# 从 Hugging Face 评估数据集
if __name__ == '__main__':
    input_data = {
        "input_path": "tatsu-lab/alpaca",  # 来自 Hugging Face 的数据集
        "dataset": {
            "source": "hugging_face",
            "format": "plaintext"  # 格式：纯文本
        },
        "executor": {
            "result_save": {
                "bad": True  # 保存评估结果
            }
        },
        "evaluator": [
            {
                "evals": [
                    {"name": "RuleColonEnd"},
                    {"name": "RuleSpecialCharacter"}
                ]
            }
        ]
    }

    input_args = InputArgs(**input_data)
    executor = Executor.exec_map["local"](input_args)
    result = executor.execute()
    print(result)

命令行界面

使用规则集进行评估

dingo eval --input .github/env/local_plaintext.json

使用 LLM（例如 GPT-4o）进行评估

dingo eval --input .github/env/local_json.json

MCP 服务器

Dingo 内置了一个用于 AI 代理集成的模型上下文协议（MCP）服务器：

# 启动 MCP 服务器（SSE 传输，默认端口 8000）
dingo serve

# 自定义端口
dingo serve --port 9000

# stdio 传输（适用于 Claude Desktop）
dingo serve --transport stdio

有关详细设置以及与 Cursor 和 Claude Desktop 的集成，请参阅专用文档：

英文 · 简体中文 · 日语

视频演示

为了帮助您快速上手 Dingo MCP，我们制作了一段视频教程：

https://github.com/user-attachments/assets/aca26f4c-3f2e-445e-9ef9-9331c4d7a37b

该视频逐步演示了如何将 Dingo MCP 服务器与 Cursor 配合使用。

📚 数据质量指标

Dingo 提供100 多种评估指标，涵盖多个维度，兼具基于规则的速度和基于 LLM 的深度。

指标分类

分类	示例	使用场景
预训练文本质量	完整性、有效性、相似性、安全性	LLM 预训练数据过滤
SFT 数据质量	真诚、有用、无害 (3H)	指令微调数据
RAG 评估	忠实性、上下文精确度、答案相关性	RAG 系统评估
幻觉检测	HHEM-2.1-Open、事实核查	生产环境 AI 可靠性
分类	主题分类、内容标签	数据整理
多模态	图像-文本相关性、VLM 质量、OCR 视觉评估	视觉-语言数据
安全	PII 检测、Perspective API 毒性	隐私与安全

📊 查看完整指标文档 →
📖 RAG 评估指南 → | 中文版
🔍 幻觉检测指南 → | 中文版
✅ 事实核查指南 → | 中文版
👁️ VLM 渲染评估指南 → | 中文版

大多数指标均以学术研究为支撑，确保科学严谨性。

快速使用指标

llm_config = {
    "model": "gpt-4o",
    "key": "YOUR_API_KEY",
    "api_url": "https://api.openai.com/v1/chat/completions"
}

input_data = {
    "evaluator": [
        {
            "fields": {"content": "content"},
            "evals": [
                {"name": "RuleAbnormalChar"},           # 基于规则（快速）
                {"name": "LLMTextQualityV5", "config": llm_config}  # 基于 LLM（深入）
            ]
        }
    ]
}

自定义：所有提示词都定义在 dingo/model/llm/ 目录中（按类别组织：text_quality/、rag/、hhh/ 等）。您可以根据特定领域的需求扩展或修改它们。

🎓 实践者关键概念

什么使 Dingo 具备生产级能力？

1. 多字段评估流水线

在一次运行中对不同字段应用不同的质量检查：

"evaluator": [
    {"fields": {"content": "isbn"}, "evals": [{"name": "RuleIsbn"}]},
    {"fields": {"content": "title"}, "evals": [{"name": "RuleAbnormalChar"}]},
    {"fields": {"content": "description"}, "evals": [{"name": "LLMTextQualityV5"}]}
]

为什么重要：无需为每个字段单独编写脚本，即可评估结构化数据（如数据库表）。

2. 大型数据集的流式处理

SQL 数据源使用 SQLAlchemy 的服务器端游标：

# 处理数十亿行数据而不会出现内存溢出
for data in dataset.get_data():  # 每次生成一行数据
    result = evaluator.eval(data)

为什么重要：无需导出到中间文件即可处理生产数据库。

3. 内存中的字段隔离

RAG 评估可防止不同字段组合之间的上下文泄漏：

outputs/
├── user_input,response,retrieved_contexts/  # 忠实性组
└── user_input,response/                     # 答案相关性组

为什么重要：在评估多个字段组合时，能够准确计算指标。

4. 规则与 LLM 混合策略

将快速规则（100% 覆盖）与抽样 LLM 检查（10% 覆盖）相结合：

"evals": [
    {"name": "RuleAbnormalChar"},        # 快速，对所有数据运行
    {"name": "LLMTextQualityV5"}         # 昂贵，必要时抽样
]

为什么重要：在生产规模的评估中，平衡成本与覆盖范围。

5. 通过注册实现可扩展性

干净的插件架构，可用于自定义规则、提示词和模型：

@Model.rule_register('QUALITY_BAD_CUSTOM', ['default'])
class MyCustomRule(BaseRule):
    @classmethod
    def eval(cls, input_data: Data) -> EvalDetail:
        # 示例：检查内容是否为空
        if not input_data.content:
            return EvalDetail(
                metric=cls.__name__,
                status=True,  # 发现问题
                label=[f'{cls.metric_type}.{cls.__name__}'],
                reason=["内容为空"]
            )
        return EvalDetail(
            metric=cls.__name__,
            status=False,  # 未发现问题
            label=['QUALITY_GOOD']
        )

为什么重要：无需分叉代码库即可适应特定领域的需要。

🌟 功能亮点

📊 多源数据集成

多样化的数据来源 - 连接到您的数据所在的位置
✅ 本地文件: JSONL、CSV、TXT、Parquet
✅ SQL数据库: PostgreSQL、MySQL、SQLite、Oracle、SQL Server（支持流式处理）
✅ 云存储: S3 及兼容 S3 的存储
✅ 机器学习平台: 直接集成 HuggingFace 数据集

企业级 SQL 支持 - 生产环境数据库集成
✅ 面向十亿级数据集的内存高效流式处理
✅ 连接池与自动资源清理
✅ 复杂的 SQL 查询（JOIN、WHERE、聚合）
✅ 支持多种 SQL 方言，兼容 SQLAlchemy

多字段质量检查 - 不同字段采用不同规则
✅ 并行评估管道（例如，ISBN 校验与文本质量同时进行）
✅ 字段别名及嵌套字段提取（user.profile.name）
✅ 每个字段独立的结果报告
✅ 基于 ETL 流程的架构，实现灵活的数据转换

🤖 RAG 系统评估

5 项学术支持的指标 - 基于 RAGAS、DeepEval、TruLens 的研究
✅ 忠实性: 答案与上下文的一致性（幻觉检测）
✅ 答案相关性: 答案与查询的匹配度
✅ 上下文精确度: 检索的精确度
✅ 上下文召回率: 检索的召回率
✅ 上下文相关性: 上下文与查询的相关性

全面的报告 - 自动汇总统计
✅ 各项指标的平均值、最小值、最大值及标准差
✅ 按字段分组的结果
✅ 批量与单次评估模式

📖 查看 RAG 评估指南 →

🧠 混合评估系统

基于规则的评估 - 快速、确定性、经济高效
✅ 30+ 内置规则（文本质量、格式、PII 检测）
✅ 正则表达式、启发式方法、统计检验
✅ 自定义规则注册

基于 LLM 的评估 - 深度语义理解
✅ OpenAI（GPT-4o、GPT-3.5）、DeepSeek、Kimi
✅ 本地模型（Llama3、Qwen）
✅ 视觉-语言模型（InternVL、Gemini）
✅ 自定义提示词注册

基于代理的评估 - 多步推理结合工具
✅ 集成网络搜索（Tavily）
✅ 自适应上下文收集
✅ 多源事实核查
✅ 自定义代理与工具注册

可扩展的架构
✅ 基于插件的规则/提示词/模型注册
✅ 清晰的关注点分离（代理、工具、编排）
✅ 针对特定领域的定制化

🚀 灵活的执行与集成

多种接口
✅ CLI 用于快速检查
✅ Python SDK 用于集成
✅ MCP（模型上下文协议）服务器，适用于 IDE（Cursor 等）

可扩展的执行
✅ 本地执行器，适合快速迭代
✅ Spark 执行器，用于分布式处理
✅ 可配置的并发与批处理

数据来源
✅ 本地文件: 支持 JSONL、CSV、TXT、Parquet 格式
✅ Hugging Face: 直接集成 HF 数据集中心
✅ S3 存储: AWS S3 及兼容 S3 的存储
✅ SQL 数据库: PostgreSQL、MySQL、SQLite、Oracle、SQL Server（支持大规模数据的流式处理）

模态支持
✅ 文本（聊天、文档、代码）
✅ 图像（支持 VLM）
✅ 多模态（文本与图像一致性）

📈 丰富的报告与可视化

多层次报告
✅ 包含总体评分的摘要 JSON
✅ 按字段细分
✅ 每条规则的违规详情
✅ 类型与名称分布

GUI 可视化（通过 Dingo SaaS）
✅ 带有交互式数据探索功能的 Web UI
✅ 包含趋势分析的可视化报告
✅ 异常情况追踪

指标聚合
✅ 自动统计（平均值、最小值、最大值、标准差）
✅ 按字段分组的指标
✅ 总体质量得分

📖 用户指南

🔧 可扩展性

Dingo 采用清晰的插件架构，便于针对特定领域进行定制：

自定义规则注册

from dingo.model import Model
from dingo.model.rule.base import BaseRule
from dingo.io import Data
from dingo.io.output.eval_detail import EvalDetail

@Model.rule_register('QUALITY_BAD_CUSTOM', ['default'])
class DomainSpecificRule(BaseRule):
    """检查领域特定的模式"""

    @classmethod
    def eval(cls, input_data: Data) -> EvalDetail:
        text = input_data.content

        # 您的自定义逻辑
        is_valid = your_validation_logic(text)

        return EvalDetail(
            metric=cls.__name__,
            status=not is_valid,  # False = 良好，True = 不良
            label=['QUALITY_GOOD' if is_valid else 'QUALITY_BAD_CUSTOM'],
            reason=["验证细节..."]
        )

自定义 LLM/提示词注册

from dingo.model import Model
from dingo.model.llm.base_openai import BaseOpenAI

@Model.llm_register('custom_evaluator')
class CustomEvaluator(BaseOpenAI):
    """具有专用提示词的自定义 LLM 评估器"""

    _metric_info = {
        "metric_name": "CustomEvaluator",
        "metric_type": "基于 LLM 的质量",
        "category": "自定义类别"
    }

    prompt = """您自定义的提示词在此..."""

示例:

基于智能体的评估与工具支持

Dingo 支持基于智能体的评估器，这些评估器可以使用外部工具进行多步推理和自适应上下文收集。目前有两种实现模式可供选择：

模式 1：基于 LangChain（例如 AgentFactCheck）

框架驱动，具备自主多步推理能力
使用 LangChain 1.0 的 create_agent 方法，并采用 ReAct 模式
适用于：复杂推理任务、快速原型开发
代码量少，声明式风格更清晰

模式 2：自定义工作流（例如 AgentHallucination）

开发者驱动，可明确控制工作流程
手动调用工具并与大模型交互
适用于：组合现有评估器、领域特定的工作流
完全可控，行为明确

两种模式共享相同的配置接口，对用户透明。

内置智能体：

AgentFactCheck：基于 LangChain 的事实核查，具备自主搜索控制能力
AgentHallucination：自定义工作流的幻觉检测，支持自适应上下文收集
ArticleFactChecker：两阶段文章事实核查——先提取可验证的陈述，再利用网络搜索和 Arxiv 并行逐一验证，同时提供可配置的并发控制

快速示例：

from dingo.io import Data
from dingo.io.output.eval_detail import EvalDetail
from dingo.model import Model
from dingo.model.llm.agent.base_agent import BaseAgent

@Model.llm_register('MyAgent')
class MyAgent(BaseAgent):
    """支持工具的自定义智能体"""

    available_tools = ["tavily_search", "my_custom_tool"]
    max_iterations = 5

    @classmethod
    def eval(cls, input_data: Data) -> EvalDetail:
        # 使用工具进行事实核查
        search_result = cls.execute_tool('tavily_search', query=input_data.content)

        # 结合大模型进行多步推理
        result = cls.send_messages([...])

        return EvalDetail(...)

有关选择和实现智能体模式的详细指南，请参阅智能体开发指南。

配置示例：

{
  "evaluator": [{
    "evals": [{
      "name": "AgentHallucination",
      "config": {
        "key": "openai-api-key",
        "model": "gpt-4",
        "parameters": {
          "agent_config": {
            "max_iterations": 5,
            "tools": {
              "tavily_search": {"api_key": "tavily-key"}
            }
          }
        }
      }
    }]
  }]
}

了解更多：

智能体开发指南 —— 创建自定义智能体和工具的全面指南
AgentHallucination 示例 —— 生产级智能体示例
AgentFactCheck 示例 —— LangChain 智能体示例
ArticleFactChecker 示例 —— 文章规模的两阶段事实核查示例

⚙️ 执行模式

本地执行器（开发与小规模场景）

from dingo.config import InputArgs
from dingo.exec import Executor

input_args = InputArgs(**input_data)
executor = Executor.exec_map["local"](input_args)
result = executor.execute()

# 访问结果
summary = executor.get_summary()           // 总体指标
bad_data = executor.get_bad_info_list()    // 质量问题
good_data = executor.get_good_info_list()  // 高质量数据

适用场景：快速迭代、调试、数据集小于 10 万行

Spark 执行器（生产与大规模场景）

from pyspark.sql import SparkSession
from dingo.exec import Executor

spark = SparkSession.builder.appName("Dingo").getOrCreate()
spark_rdd = spark.sparkContext.parallelize(your_data)

executor = Executor.exec_map["spark"](
    input_args,
    spark_session=spark,
    spark_rdd=spark_rdd
)
result = executor.execute()

适用场景：生产流水线、分布式处理、数据集超过 100 万行

评估报告

评估完成后，Dingo 会生成：

汇总报告（summary.json）：总体指标和分数
详细报告：针对每条规则违反的具体问题

报告说明：

score：num_good / total
type_ratio：各类别数量占总数的比例，例如：QUALITY_BAD_COMPLETENESS / total

汇总报告示例：

{
    "task_id": "d6c922ec-981c-11ef-b723-7c10c9512fac",
    "task_name": "dingo",
    "eval_group": "default",
    "input_path": "test/data/test_local_jsonl.jsonl",
    "output_path": "outputs/d6c921ac-981c-11ef-b723-7c10c9512fac",
    "create_time": "20241101_144510",
    "score": 50.0,
    "num_good": 1,
    "num_bad": 1,
    "total": 2,
    "type_ratio": {
        "content": {
            "QUALITY_BAD_COMPLETENESS.RuleColonEnd": 0.5,
            "QUALITY_BAD_RELEVANCE.RuleSpecialCharacter": 0.5
        }
    }
}

🚀 路线图与贡献

未来计划

智能体作为评判者 —— 多智能体辩论模式，用于减少偏见和处理复杂推理
SaaS 平台 —— 提供托管式评估服务，配备 API 接口和仪表盘
音频与视频模态 —— 扩展至文本和图像之外
多样性指标 —— 统计学意义上的多样性评估
实时监控 —— 在生产流水线上进行持续的质量检查

局限性

当前内置的检测规则和模型方法主要聚焦于常见的数据质量问题。对于特殊的评估需求，建议自定义检测规则。

致谢

贡献

我们感谢所有为改进和增强 Dingo 贡献力量的开发者。有关如何参与项目贡献的指导，请参阅贡献指南。

许可证

本项目采用 Apache 2.0 开源许可证。

本项目在部分功能中使用了 fasttext，包括语言检测。fasttext 采用 MIT 许可证，该许可证与我们的 Apache 2.0 许可证兼容，为各种使用场景提供了灵活性。

引用

如果您觉得本项目有用，请考虑引用我们的工具：

@misc{dingo,
  title={Dingo：面向大型模型的综合 AI 数据质量评估工具},
  author={Dingo 开发者},
  howpublished={\url{https://github.com/MigoXLab/dingo}},
  year={2024}
}

Dingo 快速上手指南

Dingo 是一款全面的 AI 数据、模型及应用质量评估工具，专为机器学习从业者、数据工程师和 AI 研究人员设计。它支持从预训练数据过滤、SFT 指令微调数据验证到 RAG 系统评估的全流程质量管控。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：跨平台支持 (Linux, macOS, Windows)
Python 版本：建议 Python 3.8 及以上
前置依赖：
- pip 包管理工具
- 若需使用 LLM 评估功能，需准备有效的 API Key（如 OpenAI, Azure 等）
- 若需使用幻觉检测模型 (HHEM)，需确保系统有足够的内存及 GPU 资源（可选）

安装步骤

您可以通过 PyPI 直接安装 Dingo。根据您的需求选择以下任一安装方式：

1. 安装核心包（推荐）

包含规则评估、基础数据源支持及 MCP 服务器功能。

pip install dingo-python

2. 安装含幻觉检测模型版本

包含核心功能及 HHEM 幻觉检测模型（需额外安装 transformers 和 torch）。

pip install "dingo-python[hhem]"

3. 安装全功能版本

包含所有特性（HHEM + Agent 智能体功能）。

pip install "dingo-python[all]"

提示：国内用户若下载缓慢，可添加国内镜像源加速，例如： pip install dingo-python -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

Dingo 支持通过 Python 代码和命令行两种方式运行。以下是两个最基础的使用场景。

场景一：评估单条 LLM 对话数据

此示例演示如何结合规则检查（检测特殊字符）和LLM 评估（文本质量打分）对单条数据进行测试。

from dingo.config.input_args import EvaluatorLLMArgs
from dingo.io.input import Data
from dingo.model.llm.text_quality.llm_text_quality_v4 import LLMTextQualityV4
from dingo.model.rule.rule_common import RuleSpecialCharacter

# 构造测试数据
data = Data(
    data_id='123',
    prompt="hello, introduce the world",
    content="I am 8 years old. ^I love apple because:"
)

def llm_eval():
    # 配置 LLM 参数
    LLMTextQualityV4.dynamic_config = EvaluatorLLMArgs(
        key='YOUR_API_KEY',
        api_url='https://api.openai.com/v1/chat/completions',
        model='gpt-4o',
    )
    res = LLMTextQualityV4.eval(data)
    print("LLM Evaluation Result:", res)

def rule_eval():
    # 执行规则检查
    res = RuleSpecialCharacter().eval(data)
    print("Rule Evaluation Result:", res)

# 运行评估
rule_eval()
# llm_eval() # 取消注释以运行 LLM 评估

场景二：批量评估数据集

此示例演示如何从 Hugging Face 加载数据集，并并行应用多条规则进行批量评估。

from dingo.config import InputArgs
from dingo.exec import Executor

if __name__ == '__main__':
    # 配置输入参数
    input_data = {
        "input_path": "tatsu-lab/alpaca",  # Hugging Face 数据集名称
        "dataset": {
            "source": "hugging_face",
            "format": "plaintext"
        },
        "executor": {
            "result_save": {
                "bad": True  # 仅保存未通过评估的数据结果
            }
        },
        "evaluator": [
            {
                "evals": [
                    {"name": "RuleColonEnd"},       # 检查是否以冒号结尾
                    {"name": "RuleSpecialCharacter"} # 检查特殊字符
                ]
            }
        ]
    }

    # 初始化并执行
    input_args = InputArgs(**input_data)
    executor = Executor.exec_map["local"](input_args)
    result = executor.execute()
    print(result)

场景三：命令行快速评估

如果您已有本地数据文件（JSON 格式），可以直接使用 CLI 命令进行评估。

使用规则集评估：

dingo eval --input .github/env/local_plaintext.json

使用 LLM 进行评估：

dingo eval --input .github/env/local_json.json

更多高级功能（如 RAG 评估指标配置、MCP Server 集成、自定义 Prompt 等）请参考官方完整文档。

版本历史

v2.1.02026/03/13

v2.0.02025/12/25

v1.11.12025/12/09

v1.11.02025/10/29

v1.10.02025/09/08

v1.5.02025/03/31

v2.2.22026/04/02

v2.2.12026/03/24

v2.2.02026/03/24

v2.1.12026/03/13

v1.9.02025/07/31

v1.8.12025/07/17

v1.82025/07/04

v1.7.12025/06/11

v1.72025/05/30

v1.6.02025/05/06

v1.4.02025/02/28

常见问题

如何在局域网内访问 Dingo 服务（解决只能本地访问的问题）？

运行可视化命令时报错 'index.html not found' 怎么办？

调用 DeepSeek 或其他兼容 OpenAI 格式的 LLM 时出现 'connect error' 如何解决？

运行时出现 'Spark Executor not imported' 警告是否影响使用？

Dingo Python SDK 依赖的 openai 库版本过低怎么办？

executor.execute() 是否支持并发执行大模型评估任务？

在 Web 界面提交本地数据集时遇到 'Validation Failed for InputArgs' 错误如何解决？

使用 Metric 指标时出现 'Data object has no attribute raw_data' 错误是什么原因？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架