InternLM

7.2k 510 中等 1 次阅读今天Apache-2.0Agent开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

InternLM 是由上海人工智能实验室推出的一系列开源大语言模型，涵盖从初代到最新的 InternLM3 等多个版本。它旨在为通用场景提供强大的语言理解与生成能力，特别擅长处理复杂的逻辑推理和知识密集型任务。

针对大模型训练成本高、推理效率低的痛点，InternLM3 展现了卓越的性能优势。仅使用 4 万亿高质量令牌进行训练，其成本比同规模模型降低了 75% 以上，却在推理能力上超越了 Llama3.1-8B 和 Qwen2.5-7B 等主流模型。此外，InternLM3 创新性地支持“深度思考”模式，能够通过长思维链解决复杂难题，同时也具备流畅的正常对话模式，兼顾了深度分析与日常交互的需求。

这款工具非常适合 AI 研究人员、开发者以及需要构建智能应用的企业团队使用。无论是希望低成本部署高性能模型的技术人员，还是致力于探索大模型推理机制的学者，都能从中获益。普通用户也可以通过其在线聊天界面体验先进的 AI 对话服务。凭借高效的训练策略、灵活的思维模式以及持续更新的模型家族（包括数学专用模型和奖励模型），InternLM 为开源社区提供了一个兼具性价比与技术前沿性的优质选择。

使用场景

某金融科技公司量化团队正试图构建一个自动化研报分析系统，需要从海量财经新闻和财报中提取关键数据并推导投资逻辑。

没有 InternLM 时

推理深度不足：通用模型在处理复杂的财务因果链时往往浅尝辄止，无法像人类分析师那样进行多步逻辑推演，导致结论缺乏说服力。
训练成本高昂：为了达到可用的专业精度，团队需耗费巨额算力训练或微调大参数模型，预算严重超支且周期漫长。
响应模式单一：模型只能在“快速回答”和“深度思考”间二选一，无法根据问题复杂度动态切换，既浪费资源又影响用户体验。
知识更新滞后：面对最新的金融市场动态和术语，旧模型泛化能力差，频繁出现幻觉或过时信息，需人工反复校验。

使用 InternLM 后

深度思维激活：利用 InternLM3 的长链条思维（Chain-of-Thought）模式，模型能自动拆解复杂财务问题，逐步推导出的投资逻辑准确率显著提升。
降本增效显著：得益于仅用 4 万亿高质量令牌训练即超越同规模竞品，团队以节省 75% 的训练成本获得了更优的推理性能。
双模灵活切换：InternLM 支持在“深度思考”与“流畅交互”间智能切换，简单查询秒级响应，复杂研判则自动进入深度分析模式。
前沿知识覆盖：基于最新训练数据，InternLM 对新兴金融概念理解精准，大幅减少了事实性错误，人工复核工作量降低 80%。

InternLM 以极低的训练成本赋予了业务系统专家级的深度推理能力，真正实现了高性能与低消耗的完美平衡。

运行环境要求

操作系统

未说明

GPU

未说明（模型参数量涵盖 1.8B 至 20B，实际显存需求取决于具体模型版本及是否量化，通常 7B 模型需 14GB+ 显存，20B 模型需 40GB+ 显存）

内存

未说明

依赖

notesREADME 主要介绍模型特性及下载链接，未直接列出具体的运行环境配置（如 Python 版本、CUDA 版本等）。模型提供 HuggingFace (transformers) 和 InternEvo (Origin) 两种格式。其中 InternLM3-8B-Instruct 为最新发布的指令微调模型，支持深度思考模式；InternLM2.5 系列包含基础版、聊天版及支持 1M 长上下文的版本。用户需根据所选模型大小（1.8B/7B/8B/20B）自行评估硬件资源。

python未说明

transformers

InternEvo

OpenCompass

快速开始

InternLM

English | 简体中文

👋 欢迎加入我们的 Discord 和微信

简介

InternLM3 开源了一款 80 亿参数的指令模型 InternLM3-8B-Instruct，专为通用场景和高级推理设计。该模型具有以下特点：

性能提升，成本降低：在推理和知识密集型任务上达到业界领先水平，超越 Llama3.1-8B 和 Qwen2.5-7B 等模型。令人瞩目的是，InternLM3 仅使用了 4 万亿高质量 tokens 进行训练，相比同类规模的大模型节省了超过 75% 的训练成本。
深度思考能力：InternLM3 同时支持通过长链式思维解决复杂推理任务的深度思考模式，以及用于流畅用户交互的普通响应模式。

新闻

[2025.01.15] 我们发布了 InternLM3-8B-Instruct，请参阅下方的模型库获取下载链接，或访问模型卡片了解更多详情。

[2024.08.01] 我们发布了 InternLM2.5-1.8B、InternLM2.5-1.8B-Chat、InternLM2.5-20B 和 InternLM2.5-20B-Chat。请参阅下方的模型库获取下载链接，或访问模型卡片了解更多详情。

[2024.07.19] 我们发布了 InternLM2-Reward 系列奖励模型，包括 1.8B、7B 和 20B 三种规模。请参阅下方的模型库获取下载链接，或访问模型卡片了解更多详情。

[2024.07.03] 我们发布了 InternLM2.5-7B、InternLM2.5-7B-Chat 和 InternLM2.5-7B-Chat-1M。请参阅下方的模型库获取下载链接，或访问模型卡片了解更多详情。

[2024.03.26] 我们发布了 InternLM2 技术报告。详情请参阅 arXiv。

[2024.01.31] 我们发布了 InternLM2-1.8B 及其对应的聊天模型。它们在保持领先性能的同时，提供了更为经济的部署方案。

[2024.01.23] 我们发布了 InternLM2-Math-7B 和 InternLM2-Math-20B，包含预训练和 SFT 检查点。这些模型以较小的规模便超越了 ChatGPT。详情及下载请参阅 InternLM-Math。

[2024.01.17] 我们发布了 InternLM2-7B 和 InternLM2-20B，以及它们对应的聊天模型，各方面能力均得到显著提升。请参阅下方的模型库获取下载链接，或访问模型卡片了解更多详情。

[2023.12.13] InternLM-7B-Chat 和 InternLM-20B-Chat 的检查点已更新。通过改进的微调策略，新的聊天模型能够生成更高质量、风格更加多样的回复。

[2023.09.20] InternLM-20B 正式发布，包含基础版和聊天版。

模型库

InternLM3

模型	Transformers	ModelScope	Modelers	发布日期
InternLM3-8B-Instruct	🤗internlm3_8B_instruct	internlm3_8b_instruct		2025-01-15

InternLM2.5

(点击展开)

模型	Transformers(HF)	ModelScope(HF)	发布日期
InternLM2.5-1.8B	🤗internlm2_5-1_8b	internlm2_5-1_8b	2024-08-05
InternLM2.5-1.8B-Chat	🤗internlm2_5-1_8b-chat	internlm2_5-1_8b-chat	2024-08-05
InternLM2.5-7B	🤗internlm2_5-7b	internlm2_5-7b	2024-07-03
InternLM2.5-7B-Chat	🤗internlm2_5-7b-chat	internlm2_5-7b-chat	2024-07-03
InternLM2.5-7B-Chat-1M	🤗internlm2_5-7b-chat-1m	internlm2_5-7b-chat-1m	2024-07-03
InternLM2.5-20B	🤗internlm2_5-20b	internlm2_5-20b	2024-08-05
InternLM2.5-20B-Chat	🤗internlm2_5-20b-chat	internlm2_5-20b-chat	2024-08-05

说明：

InternLM2.5系列包括1.8B、7B和20B三个版本。7B模型在研究和应用中较为高效，而20B模型功能更强大，能够支持更复杂的场景。这些模型之间的关系如下：

InternLM2.5：基于大规模语料预训练的基础模型。在大多数应用场景中，建议优先考虑使用InternLM2.5模型。
InternLM2.5-Chat：在InternLM2.5基础上，经过监督微调（SFT）和人类反馈强化学习（RLHF）优化的对话模型。InternLM2.5-Chat针对指令遵循、对话体验和函数调用进行了优化，推荐用于下游应用。
InternLM2.5-Chat-1M：该模型支持100万 token的长上下文，同时保持与InternLM2.5-Chat相当的性能。

局限性： 尽管我们在训练过程中尽力确保模型的安全性，并鼓励其生成符合伦理和法律要求的文本，但由于模型规模较大且采用概率生成机制，仍可能出现意外输出。例如，生成的回答可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而产生的任何后果，我们概不负责。

补充说明： HF 指的是 HuggingFace 在 transformers 中使用的格式，而 Origin 则表示 InternLM 团队在 InternEvo 中采用的格式。

InternLM2-Reward

(点击展开)

InternLM2-Reward 是一系列奖励模型，基于 240 万条偏好样本进行训练，提供 18 亿、70 亿和 200 亿三种参数规模。这些模型被应用于我们对话模型的 PPO 训练过程中。更多详情请参阅模型卡片。

模型	RewardBench 分数	Transformers(HF)	ModelScope(HF)	发布日期
InternLM2-1.8B-Reward	80.6	🤗internlm2-1_8b-reward	internlm2-1_8b-reward	2024-07-19
InternLM2-7B-Reward	86.6	🤗internlm2-7b-reward	internlm2-7b-reward	2024-07-19
InternLM2-20B-Reward	89.5	🤗internlm2-20b-reward	internlm2-20b-reward	2024-07-19

InternLM2

(点击展开)

我们上一代模型，在长上下文处理、推理和编程方面具有先进能力。更多详情请参阅模型卡片。

模型	Transformers(HF)	ModelScope(HF)	发布日期
InternLM2-1.8B	🤗internlm2-1.8b	internlm2-1.8b	2024-01-31
InternLM2-Chat-1.8B-SFT	🤗internlm2-chat-1.8b-sft	internlm2-chat-1.8b-sft	2024-01-31
InternLM2-Chat-1.8B	🤗internlm2-chat-1.8b	internlm2-chat-1.8b	2024-02-19
InternLM2-Base-7B	🤗internlm2-base-7b	internlm2-base-7b	2024-01-17
InternLM2-7B	🤗internlm2-7b	internlm2-7b	2024-01-17
InternLM2-Chat-7B-SFT	🤗internlm2-chat-7b-sft	internlm2-chat-7b-sft	2024-01-17
InternLM2-Chat-7B	🤗internlm2-chat-7b	internlm2-chat-7b	2024-01-17
InternLM2-Base-20B	🤗internlm2-base-20b	internlm2-base-20b	2024-01-17
InternLM2-20B	🤗internlm2-20b	internlm2-20b	2024-01-17
InternLM2-Chat-20B-SFT	🤗internlm2-chat-20b-sft	internlm2-chat-20b-sft	2024-01-17
InternLM2-Chat-20B	🤗internlm2-chat-20b	internlm2-chat-20b	2024-01-17

性能

我们使用开源评估工具 OpenCompass 对 InternLM 进行了全面的评估。评估涵盖了五个能力维度：学科能力、语言能力、知识能力、推理能力和理解能力。以下是一些评估结果，更多评估结果请访问 OpenCompass 排行榜。

基准测试		InternLM3-8B-Instruct	Qwen2.5-7B-Instruct	Llama3.1-8B-Instruct	GPT-4o-mini(闭源)
通用	CMMLU(零样本)	83.1	75.8	53.9	66.0
	MMLU(零样本)	76.6	76.8	71.8	82.7
	MMLU-Pro(零样本)	57.6	56.2	48.1	64.1
推理	GPQA-Diamond(零样本)	37.4	33.3	24.2	42.9
	DROP(零样本)	83.1	80.4	81.6	85.2
	HellaSwag(10样本)	91.2	85.3	76.7	89.5
	KOR-Bench(零样本)	56.4	44.6	47.7	58.2
数学	MATH-500(零样本)	83.0*	72.4	48.4	74.0
	AIME2024(零样本)	20.0*	16.7	6.7	13.3
编程	LiveCodeBench(2407-2409 Pass@1)	17.8	16.8	12.9	21.8
	HumanEval(Pass@1)	82.3	85.4	72.0	86.6
指令	IFEval(Prompt-Strict)	79.3	71.7	75.2	79.7
长上下文	RULER(4-128K 平均)	87.9	81.4	88.5	90.7
聊天	AlpacaEval 2.0(LC 胜率)	51.1	30.3	25.0	50.7
	WildBench(原始分数)	33.1	23.3	1.5	40.3
	MT-Bench-101(1-10分)	8.59	8.49	8.37	8.87

评估结果来自 OpenCompass（部分数据标有 *，表示以思考模式进行评估），评估配置可在 OpenCompass 提供的配置文件中找到。
由于 OpenCompass 的版本迭代，评估数据可能存在数值差异，请以 OpenCompass 的最新评估结果为准。 局限性： 尽管我们在训练过程中努力确保模型的安全性，并鼓励模型生成符合伦理和法律要求的文本，但由于模型规模较大且采用概率生成机制，仍可能出现意外输出。例如，生成的回答可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而产生的任何后果，我们概不负责。

环境要求

Python >= 3.8
PyTorch >= 1.12.0（建议使用 2.0.0 及以上版本）
Transformers >= 4.38

使用方法

对话模式

Transformers 推理

要使用 Transformers 加载 InternLM3 8B Instruct 模型，可以使用以下代码：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_dir = "internlm/internlm3-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 设置 `torch_dtype=torch.float16` 以加载半精度浮点数模型，否则将加载为单精度浮点数，可能导致内存溢出错误。
model = AutoModelForCausalLM.from_pretrained(model_dir，trust_remote_code=True, torch_dtype=torch.float16)

# （可选）如果在资源有限的设备上运行，可以通过 bitsandbytes 以 4 位或 8 位精度加载模型，从而进一步节省显存。
  # InternLM3 8B 模型使用 4 位精度时，大约需要 8GB 显存。
  # pip install -U bitsandbytes
  # 8 位精度：model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_8bit=True)
  # 4 位精度：model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_4bit=True)
model = model.eval()
system_prompt = """你是一个名为 InternLM（书生·浦语）的AI助手。
- InternLM（书生·浦语）是由上海人工智能实验室开发的对话式语言模型。它旨在做到有用、诚实和无害。
- InternLM（书生·浦语）能够理解并流利地使用用户选择的语言进行交流，例如英语和中文。"""
messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": "请告诉我上海的五个景点"},
 ]
tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
generated_ids = model.generate(tokenized_chat, max_new_tokens=1024, temperature=1, repetition_penalty=1.005, top_k=40, top_p=0.8)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(tokenized_chat, generated_ids)
]
prompt = tokenizer.batch_decode(tokenized_chat)[0]
print(prompt)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

LMDeploy 推理

LMDeploy 是由 MMRazor 和 MMDeploy 团队开发的用于压缩、部署和推理 LLM 的工具包。

pip install lmdeploy

你可以使用以下 Python 代码在本地运行批量推理：

import lmdeploy
model_dir = "internlm/internlm3-8b-instruct"
pipe = lmdeploy.pipeline(model_dir)
response = pipe("请告诉我上海的五个景点")
print(response)

或者，你可以通过以下命令启动一个兼容 OpenAI 的服务器：

lmdeploy serve api_server internlm/internlm3-8b-instruct --model-name internlm3-8b-instruct --server-port 23333

然后你可以向该服务器发送聊天请求：

curl http://localhost:23333/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "internlm3-8b-instruct",
    "messages": [
    {"role": "user", "content": "请告诉我上海的五个景点"}
    ]
    }'

更多详细信息请参阅 LMDeploy 文档

SGLang 推理

安装

pip3 install "sglang[srt]>=0.4.1.post6" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

兼容 OpenAI 的服务器

python3 -m sglang.launch_server --model internlm/internlm3-8b-instruct --trust-remote-code --chat-template internlm2-chat

OpenAI 客户端

import openai
client = openai.Client(
    base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")

# 聊天完成
response = client.chat.completions.create(
    model="default",
    messages=[
        {"role": "system", "content": "你是一个有用的AI助手"},
        {"role": "user", "content": "请列出3个国家及其首都。"},
    ],
    temperature=0,
    max_tokens=64,
)
print(response)

Ollama 推理

安装 Ollama 并拉取模型

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型
ollama pull internlm/internlm3-8b-instruct
# 安装 ollama-python
pip install ollama

推理代码：

import ollama

system_prompt = """你是一个名为 InternLM（书生·浦语）的AI助手。
- InternLM（书生·浦语）是由上海人工智能实验室开发的对话式语言模型。它旨在做到有用、诚实和无害。
- InternLM（书生·浦语）能够理解并流利地使用用户选择的语言进行交流，例如英语和中文。"""

messages = [
    {
        "role": "system",
        "content": system_prompt,
    },
    {
        "role": "user",
        "content": "请告诉我上海的五个景点"
    },
]

stream = ollama.chat(
    model='internlm/internlm3-8b-instruct',
    messages=messages,
    stream=True,
)

for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

vLLM 推理

参考安装指南安装最新版本的 vLLM。

pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

推理代码：

from vllm import LLM, SamplingParams
llm = LLM(model="internlm/internlm3-8b-instruct")
sampling_params = SamplingParams(temperature=1, repetition_penalty=1.005, top_k=40, top_p=0.8)
system_prompt = """你是一个名为 InternLM（书生·浦语）的AI助手。
- InternLM（书生·浦语）是由上海人工智能实验室开发的对话式语言模型。它旨在做到有用、诚实和无害。
- InternLM（书生·浦语）能够理解并流利地使用用户选择的语言进行交流，例如英语和中文。"""
prompts = [
    {
        "role": "system",
        "content": system_prompt,
    },
    {
        "role": "user",
        "content": "请告诉我上海的五个景点"
    },
]
outputs = llm.chat(prompts,
                   sampling_params=sampling_params,
                   use_tqdm=False)
print(outputs)

思维模式

思维演示

思维系统提示

thinking_system_prompt = """你是一位在数学竞赛领域经验丰富的专家级数学家。你通过系统性思考和严谨的推理来解决问题。解题时，请遵循以下思维流程：
## 深度理解
在尝试解题之前，花时间充分理解问题。考虑以下几点：
- 问题真正想问的是什么？
- 已知条件是什么？它们告诉我们什么？
- 是否存在特殊的限制或假设？
- 哪些信息是关键的，哪些是辅助性的？
## 多角度分析
在解题前，进行全面的分析：
- 涉及哪些数学概念和性质？
- 是否能回忆起类似的经典问题或解题方法？
- 是否可以借助图表或表格来更直观地理解问题？
- 是否存在需要单独考虑的特殊情况？
## 系统性思考
规划你的解题路径：
- 提出多种可能的解题思路
- 分析每种方法的可行性和优势
- 选择最合适的方法，并说明理由
- 将复杂问题分解为更小、易于管理的步骤

## 严谨证明
在解题过程中：
- 对每一步骤提供充分的依据
- 对关键结论进行详细证明
- 注意逻辑联系
- 警惕可能出现的疏漏
## 多次验证
完成解答后：
- 验证结果是否满足所有条件
- 检查是否有遗漏的特殊情况
- 思考解法是否可以优化或简化
- 回顾自己的推理过程
请记住：
1. 不要急于求成，花时间深入思考
2. 严谨地证明每一个关键结论
3. 保持开放心态，尝试不同的解题方法
4. 总结有价值的解题技巧
5. 保持健康的怀疑态度，多次验证
你的回答应体现出深厚的数学理解和严密的逻辑思维，使解题思路和推理过程清晰明了。
当你准备好时，请提交完整的解答，包括：
- 清晰的题目理解
- 详细的解题过程
- 关键见解
- 全面的验证
重点在于思路的清晰逻辑性和对数学推理的详尽解释。请使用提问者所用的语言作答，并在最后用“\boxed{}”格式重复最终答案，且不带单位。你有[[8192]]个token来完成作答。
"""

Transformers推理

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_dir = "internlm/internlm3-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 设置`torch_dtype=torch.float16`以加载半精度浮点数模型，否则将加载为单精度浮点数，可能导致显存不足错误。
model = AutoModelForCausalLM.from_pretrained(model_dir, trust_remote_code=True, torch_dtype=torch.float16)
# （可选）如果在资源有限的设备上运行，可以通过bitsandbytes库以4位或8位精度进一步节省显存。
  # InternLM3 8B以4位精度运行时，大约需要8GB显存。
  # pip install -U bitsandbytes
  # 8位：model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_8bit=True)
  # 4位：model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True，load_in_4bit=True)
model = model.eval()
messages = [
    {"role": "system", "content": thinking_system_prompt},
    {"role": "user", "content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\)，\n(1) 当 \(a = 1\) 时，求曲线 \(y = f(x)\) 在点 \((1,f(1))\) 处的切线方程。\n(2) 若 \(f(x)\) 存在局部极小值且极小值小于 \(0\)，求 \(a\) 的取值范围。"},
 ]
tokenized_chat = tokenizer.apply_chat_template(messages，tokenize=True，add_generation_prompt=True，return_tensors="pt")
generated_ids = model.generate(tokenized_chat，max_new_tokens=8192)
generated_ids = [
    output_ids[len(input_ids):] for input_ids，output_ids in zip(tokenized_chat，generated_ids)
]
prompt = tokenizer.batch_decode(tokenized_chat)[0]
print(prompt)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

LMDeploy推理

LMDeploy是一个用于压缩、部署和推理大型语言模型的工具包。

pip install lmdeploy

你可以使用以下Python代码在本地进行批量推理：

from lmdeploy import pipeline，GenerationConfig，ChatTemplateConfig
model_dir = "internlm/internlm3-8b-instruct"
chat_template_config = ChatTemplateConfig(model_name='internlm3')
pipe = pipeline(model_dir，chat_template_config=chat_template_config)
messages = [
        {"role": "system", "content": thinking_system_prompt},
        {"role": "user", "content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\)，\n(1) 当 \(a = 1\) 时，求曲线 \(y = f(x)\) 在点 \((1,f(1))\) 处的切线方程；\n(2) 若 \(f(x)\) 有极小值且极小值小于 \(0\)，求 \(a\) 的取值范围。"},
]
response = pipe(messages，gen_config=GenerationConfig(max_new_tokens=2048))
print(response)

SGLang推理

安装

pip3 install "sglang[srt]>=0.4.1.post6" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

关于离线引擎API的使用，请参考离线引擎API

Ollama推理

安装Ollama并拉取模型

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型
ollama pull internlm/internlm3-8b-instruct
# 安装ollama-python
pip install ollama

推理代码：

import ollama

messages = [
    {
        "role": "system",
        "content": thinking_system_prompt,
    },
    {
        "role": "user",
        "content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\)。\n（1）当\(a = 1\)时，求曲线\(y = f(x)\)在点\((1,f(1))\)处的切线方程；\n（2）若\(f(x)\)有极小值，且极小值小于\(0\)，求\(a\)的取值范围。"
    },
]

stream = ollama.chat(
    model='internlm/internlm3-8b-instruct',
    messages=messages，
    stream=True，
    options=dict(num_ctx=8192，num_predict=2048)
)

for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

vLLM推理

请参考安装指南以安装最新版本的vLLM。

pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

推理代码：

from vllm import LLM，SamplingParams
llm = LLM(model="internlm/internlm3-8b-instruct")
sampling_params = SamplingParams(temperature=1，repetition_penalty=1.005，top_k=40，top_p=0.8，max_tokens=8192)
prompts = [
    {
        "role": "system",
        "content": thinking_system_prompt,
    },
    {
        "role": "user",
        "content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\)，\n(1) 当 \(a = 1\) 时，求曲线 \(y = f(x)\) 在点 \((1,f(1))\) 处的切线方程；\n(2) 若 \(f(x)\) 有局部极小值且极小值小于 \(0\)，求 \(a\) 的取值范围。"
    },
]
outputs = llm.chat(prompts，
                   sampling_params=sampling_params，
                   use_tqdm=False)
print(outputs)

许可证

代码和模型权重采用Apache-2.0许可证。

引用

@misc{cai2024internlm2,
      title={InternLM2 技术报告},
      author={蔡铮、曹茂松、陈浩炯、陈凯、陈科宇、陈鑫、陈勋、陈泽辉、陈志、褚沛、董晓毅、段浩东、范琪、费兆业、高阳、葛嘉烨、顾晨雅、顾宇哲、桂涛、郭艾佳、郭启鹏、何聪辉、胡英凡、黄婷、蒋涛、焦鹏龙、金振江、雷志凯、李家兴、李静雯、李林洋、李帅斌、李伟、李怡宁、刘洪伟、刘江宁、刘嘉伟、刘凯文、刘奎坤、刘潇然、吕成奇、吕海俊、吕凯、马莉、马润元、马泽润、宁文昌、欧阳林科、邱建涛、曲源、尚福凯、邵云帆、宋德民、宋子凡、隋志豪、孙鹏、孙宇、唐焕泽、王彬、王国腾、王佳琪、王嘉宇、王锐、王宇东、王梓伊、魏星健、翁齐珍、吴凡、熊颖彤、徐超、徐瑞良、闫航、严一荣、杨小贵、叶浩辰、应怀远、于佳、于晶、臧宇航、张楚宇、张力、张盼、张鹏、张睿杰、张硕、张松阳、张文健、张文伟、张星程、张欣悦、赵辉、赵倩、赵晓梦、周峰哲、周再达、卓景明、邹义成、邱锡鹏、乔宇、林大华},
      year={2024},
      eprint={2403.17297},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

InternLM 快速上手指南

InternLM 是由上海人工智能实验室开源的一系列大语言模型。最新发布的 InternLM3-8B-Instruct 在推理和知识密集型任务上表现卓越，且支持“深度思考”模式。本指南将帮助您快速在本地部署并使用该模型。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
Python: 3.8 或更高版本
GPU: 推荐使用 NVIDIA GPU (显存要求：8B 模型推理建议至少 16GB，量化后可降低)
包管理器: pip 或 conda

前置依赖安装： 建议使用 pip 安装核心依赖库 transformers 和 accelerate。国内用户推荐使用清华源或阿里源加速下载。

pip install transformers accelerate torch -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 安装与模型下载

InternLM 模型托管在 Hugging Face 和 ModelScope（魔搭）上。强烈建议国内开发者使用 ModelScope 下载模型，以获得更快的下载速度。

方案 A：使用 ModelScope 下载（推荐）

首先安装 ModelScope 库：

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

使用 Python 脚本下载最新的 InternLM3-8B-Instruct 模型：

from modelscope import snapshot_download

model_dir = snapshot_download('Shanghai_AI_Laboratory/internlm3-8b-instruct', cache_dir='./models')
print(f"Model downloaded to: {model_dir}")

方案 B：使用 Hugging Face 下载

如果您网络环境允许，也可以直接使用 git-lfs 或 huggingface-cli：

git lfs install
git clone https://huggingface.co/internlm/internlm3-8b-instruct

3. 基本使用

以下是最简单的使用示例，展示如何加载模型并进行对话推理。此代码适用于 InternLM3 及 InternLM2.5 系列 Chat 模型。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 1. 指定模型路径 (如果是用 ModelScope 下载，填写上面的 model_dir 路径)
model_path = "./models/Shanghai_AI_Laboratory/internlm3-8b-instruct" 
# 或者直接使用 HuggingFace ID (需联网): "internlm/internlm3-8b-instruct"

# 2. 加载分词器和模型
# trust_remote_code=True 是加载 InternLM 模型的必要参数
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path, 
    torch_dtype=torch.float16, # 使用半精度节省显存
    device_map="auto",         # 自动分配设备
    trust_remote_code=True
)
model.eval()

# 3. 构建对话历史
# InternLM3 支持深度思考模式，可通过特定 prompt 触发，此处展示标准对话
history = []
query = "请简要介绍一下量子纠缠。"

# 4. 生成回复
response, history = model.chat(tokenizer, query, history=history)

print("AI 回复:", response)

进阶：开启深度思考模式

InternLM3 支持通过提示词触发长思维链（Chain-of-Thought）模式以解决复杂问题。您只需在输入中加入特定指令即可：

query = "请逐步思考并解答：如果一个池塘里的睡莲每天面积扩大一倍，30 天铺满池塘，那么铺满一半需要多少天？"
response, history = model.chat(tokenizer, query, history=history)
print(response)

注意：运行 8B 模型时，若显存不足，可尝试添加 load_in_8bit=True 参数（需安装 bitsandbytes）进行量化加载。

版本历史

v0.2.1dev202401022024/01/02

v0.2.1dev202311212023/11/21

v0.2.1dev202309152023/09/15

v0.2.1dev202309092023/09/08

v0.2.1dev202309082023/09/08

v0.2.1dev202309012023/09/01

v0.2.02023/08/24

v0.1.02023/08/24

常见问题

在 Windows 11 上使用 bitsandbytes 运行 InternLM2-chat-7B-4bits 量化模型时，模型输出混乱并重复内容，如何解决？

在 config.py 中将 use_flash_attn 设置为 False 后训练报错，应该如何处理？

InternLM2-1.8B 模型是否已经发布？在哪里可以下载？

使用 lmdeploy serve api_server 发布 internlm2_5-7b-chat 服务时，调用出现重复生成现象，如何解决？

执行 model.chat() 时报错 'RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1'，原因是什么？

如何获取书生·浦语的邀请码？填写后无法使用怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent