InternLM
InternLM 是由上海人工智能实验室推出的一系列开源大语言模型,涵盖从初代到最新的 InternLM3 等多个版本。它旨在为通用场景提供强大的语言理解与生成能力,特别擅长处理复杂的逻辑推理和知识密集型任务。
针对大模型训练成本高、推理效率低的痛点,InternLM3 展现了卓越的性能优势。仅使用 4 万亿高质量令牌进行训练,其成本比同规模模型降低了 75% 以上,却在推理能力上超越了 Llama3.1-8B 和 Qwen2.5-7B 等主流模型。此外,InternLM3 创新性地支持“深度思考”模式,能够通过长思维链解决复杂难题,同时也具备流畅的正常对话模式,兼顾了深度分析与日常交互的需求。
这款工具非常适合 AI 研究人员、开发者以及需要构建智能应用的企业团队使用。无论是希望低成本部署高性能模型的技术人员,还是致力于探索大模型推理机制的学者,都能从中获益。普通用户也可以通过其在线聊天界面体验先进的 AI 对话服务。凭借高效的训练策略、灵活的思维模式以及持续更新的模型家族(包括数学专用模型和奖励模型),InternLM 为开源社区提供了一个兼具性价比与技术前沿性的优质选择。
使用场景
某金融科技公司量化团队正试图构建一个自动化研报分析系统,需要从海量财经新闻和财报中提取关键数据并推导投资逻辑。
没有 InternLM 时
- 推理深度不足:通用模型在处理复杂的财务因果链时往往浅尝辄止,无法像人类分析师那样进行多步逻辑推演,导致结论缺乏说服力。
- 训练成本高昂:为了达到可用的专业精度,团队需耗费巨额算力训练或微调大参数模型,预算严重超支且周期漫长。
- 响应模式单一:模型只能在“快速回答”和“深度思考”间二选一,无法根据问题复杂度动态切换,既浪费资源又影响用户体验。
- 知识更新滞后:面对最新的金融市场动态和术语,旧模型泛化能力差,频繁出现幻觉或过时信息,需人工反复校验。
使用 InternLM 后
- 深度思维激活:利用 InternLM3 的长链条思维(Chain-of-Thought)模式,模型能自动拆解复杂财务问题,逐步推导出的投资逻辑准确率显著提升。
- 降本增效显著:得益于仅用 4 万亿高质量令牌训练即超越同规模竞品,团队以节省 75% 的训练成本获得了更优的推理性能。
- 双模灵活切换:InternLM 支持在“深度思考”与“流畅交互”间智能切换,简单查询秒级响应,复杂研判则自动进入深度分析模式。
- 前沿知识覆盖:基于最新训练数据,InternLM 对新兴金融概念理解精准,大幅减少了事实性错误,人工复核工作量降低 80%。
InternLM 以极低的训练成本赋予了业务系统专家级的深度推理能力,真正实现了高性能与低消耗的完美平衡。
运行环境要求
- 未说明
未说明(模型参数量涵盖 1.8B 至 20B,实际显存需求取决于具体模型版本及是否量化,通常 7B 模型需 14GB+ 显存,20B 模型需 40GB+ 显存)
未说明

快速开始
InternLM
简介
InternLM3 开源了一款 80 亿参数的指令模型 InternLM3-8B-Instruct,专为通用场景和高级推理设计。该模型具有以下特点:
- 性能提升,成本降低:在推理和知识密集型任务上达到业界领先水平,超越 Llama3.1-8B 和 Qwen2.5-7B 等模型。令人瞩目的是,InternLM3 仅使用了 4 万亿高质量 tokens 进行训练,相比同类规模的大模型节省了超过 75% 的训练成本。
- 深度思考能力:InternLM3 同时支持通过长链式思维解决复杂推理任务的深度思考模式,以及用于流畅用户交互的普通响应模式。
新闻
[2025.01.15] 我们发布了 InternLM3-8B-Instruct,请参阅下方的 模型库 获取下载链接,或访问 模型卡片 了解更多详情。
[2024.08.01] 我们发布了 InternLM2.5-1.8B、InternLM2.5-1.8B-Chat、InternLM2.5-20B 和 InternLM2.5-20B-Chat。请参阅下方的 模型库 获取下载链接,或访问 模型卡片 了解更多详情。
[2024.07.19] 我们发布了 InternLM2-Reward 系列奖励模型,包括 1.8B、7B 和 20B 三种规模。请参阅下方的 模型库 获取下载链接,或访问 模型卡片 了解更多详情。
[2024.07.03] 我们发布了 InternLM2.5-7B、InternLM2.5-7B-Chat 和 InternLM2.5-7B-Chat-1M。请参阅下方的 模型库 获取下载链接,或访问 模型卡片 了解更多详情。
[2024.03.26] 我们发布了 InternLM2 技术报告。详情请参阅 arXiv。
[2024.01.31] 我们发布了 InternLM2-1.8B 及其对应的聊天模型。它们在保持领先性能的同时,提供了更为经济的部署方案。
[2024.01.23] 我们发布了 InternLM2-Math-7B 和 InternLM2-Math-20B,包含预训练和 SFT 检查点。这些模型以较小的规模便超越了 ChatGPT。详情及下载请参阅 InternLM-Math。
[2024.01.17] 我们发布了 InternLM2-7B 和 InternLM2-20B,以及它们对应的聊天模型,各方面能力均得到显著提升。请参阅下方的 模型库 获取下载链接,或访问 模型卡片 了解更多详情。
[2023.12.13] InternLM-7B-Chat 和 InternLM-20B-Chat 的检查点已更新。通过改进的微调策略,新的聊天模型能够生成更高质量、风格更加多样的回复。
[2023.09.20] InternLM-20B 正式发布,包含基础版和聊天版。
模型库
InternLM3
| 模型 | Transformers | ModelScope | Modelers | 发布日期 |
|---|---|---|---|---|
| InternLM3-8B-Instruct | 🤗internlm3_8B_instruct | internlm3_8b_instruct |
2025-01-15 |
InternLM2.5
(点击展开)
| 模型 | Transformers(HF) | ModelScope(HF) | OpenXLab(HF) | OpenXLab(Origin) | 发布日期 |
|---|---|---|---|---|---|
| InternLM2.5-1.8B | 🤗internlm2_5-1_8b | internlm2_5-1_8b |
2024-08-05 | ||
| InternLM2.5-1.8B-Chat | 🤗internlm2_5-1_8b-chat | internlm2_5-1_8b-chat |
2024-08-05 | ||
| InternLM2.5-7B | 🤗internlm2_5-7b | internlm2_5-7b |
2024-07-03 | ||
| InternLM2.5-7B-Chat | 🤗internlm2_5-7b-chat | internlm2_5-7b-chat |
2024-07-03 | ||
| InternLM2.5-7B-Chat-1M | 🤗internlm2_5-7b-chat-1m | internlm2_5-7b-chat-1m |
2024-07-03 | ||
| InternLM2.5-20B | 🤗internlm2_5-20b | internlm2_5-20b |
2024-08-05 | ||
| InternLM2.5-20B-Chat | 🤗internlm2_5-20b-chat | internlm2_5-20b-chat |
2024-08-05 |
说明:
InternLM2.5系列包括1.8B、7B和20B三个版本。7B模型在研究和应用中较为高效,而20B模型功能更强大,能够支持更复杂的场景。这些模型之间的关系如下:
- InternLM2.5:基于大规模语料预训练的基础模型。在大多数应用场景中,建议优先考虑使用InternLM2.5模型。
- InternLM2.5-Chat:在InternLM2.5基础上,经过监督微调(SFT)和人类反馈强化学习(RLHF)优化的对话模型。InternLM2.5-Chat针对指令遵循、对话体验和函数调用进行了优化,推荐用于下游应用。
- InternLM2.5-Chat-1M:该模型支持100万 token的长上下文,同时保持与InternLM2.5-Chat相当的性能。
局限性: 尽管我们在训练过程中尽力确保模型的安全性,并鼓励其生成符合伦理和法律要求的文本,但由于模型规模较大且采用概率生成机制,仍可能出现意外输出。例如,生成的回答可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而产生的任何后果,我们概不负责。
补充说明: HF 指的是 HuggingFace 在 transformers 中使用的格式,而 Origin 则表示 InternLM 团队在 InternEvo 中采用的格式。
InternLM2-Reward
(点击展开)
InternLM2-Reward 是一系列奖励模型,基于 240 万条偏好样本进行训练,提供 18 亿、70 亿和 200 亿三种参数规模。这些模型被应用于我们对话模型的 PPO 训练过程中。更多详情请参阅 模型卡片。
| 模型 | RewardBench 分数 | Transformers(HF) | ModelScope(HF) | OpenXLab(HF) | 发布日期 |
|---|---|---|---|---|---|
| InternLM2-1.8B-Reward | 80.6 | 🤗internlm2-1_8b-reward | internlm2-1_8b-reward |
2024-07-19 | |
| InternLM2-7B-Reward | 86.6 | 🤗internlm2-7b-reward | internlm2-7b-reward |
2024-07-19 | |
| InternLM2-20B-Reward | 89.5 | 🤗internlm2-20b-reward | internlm2-20b-reward |
2024-07-19 |
InternLM2
(点击展开)
我们上一代模型,在长上下文处理、推理和编程方面具有先进能力。更多详情请参阅 模型卡片。
| 模型 | Transformers(HF) | ModelScope(HF) | OpenXLab(HF) | OpenXLab(Origin) | 发布日期 |
|---|---|---|---|---|---|
| InternLM2-1.8B | 🤗internlm2-1.8b | internlm2-1.8b |
2024-01-31 | ||
| InternLM2-Chat-1.8B-SFT | 🤗internlm2-chat-1.8b-sft | internlm2-chat-1.8b-sft |
2024-01-31 | ||
| InternLM2-Chat-1.8B | 🤗internlm2-chat-1.8b | internlm2-chat-1.8b |
2024-02-19 | ||
| InternLM2-Base-7B | 🤗internlm2-base-7b | internlm2-base-7b |
2024-01-17 | ||
| InternLM2-7B | 🤗internlm2-7b | internlm2-7b |
2024-01-17 | ||
| InternLM2-Chat-7B-SFT | 🤗internlm2-chat-7b-sft | internlm2-chat-7b-sft |
2024-01-17 | ||
| InternLM2-Chat-7B | 🤗internlm2-chat-7b | internlm2-chat-7b |
2024-01-17 | ||
| InternLM2-Base-20B | 🤗internlm2-base-20b | internlm2-base-20b |
2024-01-17 | ||
| InternLM2-20B | 🤗internlm2-20b | internlm2-20b |
2024-01-17 | ||
| InternLM2-Chat-20B-SFT | 🤗internlm2-chat-20b-sft | internlm2-chat-20b-sft |
2024-01-17 | ||
| InternLM2-Chat-20B | 🤗internlm2-chat-20b | internlm2-chat-20b |
2024-01-17 |
性能
我们使用开源评估工具 OpenCompass 对 InternLM 进行了全面的评估。评估涵盖了五个能力维度:学科能力、语言能力、知识能力、推理能力和理解能力。以下是一些评估结果,更多评估结果请访问 OpenCompass 排行榜。
| 基准测试 | InternLM3-8B-Instruct | Qwen2.5-7B-Instruct | Llama3.1-8B-Instruct | GPT-4o-mini(闭源) | |
|---|---|---|---|---|---|
| 通用 | CMMLU(零样本) | 83.1 | 75.8 | 53.9 | 66.0 |
| MMLU(零样本) | 76.6 | 76.8 | 71.8 | 82.7 | |
| MMLU-Pro(零样本) | 57.6 | 56.2 | 48.1 | 64.1 | |
| 推理 | GPQA-Diamond(零样本) | 37.4 | 33.3 | 24.2 | 42.9 |
| DROP(零样本) | 83.1 | 80.4 | 81.6 | 85.2 | |
| HellaSwag(10样本) | 91.2 | 85.3 | 76.7 | 89.5 | |
| KOR-Bench(零样本) | 56.4 | 44.6 | 47.7 | 58.2 | |
| 数学 | MATH-500(零样本) | 83.0* | 72.4 | 48.4 | 74.0 |
| AIME2024(零样本) | 20.0* | 16.7 | 6.7 | 13.3 | |
| 编程 | LiveCodeBench(2407-2409 Pass@1) | 17.8 | 16.8 | 12.9 | 21.8 |
| HumanEval(Pass@1) | 82.3 | 85.4 | 72.0 | 86.6 | |
| 指令 | IFEval(Prompt-Strict) | 79.3 | 71.7 | 75.2 | 79.7 |
| 长上下文 | RULER(4-128K 平均) | 87.9 | 81.4 | 88.5 | 90.7 |
| 聊天 | AlpacaEval 2.0(LC 胜率) | 51.1 | 30.3 | 25.0 | 50.7 |
| WildBench(原始分数) | 33.1 | 23.3 | 1.5 | 40.3 | |
| MT-Bench-101(1-10分) | 8.59 | 8.49 | 8.37 | 8.87 |
- 评估结果来自 OpenCompass(部分数据标有 *,表示以思考模式进行评估),评估配置可在 OpenCompass 提供的配置文件中找到。
- 由于 OpenCompass 的版本迭代,评估数据可能存在数值差异,请以 OpenCompass 的最新评估结果为准。 局限性: 尽管我们在训练过程中努力确保模型的安全性,并鼓励模型生成符合伦理和法律要求的文本,但由于模型规模较大且采用概率生成机制,仍可能出现意外输出。例如,生成的回答可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而产生的任何后果,我们概不负责。
环境要求
- Python >= 3.8
- PyTorch >= 1.12.0(建议使用 2.0.0 及以上版本)
- Transformers >= 4.38
使用方法
对话模式
Transformers 推理
要使用 Transformers 加载 InternLM3 8B Instruct 模型,可以使用以下代码:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_dir = "internlm/internlm3-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 设置 `torch_dtype=torch.float16` 以加载半精度浮点数模型,否则将加载为单精度浮点数,可能导致内存溢出错误。
model = AutoModelForCausalLM.from_pretrained(model_dir,trust_remote_code=True, torch_dtype=torch.float16)
# (可选)如果在资源有限的设备上运行,可以通过 bitsandbytes 以 4 位或 8 位精度加载模型,从而进一步节省显存。
# InternLM3 8B 模型使用 4 位精度时,大约需要 8GB 显存。
# pip install -U bitsandbytes
# 8 位精度:model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_8bit=True)
# 4 位精度:model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_4bit=True)
model = model.eval()
system_prompt = """你是一个名为 InternLM(书生·浦语)的AI助手。
- InternLM(书生·浦语)是由上海人工智能实验室开发的对话式语言模型。它旨在做到有用、诚实和无害。
- InternLM(书生·浦语)能够理解并流利地使用用户选择的语言进行交流,例如英语和中文。"""
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": "请告诉我上海的五个景点"},
]
tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
generated_ids = model.generate(tokenized_chat, max_new_tokens=1024, temperature=1, repetition_penalty=1.005, top_k=40, top_p=0.8)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(tokenized_chat, generated_ids)
]
prompt = tokenizer.batch_decode(tokenized_chat)[0]
print(prompt)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)
LMDeploy 推理
LMDeploy 是由 MMRazor 和 MMDeploy 团队开发的用于压缩、部署和推理 LLM 的工具包。
pip install lmdeploy
你可以使用以下 Python 代码在本地运行批量推理:
import lmdeploy
model_dir = "internlm/internlm3-8b-instruct"
pipe = lmdeploy.pipeline(model_dir)
response = pipe("请告诉我上海的五个景点")
print(response)
或者,你可以通过以下命令启动一个兼容 OpenAI 的服务器:
lmdeploy serve api_server internlm/internlm3-8b-instruct --model-name internlm3-8b-instruct --server-port 23333
然后你可以向该服务器发送聊天请求:
curl http://localhost:23333/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "internlm3-8b-instruct",
"messages": [
{"role": "user", "content": "请告诉我上海的五个景点"}
]
}'
更多详细信息请参阅 LMDeploy 文档
SGLang 推理
安装
pip3 install "sglang[srt]>=0.4.1.post6" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
兼容 OpenAI 的服务器
python3 -m sglang.launch_server --model internlm/internlm3-8b-instruct --trust-remote-code --chat-template internlm2-chat
OpenAI 客户端
import openai
client = openai.Client(
base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
# 聊天完成
response = client.chat.completions.create(
model="default",
messages=[
{"role": "system", "content": "你是一个有用的AI助手"},
{"role": "user", "content": "请列出3个国家及其首都。"},
],
temperature=0,
max_tokens=64,
)
print(response)
Ollama 推理
安装 Ollama 并拉取模型
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型
ollama pull internlm/internlm3-8b-instruct
# 安装 ollama-python
pip install ollama
推理代码:
import ollama
system_prompt = """你是一个名为 InternLM(书生·浦语)的AI助手。
- InternLM(书生·浦语)是由上海人工智能实验室开发的对话式语言模型。它旨在做到有用、诚实和无害。
- InternLM(书生·浦语)能够理解并流利地使用用户选择的语言进行交流,例如英语和中文。"""
messages = [
{
"role": "system",
"content": system_prompt,
},
{
"role": "user",
"content": "请告诉我上海的五个景点"
},
]
stream = ollama.chat(
model='internlm/internlm3-8b-instruct',
messages=messages,
stream=True,
)
for chunk in stream:
print(chunk['message']['content'], end='', flush=True)
vLLM 推理
参考 安装指南 安装最新版本的 vLLM。
pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
推理代码:
from vllm import LLM, SamplingParams
llm = LLM(model="internlm/internlm3-8b-instruct")
sampling_params = SamplingParams(temperature=1, repetition_penalty=1.005, top_k=40, top_p=0.8)
system_prompt = """你是一个名为 InternLM(书生·浦语)的AI助手。
- InternLM(书生·浦语)是由上海人工智能实验室开发的对话式语言模型。它旨在做到有用、诚实和无害。
- InternLM(书生·浦语)能够理解并流利地使用用户选择的语言进行交流,例如英语和中文。"""
prompts = [
{
"role": "system",
"content": system_prompt,
},
{
"role": "user",
"content": "请告诉我上海的五个景点"
},
]
outputs = llm.chat(prompts,
sampling_params=sampling_params,
use_tqdm=False)
print(outputs)
思维模式
思维演示
思维系统提示
thinking_system_prompt = """你是一位在数学竞赛领域经验丰富的专家级数学家。你通过系统性思考和严谨的推理来解决问题。解题时,请遵循以下思维流程:
## 深度理解
在尝试解题之前,花时间充分理解问题。考虑以下几点:
- 问题真正想问的是什么?
- 已知条件是什么?它们告诉我们什么?
- 是否存在特殊的限制或假设?
- 哪些信息是关键的,哪些是辅助性的?
## 多角度分析
在解题前,进行全面的分析:
- 涉及哪些数学概念和性质?
- 是否能回忆起类似的经典问题或解题方法?
- 是否可以借助图表或表格来更直观地理解问题?
- 是否存在需要单独考虑的特殊情况?
## 系统性思考
规划你的解题路径:
- 提出多种可能的解题思路
- 分析每种方法的可行性和优势
- 选择最合适的方法,并说明理由
- 将复杂问题分解为更小、易于管理的步骤
## 严谨证明
在解题过程中:
- 对每一步骤提供充分的依据
- 对关键结论进行详细证明
- 注意逻辑联系
- 警惕可能出现的疏漏
## 多次验证
完成解答后:
- 验证结果是否满足所有条件
- 检查是否有遗漏的特殊情况
- 思考解法是否可以优化或简化
- 回顾自己的推理过程
请记住:
1. 不要急于求成,花时间深入思考
2. 严谨地证明每一个关键结论
3. 保持开放心态,尝试不同的解题方法
4. 总结有价值的解题技巧
5. 保持健康的怀疑态度,多次验证
你的回答应体现出深厚的数学理解和严密的逻辑思维,使解题思路和推理过程清晰明了。
当你准备好时,请提交完整的解答,包括:
- 清晰的题目理解
- 详细的解题过程
- 关键见解
- 全面的验证
重点在于思路的清晰逻辑性和对数学推理的详尽解释。请使用提问者所用的语言作答,并在最后用“\boxed{}”格式重复最终答案,且不带单位。你有[[8192]]个token来完成作答。
"""
Transformers推理
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_dir = "internlm/internlm3-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 设置`torch_dtype=torch.float16`以加载半精度浮点数模型,否则将加载为单精度浮点数,可能导致显存不足错误。
model = AutoModelForCausalLM.from_pretrained(model_dir, trust_remote_code=True, torch_dtype=torch.float16)
# (可选)如果在资源有限的设备上运行,可以通过bitsandbytes库以4位或8位精度进一步节省显存。
# InternLM3 8B以4位精度运行时,大约需要8GB显存。
# pip install -U bitsandbytes
# 8位:model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_8bit=True)
# 4位:model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True,load_in_4bit=True)
model = model.eval()
messages = [
{"role": "system", "content": thinking_system_prompt},
{"role": "user", "content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\),\n(1) 当 \(a = 1\) 时,求曲线 \(y = f(x)\) 在点 \((1,f(1))\) 处的切线方程。\n(2) 若 \(f(x)\) 存在局部极小值且极小值小于 \(0\),求 \(a\) 的取值范围。"},
]
tokenized_chat = tokenizer.apply_chat_template(messages,tokenize=True,add_generation_prompt=True,return_tensors="pt")
generated_ids = model.generate(tokenized_chat,max_new_tokens=8192)
generated_ids = [
output_ids[len(input_ids):] for input_ids,output_ids in zip(tokenized_chat,generated_ids)
]
prompt = tokenizer.batch_decode(tokenized_chat)[0]
print(prompt)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)
LMDeploy推理
LMDeploy是一个用于压缩、部署和推理大型语言模型的工具包。
pip install lmdeploy
你可以使用以下Python代码在本地进行批量推理:
from lmdeploy import pipeline,GenerationConfig,ChatTemplateConfig
model_dir = "internlm/internlm3-8b-instruct"
chat_template_config = ChatTemplateConfig(model_name='internlm3')
pipe = pipeline(model_dir,chat_template_config=chat_template_config)
messages = [
{"role": "system", "content": thinking_system_prompt},
{"role": "user", "content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\),\n(1) 当 \(a = 1\) 时,求曲线 \(y = f(x)\) 在点 \((1,f(1))\) 处的切线方程;\n(2) 若 \(f(x)\) 有极小值且极小值小于 \(0\),求 \(a\) 的取值范围。"},
]
response = pipe(messages,gen_config=GenerationConfig(max_new_tokens=2048))
print(response)
SGLang推理
安装
pip3 install "sglang[srt]>=0.4.1.post6" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
关于离线引擎API的使用,请参考离线引擎API
Ollama推理
安装Ollama并拉取模型
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型
ollama pull internlm/internlm3-8b-instruct
# 安装ollama-python
pip install ollama
推理代码:
import ollama
messages = [
{
"role": "system",
"content": thinking_system_prompt,
},
{
"role": "user",
"content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\)。\n(1)当\(a = 1\)时,求曲线\(y = f(x)\)在点\((1,f(1))\)处的切线方程;\n(2)若\(f(x)\)有极小值,且极小值小于\(0\),求\(a\)的取值范围。"
},
]
stream = ollama.chat(
model='internlm/internlm3-8b-instruct',
messages=messages,
stream=True,
options=dict(num_ctx=8192,num_predict=2048)
)
for chunk in stream:
print(chunk['message']['content'], end='', flush=True)
vLLM推理
请参考安装指南以安装最新版本的vLLM。
pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
推理代码:
from vllm import LLM,SamplingParams
llm = LLM(model="internlm/internlm3-8b-instruct")
sampling_params = SamplingParams(temperature=1,repetition_penalty=1.005,top_k=40,top_p=0.8,max_tokens=8192)
prompts = [
{
"role": "system",
"content": thinking_system_prompt,
},
{
"role": "user",
"content": "已知函数\(f(x)=\mathrm{e}^{x}-ax - a^{3}\),\n(1) 当 \(a = 1\) 时,求曲线 \(y = f(x)\) 在点 \((1,f(1))\) 处的切线方程;\n(2) 若 \(f(x)\) 有局部极小值且极小值小于 \(0\),求 \(a\) 的取值范围。"
},
]
outputs = llm.chat(prompts,
sampling_params=sampling_params,
use_tqdm=False)
print(outputs)
许可证
代码和模型权重采用Apache-2.0许可证。
引用
@misc{cai2024internlm2,
title={InternLM2 技术报告},
author={蔡铮、曹茂松、陈浩炯、陈凯、陈科宇、陈鑫、陈勋、陈泽辉、陈志、褚沛、董晓毅、段浩东、范琪、费兆业、高阳、葛嘉烨、顾晨雅、顾宇哲、桂涛、郭艾佳、郭启鹏、何聪辉、胡英凡、黄婷、蒋涛、焦鹏龙、金振江、雷志凯、李家兴、李静雯、李林洋、李帅斌、李伟、李怡宁、刘洪伟、刘江宁、刘嘉伟、刘凯文、刘奎坤、刘潇然、吕成奇、吕海俊、吕凯、马莉、马润元、马泽润、宁文昌、欧阳林科、邱建涛、曲源、尚福凯、邵云帆、宋德民、宋子凡、隋志豪、孙鹏、孙宇、唐焕泽、王彬、王国腾、王佳琪、王嘉宇、王锐、王宇东、王梓伊、魏星健、翁齐珍、吴凡、熊颖彤、徐超、徐瑞良、闫航、严一荣、杨小贵、叶浩辰、应怀远、于佳、于晶、臧宇航、张楚宇、张力、张盼、张鹏、张睿杰、张硕、张松阳、张文健、张文伟、张星程、张欣悦、赵辉、赵倩、赵晓梦、周峰哲、周再达、卓景明、邹义成、邱锡鹏、乔宇、林大华},
year={2024},
eprint={2403.17297},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
版本历史
v0.2.1dev202401022024/01/02v0.2.1dev202311212023/11/21v0.2.1dev202309152023/09/15v0.2.1dev202309092023/09/08v0.2.1dev202309082023/09/08v0.2.1dev202309012023/09/01v0.2.02023/08/24v0.1.02023/08/24常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
internlm3_8b_instruct