详细了解如何安装、配置和使用 Ollama 运行本地 AI 模型
按照以下步骤安装 Ollama 到您的设备上
从本网站的下载页面获取适合您操作系统的 Ollama 安装包。我们提供 Windows、macOS、Linux 和 Android 版本。
下载完成后,双击安装包开始安装过程。根据操作系统的不同,安装步骤可能会有所差异。
按照安装向导的提示完成安装过程。您可以选择安装位置和其他选项。
安装完成后,您可以从开始菜单(Windows)、Launchpad(macOS)或应用程序菜单(Linux)启动 Ollama。
请确保您的设备满足 Ollama 的最低系统要求:Windows 10/11、macOS 10.15 或更高版本,Linux Ubuntu 20.04 或更高版本,Android 8.0 或更高版本。至少 4GB 内存(推荐 8GB 或更多),200MB 可用存储空间。
学习如何下载和管理 Ollama 支持的各种 AI 模型
启动 Ollama 应用程序,等待主界面加载完成。
在 Ollama 主界面中,点击左侧导航栏的"模型"选项,进入模型管理页面。
在可用模型列表中,找到您想要下载的模型,点击"下载"按钮开始下载过程。
下载过程中,您可以看到下载进度条。等待下载完成后,模型将自动安装并准备就绪。
适合一般用途的平衡模型
专为代码生成优化的模型
多语言支持的高效模型
了解如何使用 Ollama 与 AI 模型进行交互
Ollama 提供了直观的聊天界面,让您可以轻松与 AI 模型进行对话。
您好!我是 Ollama AI 助手,有什么我可以帮助您的吗?
请解释什么是人工智能?
人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支,旨在开发能够模拟人类智能的机器和系统。人工智能系统通常能够:
人工智能的应用非常广泛,包括语音助手、自动驾驶汽车、医疗诊断、推荐系统等。
学习如何编写有效的提示词,获得更好的 AI 响应。
尽量具体地描述您的需求,避免模糊的表述。
提供足够的背景信息,帮助 AI 更好地理解您的需求。
使用明确的指令词,如"解释"、"总结"、"比较"等。
了解如何管理您与 AI 的对话。
保存重要的对话,以便日后参考
将有趣或有用的对话分享给他人
查看和管理您的对话历史
清除当前对话,开始新的对话
回到对话的 previous state
学习如何调整模型参数,优化 AI 输出结果
Ollama 允许您调整多种参数,以获得更符合您需求的输出结果。
控制输出的随机性。较低的值(如 0.1)会产生更确定的输出,较高的值(如 0.9)会产生更多样化的输出。
限制模型生成的最大token数量,控制输出的长度。
控制token采样的概率质量。较低的值会使模型更保守,只考虑高概率的token。
限制模型在每一步考虑的最高概率token数量。
不同的参数设置会产生不同的输出效果。以下是一些示例:
低温度 (0.1):
高温度 (0.9):
低 Top P (0.5):
高 Top P (0.95):
对于高级用户,Ollama 还提供了更多高级参数设置,以满足特定需求。
减少输出中的重复内容。较高的值会使模型更倾向于使用多样化的词汇。
控制模型能记住的上下文长度。较大的值允许模型处理更长的对话历史。
基于token在文本中出现的频率对其进行惩罚,鼓励模型使用多样化的词汇。
基于token是否已经出现在文本中对其进行惩罚,鼓励模型讨论新的主题。
指定输出的格式,如纯文本、JSON、Markdown等。
指定模型在遇到这些词时停止生成。
学习如何通过 API 将 Ollama 集成到您的应用程序中
Ollama 提供了 RESTful API,让您可以轻松地将 AI 功能集成到自己的应用程序中。
POST /api/generate
Content-Type: application/json
{
"model": "llama2",
"prompt": "请解释什么是人工智能",
"options": {
"temperature": 0.7,
"max_tokens": 512
},
"stream": true
}
{
"model": "llama2",
"created_at": "2026-05-12T09:27:04Z",
"response": "人工智能(Artificial Intelligence,简称AI)是计算机科学的一个分支...",
"done": true,
"context": [123, 456, 789],
"total_duration": 123456789,
"load_duration": 12345678,
"prompt_eval_count": 10,
"prompt_eval_duration": 1234567,
"eval_count": 100,
"eval_duration": 12345678
}
POST /api/chat
Content-Type: application/json
{
"model": "llama2",
"messages": [
{
"role": "user",
"content": "请解释什么是人工智能"
}
],
"options": {
"temperature": 0.7
},
"stream": true
}
Ollama 提供了多种编程语言的 SDK,方便您快速集成。
pip install ollama
import ollama
response = ollama.generate(
model="llama2",
prompt="请解释什么是人工智能",
options={"temperature": 0.7}
)
print(response["response"])
npm install ollama
const ollama = require('ollama');
async function main() {
const response = await ollama.generate({
model: 'llama2',
prompt: '请解释什么是人工智能',
options: { temperature: 0.7 }
});
console.log(response.response);
}
go get github.com/ollama/ollama-go
import "github.com/ollama/ollama-go"
client := ollama.NewClient("http://localhost:11434")
response, err := client.Generate(ollama.GenerateRequest{
Model: "llama2",
Prompt: "请解释什么是人工智能",
Options: map[string]interface{}{
"temperature": 0.7,
},
})
遵循这些最佳实践,以获得更好的 API 使用体验。
探索 Ollama 的高级功能,提升您的 AI 使用体验
使用您自己的数据对模型进行微调,创建专属于您的 AI 模型。
通过模型量化技术,在保持性能的同时减少模型大小和资源消耗。
将您的私有知识库与 AI 模型集成,让 AI 能够回答基于您数据的问题。
使用 Ollama 的批量处理功能,一次性处理多个文本或文件。
Ollama 的插件系统允许您扩展功能,连接外部服务和工具。
解决使用 Ollama 时可能遇到的常见问题
以下是用户在使用 Ollama 时经常遇到的问题及其解决方案。
查看 Ollama 服务的当前状态和更新信息。
所有服务正常运行,无已知问题。
您正在使用最新版本的 Ollama。
模型下载服务器运行正常,速度良好。