Ollama使用教程 - 本地AI模型羊驼运行详细指南丨Ollama中文网

安装指南

按照以下步骤安装 Ollama 到您的设备上

1

下载安装包

从本网站的下载页面获取适合您操作系统的 Ollama 安装包。我们提供 Windows、macOS、Linux 和 Android 版本。

前往下载页面

2

运行安装程序

下载完成后，双击安装包开始安装过程。根据操作系统的不同，安装步骤可能会有所差异。

安装过程中请确保您有足够的权限

3

完成安装向导

按照安装向导的提示完成安装过程。您可以选择安装位置和其他选项。

安装完成后，Ollama 将自动启动

4

启动 Ollama

安装完成后，您可以从开始菜单（Windows）、Launchpad（macOS）或应用程序菜单（Linux）启动 Ollama。

首次启动时，Ollama 会进行一些初始化设置

系统要求

请确保您的设备满足 Ollama 的最低系统要求：Windows 10/11、macOS 10.15 或更高版本，Linux Ubuntu 20.04 或更高版本，Android 8.0 或更高版本。至少 4GB 内存（推荐 8GB 或更多），200MB 可用存储空间。

模型下载

学习如何下载和管理 Ollama 支持的各种 AI 模型

下载模型步骤

1

打开 Ollama 应用

启动 Ollama 应用程序，等待主界面加载完成。

如果是首次启动，Ollama 会自动创建必要的配置文件

2

进入模型页面

在 Ollama 主界面中，点击左侧导航栏的"模型"选项，进入模型管理页面。

在模型页面中，您可以看到已安装的模型和可用的模型列表

3

选择并下载模型

在可用模型列表中，找到您想要下载的模型，点击"下载"按钮开始下载过程。

下载速度取决于您的网络连接和模型大小

4

等待下载完成

下载过程中，您可以看到下载进度条。等待下载完成后，模型将自动安装并准备就绪。

大型模型可能需要较长时间下载，请耐心等待

模型管理

删除不需要的模型

更新模型到最新版本

管理模型存储位置

基本使用

了解如何使用 Ollama 与 AI 模型进行交互

聊天界面

Ollama 提供了直观的聊天界面，让您可以轻松与 AI 模型进行对话。

您好！我是 Ollama AI 助手，有什么我可以帮助您的吗？

请解释什么是人工智能？

人工智能（Artificial Intelligence，简称 AI）是计算机科学的一个分支，旨在开发能够模拟人类智能的机器和系统。人工智能系统通常能够：

学习和适应新情况
理解和处理自然语言
识别图像和模式
解决复杂问题
做出决策

人工智能的应用非常广泛，包括语音助手、自动驾驶汽车、医疗诊断、推荐系统等。

输入框功能

快捷功能

提示词技巧

学习如何编写有效的提示词，获得更好的 AI 响应。

具体明确

尽量具体地描述您的需求，避免模糊的表述。

不好的例子：
"写一篇文章"

好的例子：
"写一篇关于人工智能在医疗领域应用的500字文章"

提供上下文

提供足够的背景信息，帮助 AI 更好地理解您的需求。

不好的例子：
"这个怎么做？"

好的例子：
"我想在 Python 中读取一个 CSV 文件并计算平均值，应该怎么做？"

使用指令词

使用明确的指令词，如"解释"、"总结"、"比较"等。

示例：
"请解释光合作用的过程"
"总结这篇文章的主要观点"
"比较苹果和橙子的营养价值"

对话管理

了解如何管理您与 AI 的对话。

保存对话

保存重要的对话，以便日后参考

分享对话

将有趣或有用的对话分享给他人

历史记录

查看和管理您的对话历史

清除对话

清除当前对话，开始新的对话

回滚对话

回到对话的 previous state

参数设置

学习如何调整模型参数，优化 AI 输出结果

常用参数

Ollama 允许您调整多种参数，以获得更符合您需求的输出结果。

温度 (Temperature)

0.7

控制输出的随机性。较低的值（如 0.1）会产生更确定的输出，较高的值（如 0.9）会产生更多样化的输出。

最大生成长度 (Max Length)

512

限制模型生成的最大token数量，控制输出的长度。

Top P

0.9

控制token采样的概率质量。较低的值会使模型更保守，只考虑高概率的token。

Top K

40

限制模型在每一步考虑的最高概率token数量。

参数效果对比

不同的参数设置会产生不同的输出效果。以下是一些示例：

温度参数对比

低温度 (0.1)：

人工智能（Artificial Intelligence，简称AI）是计算机科学的一个分支，它致力于创造能够模拟人类智能的机器。人工智能的主要目标包括学习、推理、感知、规划和解决问题等能力。

高温度 (0.9)：

人工智能是一场正在改变世界的科技革命！它像一位拥有超强大脑的数字助手，能理解我们的语言，看懂我们的世界，甚至创作艺术作品。从智能手机上的语音助手到自动驾驶汽车，AI正在各行各业绽放光彩，开启无限可能的未来！

Top P 参数对比

低 Top P (0.5)：

编程是创建计算机程序的过程。它涉及使用编程语言编写代码，以实现特定的功能或解决特定的问题。编程需要逻辑思维和解决问题的能力。

高 Top P (0.95)：

编程是一种创造的艺术，它允许你通过代码构建虚拟世界！从网页开发到移动应用，从人工智能到游戏设计，编程为你打开了一扇通往无限可能的大门。掌握编程不仅能解决实际问题，还能培养逻辑思维和创新能力。

参数预设

高级参数设置

对于高级用户，Ollama 还提供了更多高级参数设置，以满足特定需求。

重复惩罚 (Repetition Penalty)

减少输出中的重复内容。较高的值会使模型更倾向于使用多样化的词汇。

1.1

上下文窗口大小 (Context Window)

控制模型能记住的上下文长度。较大的值允许模型处理更长的对话历史。

2048

频率惩罚 (Frequency Penalty)

基于token在文本中出现的频率对其进行惩罚，鼓励模型使用多样化的词汇。

0

存在惩罚 (Presence Penalty)

基于token是否已经出现在文本中对其进行惩罚，鼓励模型讨论新的主题。

0

响应格式 (Response Format)

指定输出的格式，如纯文本、JSON、Markdown等。

停止词 (Stop Words)

指定模型在遇到这些词时停止生成。

API 使用

学习如何通过 API 将 Ollama 集成到您的应用程序中

RESTful API

Ollama 提供了 RESTful API，让您可以轻松地将 AI 功能集成到自己的应用程序中。

生成文本 API

POST /api/generate
Content-Type: application/json

{
  "model": "llama2",
  "prompt": "请解释什么是人工智能",
  "options": {
    "temperature": 0.7,
    "max_tokens": 512
  },
  "stream": true
}

响应示例

{
  "model": "llama2",
  "created_at": "2026-05-12T09:27:04Z",
  "response": "人工智能（Artificial Intelligence，简称AI）是计算机科学的一个分支...",
  "done": true,
  "context": [123, 456, 789],
  "total_duration": 123456789,
  "load_duration": 12345678,
  "prompt_eval_count": 10,
  "prompt_eval_duration": 1234567,
  "eval_count": 100,
  "eval_duration": 12345678
}

聊天 API

POST /api/chat
Content-Type: application/json

{
  "model": "llama2",
  "messages": [
    {
      "role": "user",
      "content": "请解释什么是人工智能"
    }
  ],
  "options": {
    "temperature": 0.7
  },
  "stream": true
}

SDK 支持

Ollama 提供了多种编程语言的 SDK，方便您快速集成。

Python SDK

pip install ollama

import ollama

response = ollama.generate(
    model="llama2",
    prompt="请解释什么是人工智能",
    options={"temperature": 0.7}
)

print(response["response"])

JavaScript SDK

npm install ollama

const ollama = require('ollama');

async function main() {
  const response = await ollama.generate({
    model: 'llama2',
    prompt: '请解释什么是人工智能',
    options: { temperature: 0.7 }
  });
  
  console.log(response.response);
}

Go SDK

go get github.com/ollama/ollama-go

import "github.com/ollama/ollama-go"

client := ollama.NewClient("http://localhost:11434")

response, err := client.Generate(ollama.GenerateRequest{
    Model:  "llama2",
    Prompt: "请解释什么是人工智能",
    Options: map[string]interface{}{
        "temperature": 0.7,
    },
})

查看完整 API 文档

API 最佳实践

遵循这些最佳实践，以获得更好的 API 使用体验。

性能优化

使用流式响应（stream=true）处理较长的生成任务
合理设置 max_tokens 参数，避免生成过长的文本
使用上下文（context）参数进行多轮对话，减少重复输入
对于频繁使用的请求，考虑实现缓存机制

错误处理

实现适当的错误处理和重试机制
检查 API 返回的错误代码和消息
对于长时间运行的请求，实现超时处理
监控 API 使用情况，避免过度请求

安全性

保护 API 端点，避免未授权访问
不要在客户端代码中暴露敏感信息
实现请求速率限制，防止滥用
验证和清理用户输入，防止注入攻击

用户体验

为用户提供清晰的加载状态指示
实现优雅的错误提示，帮助用户理解问题
对于较长的响应，考虑实现分页或流式显示
提供用户反馈机制，收集改进建议

高级功能

探索 Ollama 的高级功能，提升您的 AI 使用体验

模型微调

使用您自己的数据对模型进行微调，创建专属于您的 AI 模型。

支持多种微调方法

直观的微调界面

支持文本和对话数据

微调结果实时预览

模型量化

通过模型量化技术，在保持性能的同时减少模型大小和资源消耗。

支持多种量化精度

自动量化优化

性能与大小平衡

一键量化操作

知识库集成

将您的私有知识库与 AI 模型集成，让 AI 能够回答基于您数据的问题。

支持多种文件格式

智能向量检索

知识库管理界面

实时数据更新

批量处理

使用 Ollama 的批量处理功能，一次性处理多个文本或文件。

批量处理类型

文本批量处理

文件批量处理

批量翻译

批量摘要

批量处理步骤

1 选择批量处理类型
2 上传或输入要处理的内容
3 设置处理参数
4 开始批量处理
5 下载或查看处理结果

插件系统

Ollama 的插件系统允许您扩展功能，连接外部服务和工具。

插件类型

搜索插件

图像生成

网页访问

代码执行

插件管理

网络搜索

图像生成

代码执行

故障排除

解决使用 Ollama 时可能遇到的常见问题

常见问题

以下是用户在使用 Ollama 时经常遇到的问题及其解决方案。

获取帮助

如果您遇到了问题，可以通过以下方式获取帮助。

帮助中心

访问我们的帮助中心，查看详细的使用指南和常见问题解答。

访问帮助中心

社区论坛

加入我们的社区论坛，与其他用户交流经验和解决方案。

访问社区论坛

联系支持

如果您无法找到问题的解决方案，可以联系我们的支持团队。

联系支持团队

报告问题

如果您发现了软件 bug，请帮助我们报告，以便我们及时修复。