Ollama平台推出新功能 让你轻松运行 Hugging Face Hub 上的 GGUF 大模型
Ollama之前一直只支持从官网拉模型,虽然与llama同根同源,但是不支持gguf,就很扯...
现在,终于支持了..先将 Ollama 更新到最新版(本文发布时,官方版本已经更新至0.3.13),然后就可以折腾了...
Ollama 是一款基于 llama.cpp 的应用程序,允许用户直接通过计算机与大型语言模型(LLMs)进行交互。通过 Ollama,您可以轻松使用 Hugging Face Hub 上由社区创建的任何 GGUF 量化模型(如 bartowski、MaziyarPanahi 等),而无需创建新的 Modelfile。截至目前,Hub 上已有超过 45,000 个公开的 GGUF 检查点,您只需一个简单的 ollama run
命令即可运行其中的任何一个。此外,Ollama 还提供了多种自定义选项,如选择量化类型、系统提示等,以提升您的使用体验。
快速入门
开始使用 Ollama 非常简单,只需执行以下命令:
ollama run hf.co/{username}/{repository}
请注意,您可以使用 hf.co
或 huggingface.co
作为域名。
以下是一些您可以尝试的模型示例:
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF
自定义量化
默认情况下,Ollama 会使用 Q4_K_M 量化方案(如果模型仓库中存在该方案)。如果不存在,Ollama 会自动选择一个合理的量化类型。
要选择不同的量化方案,只需在命令中添加一个标签:
ollama run hf.co/{username}/{repository}:{quantization}
例如:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0
量化名称不区分大小写,因此以下命令同样有效:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m
您还可以直接使用完整的文件名作为标签:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf
自定义聊天模板和参数
默认情况下,Ollama 会从常用模板列表中自动选择一个模板,选择依据是 GGUF 文件中内置的 tokenizer.chat_template
元数据。
如果您的 GGUF 文件没有内置模板,或者您希望自定义聊天模板,可以在仓库中创建一个名为 template
的新文件。模板必须使用 Go 模板格式,而不是 Jinja 模板。以下是一个示例:
{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>
您还可以选择性地配置系统提示,只需在仓库中创建一个名为 system
的新文件,并将提示内容放入其中。
要更改采样参数,请在仓库中创建一个名为 params
的文件,文件必须采用 JSON 格式。有关所有可用参数的列表,可以直接查看Ollama官方的模型参数配置文件
通过这些自定义选项,Ollama 为用户提供了极大的灵活性,使您能够根据自己的需求调整模型行为,从而获得最佳的使用体验。
版权声明:本文为原创文章,版权归 全栈开发技术博客 所有。
本文链接:https://www.lvtao.net/tool/ollama-hf-run-gguf.html
转载时须注明出处及本声明