使用新的 Olive CLI 普及 AI 模型优化

作者

Jambay Kinley, Hitesh Shah, Xiaoyu Zhang, Devang Patel, Sam Kemp

2024 年 11 月 11 日

👋 引言

Build 2023 大会上,微软宣布推出 Olive (ONNX Live):一个先进的模型优化工具包,旨在简化使用 ONNX runtime 优化 AI 模型以进行部署的过程。如下图所示,Olive 可以接收来自 PyTorch 或 Hugging Face 等框架的模型,并输出针对特定部署目标量身定制的优化 ONNX 模型。

Olive 工作流程。 高级 Olive 工作流程。这些硬件目标可以包括由主要硬件供应商(如高通、AMD、英伟达和英特尔)提供的各种 AI 加速器(GPU、CPU)

Olive 通过结构化的工作流程运行,该流程包含一系列称为“pass”的模型优化任务。这些 pass 可以包括模型压缩、图捕获、量化和图优化。每个 pass 都有可调整的参数,可以进行微调以实现最佳的准确性和延迟等指标,这些指标由相应的评估器评估。该工具利用搜索策略,采用算法自动微调单个 pass 或一组 pass,从而确保部署目标的最佳性能。

虽然 Olive 中使用的工作流程范例非常灵活,但对于刚接触模型优化过程的 AI 开发者来说,学习曲线可能具有挑战性。为了使模型优化更易于上手,我们针对常见场景精心策划了一组 Olive 工作流程,并将其作为新推出的易于使用的 Olive CLI 中的简单命令公开

Olive 命令。 将新的 Olive CLI 命令映射到执行的关联 Olive 工作流程。

在这篇博客中,我们将向您展示如何使用 Olive CLI 为 ONNX Runtime 准备模型。

🚀 Olive CLI 入门

首先,使用 pip 安装 Olive

pip install olive-ai[cpu,finetune]

🪄 自动优化器

安装 Olive 后,请尝试自动优化器 (olive auto-opt)。通过单个命令,Olive 将

  1. 从 Hugging Face 下载模型
  2. 将模型结构捕获到 ONNX 图中并将权重转换为 ONNX 格式。
  3. 优化 ONNX 图(例如,融合)
  4. 将模型权重量化为 int4

在 CPU 设备上为 Llama-3.2-1B-Instruct 模型运行自动优化器的命令是

olive auto-opt \
    --model_name_or_path meta-llama/Llama-3.2-1B-Instruct \
    --trust_remote_code \ 
    --output_path optimized-model \
    --device cpu \
    --provider CPUExecutionProvider \
    --precision int4 \
    --use_model_builder True \
    --log_level 1

提示:如果想要目标

  • CUDA GPU,则将 --device 更新为 gpu,将 --provider 更新为 CUDAExecutionProvider
  • Windows DirectML,则将 --device 更新为 gpu,将 --provider 更新为 DmlExecutionProvider

Olive 将应用针对特定设备和提供程序的优化。

使用 auto-opt 命令,您可以将输入模型更改为 Hugging Face 上可用的模型(例如 HuggingFaceTB/SmolLM-360M-Instruct)或本地磁盘上的模型。需要注意的是,olive auto-opt 中的 --trust_remote_code 参数仅适用于需要运行代码的 Hugging Face 中的自定义模型 - 有关更多详细信息,请参阅 Hugging Face 关于 trust_remote_code 的文档。Olive 将执行相同的过程,自动转换(为 ONNX)、优化图并量化权重。

🧪 尝试不同的量化算法

Olive CLI 允许您尝试多种不同的量化算法 - 例如 AWQ、GPTQ 和 QuaRot - 以及这些算法的不同实现。例如,使用 感知激活量化 (AWQ) 量化 Llama-3.2-1B-Instruct

注意:您的计算机需要安装 CUDA GPU 设备和相关驱动程序才能运行 AWQ、GPTQ 和 QuaRot 量化。此外,您应该使用以下命令安装 AutoAWQ 包

pip install autoawq

olive quantize \
    --model_name_or_path meta-llama/Llama-3.2-1B-Instruct \
    --algorithm awq \
    --output_path quantized-model \
    --log_level 1

使用 AWQ 方法时,量化命令将输出一个 PyTorch 模型,如果您打算在 ONNX Runtime 上使用该模型,可以使用以下命令将其转换为 ONNX

olive capture-onnx-graph \
    --model_name_or_path quantized-model/model \
    --use_ort_genai True \
    --log_level 1 \

🎚️ 微调

Olive CLI 还提供了使用 LoRA 或 QLoRA 在我们自己的数据上针对特定任务微调 AI 模型的工具。以下示例将对 Llama-3.2-1B-Instruct 进行微调以用于短语分类(给定一个英文短语,它将输出该短语的类别,如 joy/sad/fear/surprised)。

olive finetune \
    --model_name_or_path meta-llama/Llama-3.2-1B-Instruct \
    --trust_remote_code \
    --output_path models/llama3.2/ft \
    --data_name xxyyzzz/phrase_classification \
    --text_template "<|start_header_id|>user<|end_header_id|>\n{phrase}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n{tone}" \
    --method qlora \
    --max_steps 30 \
    --log_level 1 \

finetune 命令将输出一个 Hugging Face PEFT 适配器,您可以使用以下命令为其准备 ONNX runtime

# Step 1 - capture the ONNX graph of the base model and adapter
olive capture-onnx-graph \
    --model_name_or_path models/llama3.2/ft/model \
    --adapter_path models/llama3.2/ft/adapter \
    --use_ort_genai \
    --output_path models/llama3.2/onnx \
    --log_level 1

# Step 2 - Extract adapter weights from ONNX model and store in separate file for ORT
 olive generate-adapter \
    --model_name_or_path models/llama3.2/onnx \
    --output_path adapter-onnx \
    --log_level 1       

🤝 使用 ONNX Runtime 的 Generate API 推理您的优化 AI 模型

以下 Python 代码创建一个简单的基于控制台的聊天界面,该界面使用 ONNX runtime 的 Generate API 推理您的优化模型。

提示:其他语言绑定 - 例如 C#、C/C++、Java - 更多即将推出。有关最新列表,请访问 ONNX Runtime Generate API Github 页面

import onnxruntime_genai as og
import numpy as np
import os

model_folder = "optimized-model/model"

# Load the base model and tokenizer
model = og.Model(model_folder)
tokenizer = og.Tokenizer(model)
tokenizer_stream = tokenizer.create_stream()

# Set the max length to something sensible by default,
# since otherwise it will be set to the entire context length
search_options = {}
search_options['max_length'] = 200
search_options['past_present_share_buffer'] = False

chat_template = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a helpful assistant<|eot_id|><|start_header_id|>user<|end_header_id|>

{input}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
""" 

text = input("Input: ")

# Keep asking for input phrases
while text != "exit":
    if not text:
        print("Error, input cannot be empty")
        exit

    # generate prompt (prompt template + input)
    prompt = f'{chat_template.format(input=text)}'

    # encode the prompt using the tokenizer
    input_tokens = tokenizer.encode(prompt)

    params = og.GeneratorParams(model)
    params.set_search_options(**search_options)
    params.input_ids = input_tokens
    generator = og.Generator(model, params)

    print("Output: ", end='', flush=True)
    # stream the output
    try:
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()

            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
    except KeyboardInterrupt:
        print("  --control+c pressed, aborting generation--")

    print()
    text = input("Input: ")

结论

在这篇博客中,我们演示了如何使用新的 Olive CLI 为 ONNX Runtime 构建模型,然后使用 ONNX Runtime 的 Generate API 推理这些模型。Olive CLI 命令会为您执行精选的 Olive 工作流程,这意味着您将继续获得以下所有好处

  • 减少通过试错法手动尝试不同的图优化、压缩和量化技术所带来的挫败感和耗时。定义您的质量和性能约束,让 Olive 自动为您找到最佳模型。
  • 超过 40 个内置模型优化组件,涵盖量化、压缩、图优化和微调领域的尖端技术。
  • 支持创建模型,以便使用 Multi LoRA 范例进行服务。
  • 集成 Hugging FaceAzure AI
  • 内置缓存机制,节省成本并增强团队协作。正如我们在早期博客文章中分享的,Olive 还支持共享缓存