ONNX Runtime generate() API

注意:此 API 处于预览阶段,可能会发生变化。

使用 ONNX Runtime 运行生成式 AI 模型。

在此处查看源代码:https://github.com/microsoft/onnxruntime-genai

此库为 ONNX 模型提供生成式 AI 循环,包括使用 ONNX Runtime 进行推理、logits 处理、搜索和采样以及 KV 缓存管理。

用户可以调用高级的 generate() 方法,或者在循环中运行模型的每次迭代,一次生成一个 token,并可选择在循环内更新生成参数。

它支持贪婪搜索/束搜索以及 TopP、TopK 采样来生成 token 序列,并内置了 logits 处理(如重复惩罚)。您还可以轻松添加自定义评分。


目录