图像理解 · OCR · 文档

Vision (VLM / OCR)

TBC

可接受图像输入的多模态对话 LLM,加上文档 OCR 与表格截取。

概览

Vision (VLM / OCR)

预计支持:截屏解析、纸本与 PDF 文档的 OCR、表格与图形截取、版面解析、收据与表单自动输入、图像问答、UI 自动化的屏幕理解。

端点: /v1/chat/completions
范例模型: vlm-7b

API

API 范例

curl

curl https://api.openalchemy.io/v1/chat/completions \
  -H "Authorization: Bearer $OPENALCHEMY_API_KEY" \
  -H "X-Project-Id: $YOUR_PROJECT_ID" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vlm-7b",
    "messages": [
      {"role": "user", "content": [
        {"type": "text", "text": "What is in this image?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/receipt.jpg"}}
      ]}
    ]
  }'

状态

额度与定价 (每项目)

额度与速率限制套用于发出 API 密钥的项目;另有依网域范围的政策层,限制哪些来源得以调用各模态。

阅读此模态的文件 →

START TODAY

准备好把推论成本变成更接近炼金术的东西了吗?

免费方案让您创建一个项目、免信用卡运行前 1,000 次请求。

免费开始查看定价