影像理解 · OCR · 文件

Vision (VLM / OCR)

TBC

可接受影像輸入的多模態對話 LLM,加上文件 OCR 與表格擷取。

概覽

Vision (VLM / OCR)

預計支援:截圖解析、紙本與 PDF 文件的 OCR、表格與圖形擷取、版面解析、收據與表單自動輸入、影像問答、UI 自動化的螢幕理解。

端點: /v1/chat/completions
範例模型: vlm-7b

API

API 範例

curl

curl https://api.openalchemy.io/v1/chat/completions \
  -H "Authorization: Bearer $OPENALCHEMY_API_KEY" \
  -H "X-Project-Id: $YOUR_PROJECT_ID" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vlm-7b",
    "messages": [
      {"role": "user", "content": [
        {"type": "text", "text": "What is in this image?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/receipt.jpg"}}
      ]}
    ]
  }'

狀態

額度與定價 (每專案)

額度與速率限制套用於發出 API 金鑰的專案;另有依網域範圍的政策層,限制哪些來源得以呼叫各模態。

閱讀此模態的文件 →

START TODAY

準備好把推論成本變成更接近煉金術的東西了嗎?

免費方案讓您建立一個專案、免信用卡執行前 1,000 次請求。

免費開始查看定價