ブログ
エンジニアリングノート
OpenAlchemy を作るチームによる技術解説——推論の内部構造、モデル最適化、そしてプラットフォームを支えるオープンソースの取り組み。
- エンジニアリング2026年6月9日約7分
RTX 50 シリーズで動く Whisper ── whisper.cpp フォークと実運用 STT レイヤー
本家 whisper.cpp は Blackwell GPU でクラッシュします。それを修正し、ストリーミング・単語単位のタイムスタンプ・キャンセル・OpenAI 互換の文字起こし API で包みました。
- エンジニアリング2026年5月30日約9分
llama.cpp に TurboQuant を実装 ── 2bit・3bit の KV キャッシュ圧縮
Google Research の TurboQuant を KV キャッシュに持ち込むため llama.cpp をフォークしました。3bit で約 5 分の 1 に圧縮しつつ品質はほぼ無劣化、Qwen で実測の効果を確認しています。