ローカルLLMは、その名の通りローカルで動作する大規模言語モデル(LLM)です。OpenAI社のGPT-4などのモデルはクラウドベースで動作しますが、ローカルLLMは手元のデバイスで動かすことができます。データを外部サーバーに送信しないためデータのプライバシーが確保でき、APIの従量課金が発生せず、通信環境に左右されることもありません。
なにより我々iOSエンジニアにとって、クラウドベースのLLMは「APIの向こう側」の話でしかなく技術的にはHTTPリクエストを投げるだけですが、ローカルLLMにはオンデバイスで動かすロマンがあります。
では、これらローカルLLMをiOSデバイスで動かすには、どのような手段があるのでしょうか。そして精度や速度の面で「実用的に」動かすことはできるのでしょうか。
どのようなモデルをチョイスし、どう動かし、どう最適化していくのか。本セッションではローカルLLMをiOSデバイス「実用的に」動かすための全知識について解説します。