llama.cppの実行

このページではLLM（チャットAI）をllama.cppで実行する方法を紹介します。

例えとして、gemma-4-E2B-it-Q4_1.ggufを使って環境構築を行います。

前提

以下の環境で試験を行っています。

OS	Windows11
メモリ	32Gbyte

下記サイトから環境にあったパッケージをダウンロードします。

対応するパッケージは以下を参考にしてください。

CPUで実行するパッケージはx64とArm64がありますが、Snapdragonなどよっぽど変わったCPUを使った環境でないかぎりx64で問題ありません。

ダウンロードが完了したらzipを任意のフォルダに解凍してインストール完了です。

使用するモデルをダウンロードします。

gemma-4-E2B-it-Q4_1.ggufは以下のページにあります。

以下のコマンドをパッケージを解凍したフォルダで実行します。

llama-cli.exe -m モデルパス

gemma-4-E2B-it-Q4_1.ggufを同じフォルダに置いている場合、コマンドは以下のようになります。

llama-cli.exe -m ./gemma-4-E2B-it-Q4_1.gguf

以下のように表示されたらチャットが行えます。日本語の入力も可能です。

Thinking Processも表示されました

Ctrl+Cでアプリケーションを終了することができます。

モデルの中には拡張子がsafetensorsのものもありますが、使用できないようです。

拡張子がggufのものをダウンロード、使用してください。（”モデル名　gguf”で検索するとだいたいHungingfaceのページが引っかかります。）