llama.cppの実行

このページではLLM(チャットAI)をllama.cppで実行する方法を紹介します。

例えとして、gemma-4-E2B-it-Q4_1.ggufを使って環境構築を行います。

前提

以下の環境で試験を行っています。

OSWindows11
メモリ32Gbyte

環境構築

llama.cppのインストール

下記サイトから環境にあったパッケージをダウンロードします。

対応するパッケージは以下を参考にしてください。

環境パッケージ
NVIDIAのGPUWindows x64 (CUDA 12) / Windows x64 (CUDA 13
AMDのGPUWindows x64 (Vulkan)
GPUなし(CPUで実行)Windows x64 (CPU)

CPUで実行するパッケージはx64とArm64がありますが、Snapdragonなどよっぽど変わったCPUを使った環境でないかぎりx64で問題ありません。

Releases · ggml-org/llama.cpp
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.

ダウンロードが完了したらzipを任意のフォルダに解凍してインストール完了です。

モデルのダウンロード

使用するモデルをダウンロードします。

gemma-4-E2B-it-Q4_1.ggufは以下のページにあります。

unsloth/gemma-4-E2B-it-GGUF at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

llama.cppの実行

以下のコマンドをパッケージを解凍したフォルダで実行します。

llama-cli.exe -m モデルパス

gemma-4-E2B-it-Q4_1.ggufを同じフォルダに置いている場合、コマンドは以下のようになります。

llama-cli.exe -m ./gemma-4-E2B-it-Q4_1.gguf

以下のように表示されたらチャットが行えます。日本語の入力も可能です。

Thinking Processも表示されました

終了

Ctrl+Cでアプリケーションを終了することができます。

トラブルシューティング

モデルの中には拡張子がsafetensorsのものもありますが、使用できないようです。

拡張子がggufのものをダウンロード、使用してください。(”モデル名 gguf”で検索するとだいたいHungingfaceのページが引っかかります。)

タイトルとURLをコピーしました