【LLM】ローカルLLMが使える!「LM Studio」を導入して使ってみたよ【無料】

本ブログはアフィリエイト広告を利用しています

WEB / アプリ
WEB / アプリ
この記事は約9分で読めます。

とっちゃん@nyanco! です。

今回はノートパソコンなどのローカル環境で大規模言語モデル(LLM)を簡単に利用できる「LM Studio(エルエムスタジオ)」をWindowsにインストールして実際にチャットをしてみたのでその手順を画像付きで分かりやすく解説するよというお話です。

肉玉にゃんこ

ローカルかつオフラインでChatGPTみたいなチャットボットが使えるようになりますにゃ~
無料かつ簡単に導入できますにゃ~

「ローカルLLM」とは?
自宅のノートパソコンなどのデバイス(ローカル)上で動くLLMのことで、以下の特徴があります。
完全にオフラインでも動くので入力したデータの収集はされず、プライバシーも安心
・ゲーミングPCなどハイスペックなパソコンでなくても動作可能(ダウンロードするLLMにもよる)

スポンサーリンク

LM Studio導入方法

▼まずはLM Studioをダウンロードするので以下リンクよりLM Studio公式ページにアクセスします。

LM Studio - Discover, download, and run local LLMs
Run Llama, Gemma 3, DeepSeek locally on your computer.

LM Studioサイトに遷移したら、「Download LM Studio for …」ボタンをクリックします。

本記事では例としてWindows PCで進めていきますが、LM Studioはクロスプラットフォーム対応なのでmacOSなどでも利用可能です。

「LM-Studio-xxxx.exe」のようなファイルがダウンロードされるのでダブルクリックで開きます。

肉玉にゃんこ

ファイル名はバージョンやダウンロードする環境によって異なりますにゃ~

「LM Studio セットアップ」ウィンドウが開き、全ユーザーが使えるのか現在のユーザーのみなのかを任意で選択して「次へ」をクリックします(本記事では「現在のユーザーのみにインストールする」で進めていきます)。

「インストール先を選んでください」と表示されるので確認して必要であれば「参照」ボタンから変更し、「インストール」をクリックします。

「LM Studio セットアップ ウィザードは完了しました」と表示されたらOKです!「完了」をクリックします。

肉玉にゃんこ

めちゃくちゃ簡単ですにゃ~!

LLMをダウンロード

続いて初期設定として、利用したいLLMモデルをダウンロードしていきます。

肉玉にゃんこ

生成AIの脳にあたる部分をダウンロードしていきますにゃ~!

▼インストールしたLM Studioを起動すると、このような画面が表示されるので「Get your first LLM(初めてのLLMを獲得する)」ボタンをクリックします。

「Download your first local LLM(あなたの初めてのローカルLLMをダウンロード)」と表示され、オススメのLLMがすぐにダウンロードできるように案内してくれます。本記事の例では「DeepSeek R1 Distilled (Qwen 7B)」というLLMがオススメされてますが、サイズが4.68GBと結構大きかったのでスルーしました ^^; ウィンドウ右上の「Skip onboading(オンボーディングをスキップ)」をクリックします(後から改めてダウンロードすることも可能です)。

肉玉にゃんこ

オススメをそのままダウンロードするのももちろんアリですにゃ~

「DeepSeek R1 Distilled (Qwen 7B)」とは?
DeepSeek R1
: DeepSeek社が開発した推論能力に特化した大規模言語モデル。R1はシリーズ名であり、自己検証や長い思考連鎖を生成する高度な推論能力を備えているのが特徴。
Distilled: モデル蒸留技術を指す。蒸留技術とは簡単に言うと、大規模な教師モデル(DeepSeek R1)の知識を小型の生徒モデルに転送し、効率性と性能のバランスを実現する手法のこと。イメージとしては、頭のいい教授(大きなAI)の知識の大事なポイントだけまとめた小さくて軽いノート(小さいAI)といった感じ。
Qwen 7B: アリババクラウドが開発したLLM「Qwen」の一つで、70億(7B)パラメータを持つモデル(ちなみに70億はLLMの中では「比較的小さい部類」。参考までにGPT-4なんかは1兆以上!のパラメータを持つ)。
まとめると「DeepSeek R1 Distilled (Qwen 7B)」とは、DeepSeek R1の知識を蒸留してQwen 7Bをベースに軽量化されたモデルとなる。

チャットができそうな画面に切り替わります(まだLLMがセットされてないので実際にはチャットできない状態)。チャットをするにはLLMをダウンロードする必要があるのでウィンドウ左メニューの「虫眼鏡アイコン」をクリックします。

▼するとダウンロードができるLLM一覧が表示されます。かなりたくさんの種類があってどれが良いのか迷いますが…

▼今回は検索フォームで「rakuten」と検索すると表示される、楽天が開発した「RakutenAI-2.0-mini-instruct-gguf」というLLMをダウンロードしてみます。

「RakutenAI-2.0-mini-instruct-gguf」とは?
RakutenAI-2.0
:楽天市場や楽天カードでお馴染みの楽天が開発した日本語に特化したLLM。2.0はその第2世代を表している。
mini:モバイル端末やリソースが限られた環境での利用を想定して設計されたミニサイズLLMであることを表す。パラメータでいうと15億(1.5B)となる。
instruct:「インストラクションチューニング」という意味。ユーザーの指示や質問に対して適切な応答を生成できるよう微調整されたことを表す。
GGUF:軽量で高速な推論を可能にするフォーマットで保存されていることを表す。ローカル環境や限られたリソースの環境でも効率的に動作するのが特徴。

肉玉にゃんこ

データサイズも約900MBとお手軽サイズですにゃ〜

「Download 894.74 MB」ボタンをクリックするとダウンロードが開始されます。

「Download Completed!」と表示されたらダウンロード完了です!

▼ちなみにダウンロードしたLLMはウィンドウ左メニューの「フォルダアイコン」で管理でき、「…」メニューから簡単に削除することも可能なので色々試してみるのが良いかと思います。

LLMをセットしてチャットしてみる

▼LLMのダウンロードができたら「Load Model(モデルを読み込み)」をクリックします。

▼するとLLMが読み込まれてチャットができる状態になります。

肉玉にゃんこ

LLMをクリックでモデルの切り替えも簡単にできますにゃ〜
(複数のLLMをダウンロードしてる前提ですにゃ〜)

▼試しに「こんにちは!」と挨拶してみると…

▼このように綺麗な日本語で返してくれました!

▼お次は「ローカルで使えるLLMについて特徴や用途について教えて」とちょっと小難しい質問を投げかけてみると…

▼このようにスラスラっと回答が返ってきました!

ミニLLMなのでどうかな〜っと思っていましたが、返答速度も速いしパッと見それっぽいことを返してくれているので可能性を感じますね(回答内容の精度はしっかり検証する必要がありそうですが)。

▼参考までにミニじゃないより精度の高そうな「RakutenAI-2.0-8x7B-instruct-GGUF」というLLMだと約20GBもあり、「Likely too large for this machine(このマシンには大きすぎる可能性があります)」と表示されていました。

「RakutenAI-2.0-8x7B-instruct-GGUF」とは?
RakutenAI-2.0
:楽天市場や楽天カードでお馴染みの楽天が開発した日本語に特化したLLM。2.0はその第2世代を表している。
8x7B:モデルが「8つの70億パラメータ(7B)」で構成されていることを表す。ちなみに単純に8✕70億で560億パラメータを持つというわけではなく、入力内容ごとに最適なサブモデル(エキスパートともいう)が2つ選ばれて処理される「Mixture of Experts (MoE) アーキテクチャ」という仕組みとなる。
instruct:「インストラクションチューニング」という意味。ユーザーの指示や質問に対して適切な応答を生成できるよう微調整されたことを表す。
GGUF:軽量で高速な推論を可能にするフォーマットで保存されていることを表す。ローカル環境や限られたリソースの環境でも効率的に動作するのが特徴。

ファイル添付(RAG)が使える

▼ちなみにLM Studioでは添付ファイルボタンから任意のファイル(.pdf、.docx、.txt、.csv)を添付をしてRAGを利用することも可能です。

You can now chat with your own documents using Retrieval Augmented Generation (RAG). Here’s how it works:
Attach Files: Upload up to 5 files at a time, with a maximum combined size of 30MB. Supported formats include PDF, DOCX, TXT, and CSV.
Be Specific: When asking questions, mention as many details as possible. This helps the system retrieve the most relevant information from your documents.
Get Responses and Experiment: The LLM will look at your query and the retrieved excerpts from your documents, and attempt to generate a response. Experiment with different queries to find what works best.

【Google翻訳】検索拡張生成 (RAG) を使用して、自分のドキュメントとチャットできるようになりました。仕組みは次のとおりです。
ファイルの添付: 一度に最大 5 つのファイルをアップロードできます。合計サイズは最大 30 MB です。サポートされている形式は、PDF、DOCX、TXT、CSV です。
具体的に: 質問するときは、できるだけ多くの詳細を記載してください。これにより、システムはドキュメントから最も関連性の高い情報を取得できます。
回答を取得して実験: LLM はクエリとドキュメントから取得した抜粋を確認し、回答を生成しようとします。さまざまなクエリを試して、最も効果的なものを見つけてください。

「RAG(ラグ)」とは?
「RAG」とはRetrieval-Augmented Generationの略で、直訳すると検索(Retrieval)して拡張(Augmented)して生成(Generation)するとなり、ざっくりいうとLLMを補助する技術となります。
どう補助するのか具体的に言うと、LLMは予め訓練されたデータに基づいての回答しかできず訓練されてない最新情報や特定分野の専門知識には対応できないケースがありますが、RAGを使うことで外部リソース(今回でいうと添付ファイル)からリアルタイムで情報を取得しLLMの知識を補完することができるので、出力精度のアップが期待できるといった感じです。

肉玉にゃんこ

webにアップしたくないような社内情報などをRAGで読み込ませれば、簡易的なローカライズLLMが構築できるイメージですにゃ〜!

ローカルでかつオフラインでも動くLM Studioの強みが活かせるのがRAGと言えそうです。

おわりに

本記事がどなたかの参考になれば幸いです。

今回は以上となります。
最後まで読んでいただきましてありがとうございました!
それではまた〜✧٩(ˊωˋ*)و✧

コメント