Siriuth's Diary: LocalAI v4.0.0でpocket-ttsがそのまま動いた＼(^

2026年4月1日水曜日

LocalAI v4.0.0でpocket-ttsがそのまま動いた＼(^_^)／

いや、普通は動くんじゃね？って思うでしょ？dockerのイメージを使って動かすなら動くんでしょうけど、こっちはソースからビルドしたネイティブ環境という茨の道を歩いている最中…。

localAIを初めて触ったときは、インストールをワンライナー形式で実行して勝手にバイナリーのダウンロードしてLocalAI内からbackendをインストールしていたのですが、oneAPIを使おうと色々やってみると今度はdockerイメージのダウンロードが始まったり初心者には非常に良く分からない世界へと。

でも結構普通に動かしてもチャットはできるものの、TTSやIMAGEは動かず。で、なんかdockerも変な動きするし気持ち悪いし、なんかI/Oが遅くね？って感じだったのでネイティブ環境の道を進み始めました。

すると、思っていた以上に茨の道だという事に気づいたのはついこの間…(笑)素直にdockerで動かした方がいいと思います。

バージョンもv4になって、最初は何やら動作がおかしかった気がしてv3.12.1を使ってbackendのビルドとかやっていたのですが、ふと先週末からv4で動かしてみると普通に動くので本格的に移行した感じです。（ビルド状態は変わってないはずなのに…）

で、先ほどふと、LocalAI内でいくつか小さそうなTTSのモデルインストールをしてみるとbackendが自動的にダウンロードされていたので、試しに動かしてみると…動きました…というかちゃんとwavファイルが出てきて再生できる感じの表示に。慌ててPCのボリュームを上げて鳴らしてみると…「音はするけど音声ではない何か」の音声が出来上がっていました。

ちゃんとbackendが動きそうなので、もう一つのpocket-ttsも動かしてみました…ちゃんと喋りますねｗメモリーを大量に浪費して、非力なPCではレスポンスもよく無さげですが、ちゃんと喋ってくれそうです（英語限定(笑)）

kon ni tiwa とか入れるとそれっぽく発音してくれるので日本語っぽい何かは発生させられそうですが。

で、調子に乗って他の物も…と、backendのDiffusersをreinstallかけたりしてみましたが、こちらは動く気配はありませんでした…。削除してモデルをインストールすれば行けるのかな？解りませんが。

で、さらに調子に乗ってQwen3系のTTSを試そうとしたところ…なんか設定が良く分かりません。なので、それ専用のモデルという事でqwen3-tts-1.7b-custom-voiceをインストールしてみると、それ用のbackendも自動的にインストールされ、こちらもそのまま動きました。

ただ、CPUのみしか使われていないようなのが残念です。今の環境だと生成までそれなりに時間がかかるのですが、英語はもちろん、その他もそれなりに行けそうです。ただ、日本語を使うと、なんか微妙に中国人が日本語をしゃべっている感じになっています。

ドキュメントを見ると日本語用の音声もあるようなので切り替えてみましたが、やっぱり中国人がしゃべる日本語でした。

まぁとりあえず音が出るようになって嬉しかったのですが、なぜ動くようになったのか正直良く分かってないのがダメなところ。v4.0.0で改善されたのか、apt updateでlibなどのバージョンが一致するようになったのか…わかりませんｗ

Siriuth's Diary

2026年4月1日水曜日

LocalAI v4.0.0でpocket-ttsがそのまま動いた＼(^_^)／

0 件のコメント:

コメントを投稿