[AI 工具] Bark 教程:如何安裝及使用 Bark 文本轉語音(Windows)

Bark 是由 Suno 創建的基於變換器(transformer)的文本到音頻模型。它能生成非常逼真的多語言語音,以及其他音頻,包括音樂、背景噪音和簡單的聲音效果。該模型還能產生非語言交流,如笑聲、嘆息和哭聲。

注意:Bark 主要是為研究目的而開發的。它不是一個傳統的文本到語音模型,而是一個完全生成的文本到音頻模型,可能會以意想不到的方式偏離提供的提示。

Github:連結

Bark GUI 是一個基於 Bark 的 Gradio Web UI,專為 Windows 設計但不僅限於此。它提供了一些額外的功能,如:

  • Web GUI 和服務器
  • 語音克隆(輸入您的語音並獲得一個發聲者)
  • 語音交換功能
  • 小型/大型模型的簡單選擇
  • 支持使用 6Gb 的 NVIDIA/Apple GPU 或強制使用 CPU
  • 支持 SSML 輸入以允許固定語音對話
  • 批量生成以實驗不同的種子
  • Gradio 主題支持

Github:連結

1. 安裝步驟(使用 SEAIT 快速安裝)

1-1 安裝 Super Easy AI Installer Tool(SEAIT)

SEAIT 詳細安裝步驟請看此篇文章有詳細的圖文說明。以下簡略敘述。

  • Python 安裝
    • 安裝 Python 3.10.7,根據你的 Windows 系統是 32位元或是64位元來選擇對應的版本。下載連結
    • 下載完成後,點擊兩下 exe 檔案開始安裝,記得必須將「Add Python 3.10 to PATH」打勾,Python 安裝完後才會自動加入環境變數裡。
    • 打開命令提示字元(CMD)確認是否安裝成功。輸入 python -V 按下Enter,列出安裝的版本,表示確實已安裝成功。
  • Git 安裝
    • 前往 git 的 Windows 版本下載地址,根據你的 Windows 系統是 32位元或是64位元來選擇對應的版本。下載連結
    • 下載完成後,點擊兩下 exe 檔案開始安裝。一直點擊下一步即可完成安裝。
  • SEAIT 安裝
    • 前往 civitai 下載 Super Easy AI Installer Tool(SEAIT)。下載連結
    • 下載完後,會得到一個壓縮檔案,將其解壓縮放到你覺得適合的目錄底下(此後工具安裝,都會將安裝環境安裝在此目錄下)。
    • 進入檔案夾裡面,可以看到一個 seait.exe 檔案。

1-2 安裝 Bark-gui

打開 SEAIT ,左側選單選擇 Bark-gui,並點擊「Install」就會開始安裝。

安裝時,可以看到 SEAIT 的終端機會開始安裝套件,如下圖內容(僅擷取一部分)

注意:seait 若是在 0.1.4.7 之前的版本,可能會有以下錯誤

ModuleNotFoundError: No module named 'pytorch_seed'

在 0.1.4.7 版本時已經修復了此錯誤。參考:https://github.com/diStyApps/seait/releases/tag/0.1.4.7

安裝完後,Bark-gui 就會開始啟動,一開始啟動會自動安裝模型

模型也可以自行下載,並放到 <你的 seait 路徑>\bark-gui\models 目錄下。

text_2.pt: 下載連結

coarse_2.pt: 下載連結

coarse_2.pt: 下載連結

成功運行後,可以看到 SEAIT 的終端機會有以下資訊,其中可以知道其運行在 7860 端口 http://127.0.0.1:7860。

2. Bark GUI TTS 使用方式

2-1 開啟介面

我們知道其運行在 7860 端口 http://127.0.0.1:7860。打開瀏覽器並輸入網址即可得到以下畫面

2-2 填入要生成的文本

於左上角填入要生成的文本。

在下方,作者提供了一系列操作範例。若您希望插入笑聲效果,您可以使用'[laughs]’標籤。若需生成唱歌聲音,請將相關文本用音符’♪’括起來。此外,您也可以通過使用’Man:’或’Woman:’前綴來指定說話者的性別。

2-3 選擇人聲

在人聲選項中,您可以根據語言需求進行選擇。例如,對於日文,您可以選擇’ja’,而對於中文,選項為’zh’。值得注意的是,選擇日文人聲來朗讀英文文本是可行的,但可能會帶有口音。由於本次文本主要使用英文,我們建議選擇對應的英文人聲。

在右下角的控制面板中,您可以調整隨機性的程度。根據我的實驗結果,如果隨機性設置過低,生成的內容有可能會出現邏輯不連貫的情況。

配置完成後,請在左下角點選’Generate’按鈕,並稍候片刻以完成生成過程。生成的音訊檔案將被儲存於’bark-gui’專案目錄下的’outputs’子目錄中。

2-4 產出結果

這是我所編寫的文本內容

In Cangxi State, the terrain is high and the mountains stretch continuously. However, when asked about the highest peak in the area, people unanimously point to one place.

A mountain stands like a sword, piercing through the clouds and standing tall on the plateau. In this mountain, there is a sect called the Spirit Sword Sect, a leading name in the world of cultivation. They monopolize the resources of the entire state, and thus the mountain is named Spirit Sword Mountain.

At the peak of Spirit Sword Mountain, in a small, exquisite bamboo room, an old man with a sword-shaped hairpin looks at the clear starry sky. He holds a bright silver long sword in his hand. The sword reflects the starlight, and its intricate patterns flow like water ripples from the hilt upwards, but suddenly stop halfway.

由’bark-gui’軟體生成的音訊輸出結果

結論

這篇文章介紹了一個名為 “Bark” 的文本到音頻模型,該模型由 Suno 創建並基於變換器(transformer)技術。Bark 不僅能生成多語言的逼真語音,還能產生音樂、背景噪音和其他簡單的聲音效果。文章詳細解釋了如何在 Windows 系統上安裝和使用 Bark,包括使用一個名為 “SEAIT” 的工具進行快速安裝,以及如何使用其 Gradio Web UI 進行操作。

Leave a Reply

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *