Stable Diffusion 是一個在 2022 年推出的深度學習模型,主要用來把文字描述轉換成詳細的圖像。不只是這樣,它還能用在其他任務上,像是內補繪製和外補繪製,也就是在已經有的圖像上加入或修改一些元素。 技術細節 這個模型是由慕尼黑大學的 CompVis 研究團隊和初創公司 StabilityAI 合作開發的。它使用了一種叫做「潛在擴散模型」(latent diffusion model; LDM)的技術。這個技術主要是用來去噪(去除噪聲),並且由三個主要部分組成:變分自編碼器(VAE)、U-Net 和一個文字編碼器。 用途 你可以用這個模型來生成全新的圖像,或者在已經存在的圖像上加
閱讀更多月份: 2023 年 8 月
[AI 工具] Bark 教程:如何安裝及使用 Bark 文本轉語音(Windows)
Bark 是由 Suno 創建的基於變換器(transformer)的文本到音頻模型。它能生成非常逼真的多語言語音,以及其他音頻,包括音樂、背景噪音和簡單的聲音效果。該模型還能產生非語言交流,如笑聲、嘆息和哭聲。 注意:Bark 主要是為研究目的而開發的。它不是一個傳統的文本到語音模型,而是一個完全生成的文本到音頻模型,可能會以意想不到的方式偏離提供的提示。 Github:連結 Bark GUI 是一個基於 Bark 的 Gradio Web UI,專為 Windows 設計但不僅限於此。它提供了一些額外的功能,如: Github:連結 1. 安裝步驟(使用 SEAIT 快速安裝) 1-1 安
閱讀更多