此電郵之前已成功登記!
你已成功訂閱 Spill Paper!
Follow Us

人工智能分拆音軌的時代

2021年05月17日

筆者多年前和音樂業界友人閒談中,偶爾間說起關於樂手們聽歌曲時常會有將歌者的人聲,或不同樂器獨立聆聽的需要。一方面他們要清晰無誤地聆聽不同的人聲和樂器,分析每件不同樂器的編排、音調和節奏;另一方面,如果你是彈奏某樂器的樂手或者是樂器的學習者,你更加經常要用心細聽某樂器的內容,如音調、音色、拍子等。在沒有樂譜的情況下,多數也需要反覆聆聽無數次才可以。如果有獨立的對應音軌便會是一大的方便。

有了 AI 運算法,我們將能更輕易從一個原本已經混音的立體聲道歌曲檔中分離出內裡不同成份的音軌,例如人聲、鼓聲、鋼琴、結他和其他不同樂器,甚至是非音樂成份的環境聲等。

其實,在音樂製作的過程中,每一件樂器、人聲、和聲等,原本都是由很多獨立的音頻軌道去錄製、處理和混音,一般可上至幾十條的音軌。

而製成的歌曲多數都是混合成左右兩聲道的音訊。因為人是用左、右耳來聽聲音的。所以傳統上 CD、MP3 和不同的歌曲檔,最後都是混合成兩個聲道的。

當初筆者忽發奇想,如果唱片公司發行的歌曲檔可以原來獨立不同音軌的型式去發售,那便可以為想獨立聆聽不同樂器或人聲的人,例如樂器學習者、樂手、愛聽各種樂器聲編排的人,提供更直接方便的途徑去聽不同的獨立音軌。 不單如此,這樣可以令歌曲銷售更多元化。增加聽眾對不同歌曲內容的欣賞度和不同樂器聲音的認知度。當然這樣還要配合播放的器材和軟件的功能,甚至解碼能力才能好好實現。

早年音樂製作常會用 MIDI(Musical Instrument Digital Interface)檔,其實就是包含不同樂器的音軌,並可方便播放和處理的音頻應用檔,很多音樂人也有用到,可以對應樂譜作不同的改動,可惜如果沒有對應的 DAW(Digital Audio Workstation)、音頻處理軟件和一些較好質素的聲音庫,就不能準確地聽到優質而真實的樂器聲音。如非音樂工作者便難以簡化地以電腦或手機即播即聽了。

有了 AI 運算法,我們將能更輕易從一個原本已經混音的立體聲道歌曲檔中分離出內裡不同成份的音軌,例如人聲、鼓聲、鋼琴、結他和其他不同樂器,甚至是非音樂成份的環境聲等。

然而,這個念頭只是多年前的一個想法,多年後的今日,電腦硬件和軟件的發展神速,人工智能 AI(Artificial Intelligence)的應用得以廣泛使用,不少聲音運算法已經可以從一些複雜的聲音源分離出不同性質和類型的聲音,最常見的是人聲分離的應用,多年前有一種人聲消除的傳統方法,所謂的 vocal remover,給人作唱歌的用途,它是以一些簡單的相位加減和濾波的音頻處理方法,把原有歌曲中的人聲去除,然而效果很一般,往往不能把人聲完全去除。而且也影響歌曲的保真度。

到 90 年代有了 karaoke,因為人聲音軌和音樂音軌是獨立出來,用家便能方便地完全去除人聲,但也只限於人聲的開關。

音頻運算法分離人聲的技術近年也多數應用在消除噪音功能之上,例如通訊系統的通話功能上,主要分離出所需的語音,把非語音的雜音去除,用以增強人聲語音的保真度和準確度,又例如新型助聽器,把對話和人聲訊息分離出來,增強用家對人聲訊息的清晰度等。

人聲分離也很常用於擷取伴奏音樂的用途,把一般兩聲道的歌曲人聲分離出來,剩下的伴奏可作音樂編裝、伴唱、伴奏音樂 MMO(Music Minus One)的用途等。

有了 AI 運算法,我們將能更輕易從一個原本已經混音的立體聲道歌曲檔中分離出內裡不同成份的音軌,例如人聲、鼓聲、鋼琴、結他和其他不同樂器,甚至是非音樂成份的環境聲等。

這些強大的運算法都受惠於日催成熟的機器學習(machine learning)和大數據(big data),例如 wave–U–net 軟件,不同種類的聲音和音色可被其頻譜分析出來,不同樂器或人聲的特徵就如一堆大數據,再讓軟件不斷學習,並能更準確和有效地從混合了的聲頻中分離出不同類型的聲音出來。

所以,筆者多年前覺得很不可思義的事情,今日都能一一實現。 而這些技術更可衍生很多不同的應用,如歌曲學習、樂器同步訓練、新型助聽器、抗噪音功能、智能音箱、聲紋認證等,令音頻的產品功能更優質和更多元化。

近來也有不少線上即時運作的聲音分離軟件,如「Moises: AI Music Platform」可以很方便地讓用家體驗這些音頻分離技術的威力,用家只要把一般歌曲的mp3 檔上傳到網站,簡單幾個選項按鍵,不出一兩分鐘便會分離出所需的獨立音軌,大家不妨一試。

不同音軌的選擇包括:

1 條音軌(無鼓)
2 條音軌(無鼓、無低音結他)
1 條音軌(只有人聲、鼓、低音結他)
2 條音軌(人聲、伴奏)
4 條音軌(人聲、貝斯、鼓、其他)
5 條音軌(人聲、貝斯、鼓、鋼琴、其他)

音頻的科技應用隨著微處理器的速度增強,從而能讓速度要求更高的智能演算法和相關的機器學習軟件發揮更強及更多元化的功能,讓聲音的處理更有效和更方便快捷。大家一起期待人工智能為消費者帶來喜悅的時代吧。

緊貼最新資訊,請關注 SPILL 的 MeWe 專頁Facebook 專頁Instagram 帳戶YouTube 頻道。如欲訂閱 SPILL Paper 電子通訊可按這裡

你可能感興趣的文章