音声認識AIを作ろうと思って調べたら、いきなり「librosaで特徴量抽出して...」とか出てきた。 は?librosaって何? 音楽生成AIのチュートリアル見ても、「librosaでスペクトログラムを...」って書いてある。 またlibrosa? もしかして、音声系のAIやるならこれ ...
音声認識AIの記事を読んでると、必ず出てくるワード。 「MFCCを抽出して...」 「メル周波数ケプストラム係数で特徴量を...」 「librosa.feature.mfcc()で...」 は?MFCCって何? しかも名前が長い。「メル周波数ケプストラム係数」って、どう考えても呪文だろ。