音楽ソースやオーディオ機器の音質を語る時に、「高音が 」とか「低音が 」とか相手にはちっとも伝わらない表現になってしまいがちです。また、その時に聴いた曲のどの部分のことを指しているのかも不明確なことがほとんどです ...
本研究では、視覚言語モデル(VLM)がオーディオのスペクトログラム画像を用いてオーディオコンテンツを認識できるかどうかを検証し、特に少数ショットの設定においてVLMがオーディオ分類タスクをどのように遂行できるかを示します。また、VLMが既存の ...