「Whisper」は、ChatGPTで有名なOpenAIが公開しているオープンソースの音声認識モデルだ。高精度な音声認識モデルで、英語だけでなく日本語を含めた多言語の音声をテキストに変換できる。ノイズの多い環境でも高い認識精度を誇り、議事録作成や字幕生成 ...
株式会社エーピーコミュニケーションズの永里氏は、リアルタイム文字起こし処理について、検証のアーキテクチャを紹介し、実際にデモを行いました。 永里氏の自己紹介 永里洋氏:今回はStudyCoさんのLT会に初参加ということで、よろしくお願いいたします。
OpenAIは文字起こしAIのWhisperを「人間レベルの堅牢性と正確性を持ったツール」と宣伝していますが、これには大きな欠点があると専門家たちが指摘しています。十数人のソフトウェアエンジニア、開発者、学術研究者にインタビューしたというAP通信による ...