杉田 (@ane45) です。2024年12月の 「Python Monthly Topics」 は、OpenAIの音声認識モデルWhisperをPythonから使用する方法を解説します。さらに、Whisperモデルを基にした派生ツールやライブラリであるwhisper. cpp、faster-whisper、mlx-whisperについても紹介します。 Whisperとは ...
何かと話題の対話型AIであるChatGPTだけれども、その開発元であるOpenAIが提供しているサービス・機能はChatGPT以外にもいくつかある。その1つが「Whisper」という音声データから文字起こししてくれる機能だ。 筆者の場合、たとえば取材のときに録音し、それを ...
画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで ...
ベトナムのホーチミンを拠点としてソフトウェア開発およびソフトウェアテストサービスを提供するSHIFT ASIA CO., LTD.(本社:ベトナム ホーチミン、CEO:伊藤 隆介、以下SHIFT ASIA)は、2023年7月31日(月)に「OpenAI Whisper APIとGoogle Speech APIの活用事例」をテーマ ...
米AppStoreにて配信が始まった「ChatGPT for iOS」 ChatGPTはユーザーが自然言語を用いて、AIと対話できるのが大きな特徴。質問に対する答えをチャット形式で得られる他、文章やコンテンツの作成も可能だ。初めて一般公開されたのは2022年11月で、その言語モデル ...
「Whisper」は、ChatGPTで有名なOpenAIが公開しているオープンソースの音声認識モデルだ。高精度な音声認識モデルで、英語だけでなく日本語を含めた多言語の音声をテキストに変換できる。ノイズの多い環境でも高い認識精度を誇り、議事録作成や字幕生成 ...
株式会社エーピーコミュニケーションズの永里氏は、リアルタイム文字起こし処理について、検証のアーキテクチャを紹介し、実際にデモを行いました。 永里氏の自己紹介 永里洋氏:今回はStudyCoさんのLT会に初参加ということで、よろしくお願いいたします。
株式会社リバネスナレッジ(本社:東京都新宿区下宮比町1-4 飯田橋御幸ビル 代表:吉田丈治)は、Slack上でChatGPT等を含む生成AIを利用するためのアプリ「Party on Slack」「TimeLine」「DeepL Translator」に対して、OpenAI DevDayで発表された「アシスタントAPI」を実装し ...
OpenAIは文字起こしAIのWhisperを「人間レベルの堅牢性と正確性を持ったツール」と宣伝していますが、これには大きな欠点があると専門家たちが指摘しています。十数人のソフトウェアエンジニア、開発者、学術研究者にインタビューしたというAP通信による ...
米OpenAIは4月14日(現地時間)、最新の大規模言語モデル「GPT-4.1」ファミリーを発表し、API経由の提供を開始した。 今回リリースされたのは「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」の3種であり、「プログラミング支援性能の向上」「指示追従能力の改善」「最大 ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する