「Audio API」の「Text to Speech」についてまとめました。 ・Text to speech 1. Text to Speech 1-1. Text to Speech 「Audio API」は、1つの「Text to Speech」エンドポイントを提供します。 カスタムボイスや自分のボイスのコピーの作成はサポートしていません。 APIからのすべての ...
従来はどちらもオープンソースのWhisperモデル(whisper-1)を使用。 現在、transcriptionsは高品質モデル(gpt-4o-mini-transcribe / gpt-4o-transcribe)にも対応。 pyannote speaker dializationモデルを使用して、話者分離してから、openaiで書き起こす Hugging Faceでアカウントを作成し ...
OpenAIが「OpenAI o1(正式リリース版)」のAPIを公開しました。合わせて、AIとの音声会話機能を提供する「Realtime API」のアップデートや、モデル微調整機能のアップデート、GoライブラリおよびJavaライブラリのリリースも発表されています。 OpenAI o1のAPIは ...
ログインして、InfoQのすべての体験をアンロックしましょう!お気に入りの著者やトピックの最新情報を入手し、コンテンツと交流し、限定リソースをダウンロードできます。 クラウドコンピューティングの登場以降、ソフトウェア業界は大きな変革の中に ...
何かと話題の対話型AIであるChatGPTだけれども、その開発元であるOpenAIが提供しているサービス・機能はChatGPT以外にもいくつかある。その1つが「Whisper」という音声データから文字起こししてくれる機能だ。 筆者の場合、たとえば取材のときに録音し、それを ...
ユーザーの立場ではAIネイティブな働き方が身近に迫っており、データサイエンティストやMLエンジニアにとってはGPTを活用した開発を意識する必要が出てくる中、マイクロソフトの取り組みやML開発のパラダイムシフトをご紹介する「ChatGPTによって描かれる ...
東京、2025年9月9日 – リアルタイム・エンゲージメントおよび会話型AIのリーディングプラットフォームである Agora(NASDAQ: API) は本日、OpenAIのRealtime APIへの拡張対応を発表しました。同APIはすでに一般提供が開始されています。 Agoraによる新たなRealtime APIの ...
米OpenAIは3月11日(現地時間、以下同)、開発者や企業が信頼性の高いAIエージェントを構築するための新しいAPIおよびツール群を発表した。これらの新ツールはコアエージェントのロジックやオーケストレーション、インタラクションを合理化し、開発者に ...
OpenAIは3月11日(現地時間)、AIエージェントの開発を支援する新たなAPI「Responses API」と開発者向けツール「Agents SDK」を発表した。 AIエージェントへの関心は近年高まっているが、その定義は依然として曖昧である。OpenAIはエージェントを「ユーザーに代わっ ...
米OpenAIは4月14日(現地時間)、開発者向けに設計されたAPIファミリー「GPT-4.1」を発表した。性能や応答速度、価格の異なる「GPT-4.1」、「GPT-4.1 mini」、「GPT-4.1 nano」の3つのモデルが用意され、APIを介して利用できる。 「GPT-4.1」ファミリーは「GPT-4o」や「GPT ...
Microsoftのサイバー脅威対応チームであるDetection and Response Team(DART)が、ChatGPTなどを開発するOpenAIのAPIを悪用するバックドア型マルウェア「SesameOp」について報告しました。研究者によると、脅威アクターはバックドアを利用して長期的なスパイ活動を行って ...