自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっているRNN、CNN、および既存 ...
立教大学大学院人工知能科学研究科(所在地:東京都豊島区、研究科委員長:内山泰伸)の博士課程後期課程1年次の安木駿介さんと瀧雅人准教授の論文がCVPR2024(The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024)に採択されました。本成果の詳細は ...
Googleの機械学習モデル「Transformer」は、データを時系列に処理しなくても、自然言語などのデータを翻訳やテキスト要約することが可能で、ChatGPTなどの自然な会話が可能なチャットAIのベースとなっています。また、Transformerの手法を画像分野に応用した ...