今回は、下記の「GPT2(124M)をllm.cで90分間20ドルで再現してみましょう」という記事を参考に、Google Colabでも再現にチャレンジしました。 上記記事は、12層、12ヘッド、768次元の124Mトランスフォーマーモデルを、FineWebの100億トークンで訓練しています。 今回は ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する