数ヶ月前思いついた生成AIの技術があるので言っておくゾ

生成AIのAttentionだけ浮動小数点の精度下げたら性能ほぼ下がらずにクッソ高速化できるゾ
理由はAttentionは一番リソース食う部分だけど一番小数点の精度がいらないからですを
pytorchの動的量子化機能を使ったり、モデルの実装コードをちょっと書き換えたりすると実装できるゾ
俺の場合q_projとk_projとv_projを動的量子化して実装したゾ
動的量子化だけどqintだけじゃなくてfp16もいけるゾ

質問か興味か指摘があるやつ、至急リプくれや!
1 0 0