ローカルLLMを事前学習で1から開発してるんですけど
LLMのハイパーパラメータの調整についての認識で以下の通りで合ってるでしょうか?
(ニューラルネットワークのTransformer使ってます、ちなみに現代のほとんどのLLMはTransformerでできてます…)
埋め込み次元を増やすと 単語の意味を様々な観点で認識できる=単語の意味を細かく考慮できる=単語の意味がより正確になる
Attentionの隠れ次元を増やすと 処理できる文脈の情報を細分化できる=考慮できる文脈の情報を細分化できる
Attentionのヘッド数(num_attention_heads)を増やすと 同時に処理できる文脈の情報が増える=考慮できる文脈の情報を多角化できる
レイヤー数を増やすと より深く考えれるようになる
情報源少ないしこれもうわかんねぇな
パーン☆ってなりましたね(自分の)頭が
LLMのハイパーパラメータの調整についての認識で以下の通りで合ってるでしょうか?
(ニューラルネットワークのTransformer使ってます、ちなみに現代のほとんどのLLMはTransformerでできてます…)
埋め込み次元を増やすと 単語の意味を様々な観点で認識できる=単語の意味を細かく考慮できる=単語の意味がより正確になる
Attentionの隠れ次元を増やすと 処理できる文脈の情報を細分化できる=考慮できる文脈の情報を細分化できる
Attentionのヘッド数(num_attention_heads)を増やすと 同時に処理できる文脈の情報が増える=考慮できる文脈の情報を多角化できる
レイヤー数を増やすと より深く考えれるようになる
情報源少ないしこれもうわかんねぇな
パーン☆ってなりましたね(自分の)頭が