add rwkv time shift optimization (#10032)

2024-01-30 14:10:55 +08:00 · 2024-01-30 14:10:55 +08:00 · 7dfa6dbe46
commit 7dfa6dbe46
parent f57d0fda8b
3 changed files with 148 additions and 10 deletions
--- a/python/llm/src/bigdl/llm/transformers/convert.py
+++ b/python/llm/src/bigdl/llm/transformers/convert.py
@ -958,9 +958,25 @@ def _optimize_post(model, lightweight_bmm=False):
        modeling_module_name = model.__class__.__module__
        module = importlib.import_module(modeling_module_name)
        from bigdl.llm.transformers.models.rwkv4 import rwkv_attention_forward
+        from bigdl.llm.transformers.models.rwkv4 import rwkv_ffn_forward
        convert_forward(model,
                        module.RwkvSelfAttention,
                        rwkv_attention_forward)
+        convert_forward(model,
+                        module.RwkvFeedForward,
+                        rwkv_ffn_forward)
+    elif model.config.model_type == "rwkv5":
+        # rwkv v5
+        modeling_module_name = model.__class__.__module__
+        module = importlib.import_module(modeling_module_name)
+        from bigdl.llm.transformers.models.rwkv5 import rwkv_attention_forward
+        from bigdl.llm.transformers.models.rwkv5 import rwkv_ffn_forward
+        convert_forward(model,
+                        module.RwkvSelfAttention,
+                        rwkv_attention_forward)
+        convert_forward(model,
+                        module.RwkvFeedForward,
+                        rwkv_ffn_forward)
    elif model.config.model_type == "deci":
        modeling_module_name = model.__class__.__module__
        module = importlib.import_module(modeling_module_name)
@ -974,14 +990,6 @@ def _optimize_post(model, lightweight_bmm=False):
        convert_forward(model,
                        module.DeciLMAttention,
                        decilm_attention_forward_4_35_2, )
-    elif model.config.model_type == "rwkv5":
-        # rwkv v5
-        modeling_module_name = model.__class__.__module__
-        module = importlib.import_module(modeling_module_name)
-        from bigdl.llm.transformers.models.rwkv5 import rwkv_attention_forward
-        convert_forward(model,
-                        module.RwkvSelfAttention,
-                        rwkv_attention_forward)
    elif model.config.model_type == "gpt_bigcode":
        # starcoder
        modeling_module_name = model.__class__.__module__
--- a/python/llm/src/bigdl/llm/transformers/models/rwkv4.py
+++ b/python/llm/src/bigdl/llm/transformers/models/rwkv4.py
@ -37,6 +37,37 @@ import torch
 from typing import List


+def extract_key_value(self, hidden, state=None):
+    # Mix hidden with the previous timestep to produce key, value, receptance
+    if hidden.size(1) == 1 and state is not None:
+        shifted = state[1][:, :, self.layer_id]
+    else:
+        shifted = self.time_shift(hidden)
+        if state is not None:
+            shifted[:, 0] = state[1][:, :, self.layer_id]
+    if len(shifted.size()) == 2:
+        shifted = shifted.unsqueeze(1)
+    shifted = shifted.contiguous()
+
+    if not hasattr(self, "mixed_mix"):
+        self.mixed_mix = torch.cat([
+            self.time_mix_key.data,
+            self.time_mix_value.data,
+            self.time_mix_receptance.data,
+        ])
+
+    import linear_q4_0
+    mixed_result = linear_q4_0.rwkv_time_shift(hidden, shifted, self.mixed_mix)
+    key, value, receptance = mixed_result
+
+    key = self.key(key)
+    value = self.value(value)
+    receptance = torch.sigmoid(self.receptance(receptance))
+    if state is not None:
+        state[1][:, :, self.layer_id] = hidden[:, -1]
+    return receptance, key, value, state
+
+
 def rwkv_linear_attention_xpu(
    time_decay: torch.Tensor,
    time_first: torch.Tensor,
@ -84,7 +115,7 @@ def rwkv_attention_forward(
    state: List[torch.Tensor]=None,
    use_cache: bool=False,
 ):
-    receptance, key, value, state = self.extract_key_value(hidden, state=state)
+    receptance, key, value, state = extract_key_value(self, hidden, state=state)
    layer_state = tuple(s[:, :, self.layer_id] for s in state[2:]) if state is not None else None

    if hidden.device.type == "xpu":
@ -113,3 +144,35 @@ def rwkv_attention_forward(
        state[4][:, :, self.layer_id] = layer_state[2]

    return self.output(receptance * rwkv), state
+
+
+def rwkv_ffn_forward(
+    self,
+    hidden: torch.Tensor,
+    state: List[torch.Tensor]=None,
+):
+    if hidden.size(1) == 1 and state is not None:
+        shifted = state[0][:, :, self.layer_id]
+    else:
+        shifted = self.time_shift(hidden)
+        if state is not None:
+            shifted[:, 0] = state[0][:, :, self.layer_id]
+    if len(shifted.size()) == 2:
+        shifted = shifted.unsqueeze(1)
+    shifted = shifted.contiguous()
+
+    if not hasattr(self, "mixed_mix"):
+        self.mixed_mix = torch.cat([self.time_mix_key.data, self.time_mix_receptance.data])
+
+    import linear_q4_0
+    mixed_result = linear_q4_0.rwkv_time_shift(hidden, shifted, self.mixed_mix)
+    key, receptance = mixed_result
+
+    key = torch.square(torch.relu(self.key(key)))
+    value = self.value(key)
+    receptance = torch.sigmoid(self.receptance(receptance))
+
+    if state is not None:
+        state[0][:, :, self.layer_id] = hidden[:, -1]
+
+    return receptance * value, state
--- a/python/llm/src/bigdl/llm/transformers/models/rwkv5.py
+++ b/python/llm/src/bigdl/llm/transformers/models/rwkv5.py
@ -38,6 +38,41 @@ import torch.nn.functional as F
 from typing import List


+def extract_key_value(self, hidden, state=None):
+    # Mix hidden with the previous timestep to produce key, value, receptance
+    if hidden.size(1) == 1 and state is not None:
+        shifted = state[0][:, :, self.layer_id]
+    else:
+        shifted = self.time_shift(hidden)
+        if state is not None:
+            shifted[:, 0] = state[0][:, :, self.layer_id]
+    if len(shifted.size()) == 2:
+        shifted = shifted.unsqueeze(1)
+    shifted = shifted.contiguous()
+
+    if not hasattr(self, "mixed_mix"):
+        self.mixed_mix = torch.cat([
+            self.time_mix_key.data,
+            self.time_mix_value.data,
+            self.time_mix_receptance.data,
+            self.time_mix_gate.data,
+        ])
+
+    import linear_q4_0
+    mixed_result = linear_q4_0.rwkv_time_shift(hidden, shifted, self.mixed_mix)
+    key, value, receptance, gate = mixed_result
+
+    key = self.key(key)
+    value = self.value(value)
+    receptance = self.receptance(receptance)
+    gate = F.silu(self.gate(gate))
+
+    if state is not None:
+        state[0][:, :, self.layer_id] = hidden[:, -1]
+
+    return receptance, key, value, gate, state
+
+
 def rwkv_linear_attention_xpu(
    B: int,
    H: int,
@ -98,7 +133,7 @@ def rwkv_attention_forward(
    S = hidden.shape[-1] // H
    T = hidden.shape[1]

-    receptance, key, value, gate, state = self.extract_key_value(B, H, S, T, hidden, state=state)
+    receptance, key, value, gate, state = extract_key_value(self, hidden, state=state)
    layer_state = state[1][:, :, :, :, self.layer_id] if state is not None else None

    if hidden.device.type == "xpu":
@ -144,3 +179,35 @@ def rwkv_attention_forward(
        state[1][:, :, :, :, self.layer_id] = layer_state

    return rwkv, state
+
+
+def rwkv_ffn_forward(
+    self,
+    hidden: torch.Tensor,
+    state: List[torch.Tensor]=None,
+):
+    if hidden.size(1) == 1 and state is not None:
+        shifted = state[2][:, :, self.layer_id]
+    else:
+        shifted = self.time_shift(hidden)
+        if state is not None:
+            shifted[:, 0] = state[2][:, :, self.layer_id]
+    if len(shifted.size()) == 2:
+        shifted = shifted.unsqueeze(1)
+    shifted = shifted.contiguous()
+
+    if not hasattr(self, "mixed_mix"):
+        self.mixed_mix = torch.cat([self.time_mix_key.data, self.time_mix_receptance.data])
+
+    import linear_q4_0
+    mixed_result = linear_q4_0.rwkv_time_shift(hidden, shifted, self.mixed_mix)
+    key, receptance = mixed_result
+
+    key = torch.square(torch.relu(self.key(key)))
+    value = self.value(key)
+    receptance = torch.sigmoid(self.receptance(receptance))
+
+    if state is not None:
+        state[2][:, :, self.layer_id] = hidden[:, -1]
+
+    return receptance * value, state