add codeshell example (#9743)

2023-12-25 10:54:01 +08:00 · 2023-12-25 10:54:01 +08:00 · be13b162fe
commit be13b162fe
parent daf536fb2d
2 changed files with 326 additions and 0 deletions
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/codeshell/README.md
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/codeshell/README.md
@ -0,0 +1,38 @@
 # CodeShell
 In this directory, you'll find how to use this codeshell server with vscode codeshell extension.
 ## 0. Extra Environment Preparations
 Suppose you have already configured GPU environment, you will need some extra preparation
 1. install extra requirements
    ```
    pip install uvicorn fastapi sse_starlette
    ```
 2. search `codeshell` in vscode extension market, then install `CodeShell VSCode Extension` extension
 3. change extension settings:
    - change `Code Shell: Run Env For LLMs` to `GPU with TGI toolkit`
    - disable `Code Shell: Auto Trigger Completion` (use `Alt + \` to trigger completion manually)
 4. download WisdomShell/CodeShell-7B-Chat (don't use CodeShell-7B)
 ## 1. How to use this server
 ```
 python server.py [--option value]
 ```
 1. `--checkpoint-path <path>`: path to huggingface model checkpoint
 2. `--device xpu`: enable GPU or not
 3. `--multi-turn`: enable multi turn conversation or just support single turn conversation
 4. `--cpu-embedding`: move Embedding layer to CPU or not
 5. `--max-context <number>`: Clip the context length in Code Completion, it won't affect other features, set it to 99999 to disable it
 ## 2. Note
 In my test, if use vscode remote connection to connect to a remote machine, then install extension and running this server on that remote machine, all extension features expect for Code Completion can be used.
 If don't use remote conection, then install extension and running this server on local machine, Code Completion can also be used.
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/codeshell/server.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/codeshell/server.py
@ -0,0 +1,288 @@
 #
 # Copyright 2016 The BigDL Authors.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
 # You may obtain a copy of the License at
 #
 #     http://www.apache.org/licenses/LICENSE-2.0
 #
 # Unless required by applicable law or agreed to in writing, software
 # distributed under the License is distributed on an "AS IS" BASIS,
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
 #
 import time
 import json
 from tqdm import tqdm
 from argparse import ArgumentParser
 from typing import Dict, List
 from threading import Thread
 import torch
 import uvicorn
 from fastapi import FastAPI
 from fastapi.responses import JSONResponse
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from transformers import AutoTokenizer
 # from transformers import AutoModelForCausalLM, AutoModel
 from bigdl.llm.transformers import AutoModelForCausalLM, AutoModel
 from transformers.generation import GenerationConfig, TextIteratorStreamer
 from transformers import StoppingCriteriaList, StoppingCriteria
 from sse_starlette.sse import EventSourceResponse
 app = FastAPI()
 app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
 )
 class GenerationParameters(BaseModel):
    max_new_tokens: int
    temperature: float
    repetition_penalty: float
    top_p: float
    do_sample: bool
    stop: List[str]
 class GenerationRequest(BaseModel):
    inputs: str
    parameters: GenerationParameters
 class StopWordsCriteria(StoppingCriteria):
    """Custom `StoppingCriteria` which checks if all generated functions in the batch are completed."""
    def __init__(self, input_length, stop_words, tokenizer):
        self.input_length = input_length
        self.stop_words = stop_words
        self.stop_words += ["|<end|", "|end>|"]
        self.tokenizer = tokenizer
    def __call__(self, input_ids, scores, **kwargs):
        """Returns true if all generated sequences contain any of the end-of-function strings."""
        texts =  [ self.tokenizer.decode(ids[self.input_length:]) for ids in input_ids ]
        dones = [ any(stop_word in text for stop_word in self.stop_words) for text in texts ]
        return all(dones)
@app.post("/generate")
 async def generate(request: GenerationRequest):
    global model, tokenizer, device, max_context
    if device == 'xpu':
        torch.xpu.empty_cache()
    prompt = request.inputs
    input_ids = tokenizer.encode(prompt, return_tensors="pt")
    input_length = len(input_ids[0])
    if input_length > max_context:
        tokens = list(input_ids[0])
        prefix_index = tokens.index(70001)   # fim_prefix
        middle_index = tokens.index(70002)   # fim_middle
        suffix_index = tokens.index(70003)   # fim_suffix
        prefix_tokens = tokens[prefix_index+1:suffix_index]
        suffix_tokens = tokens[suffix_index+1:middle_index]
        prefix_len = suffix_index - prefix_index - 1
        suffix_len = middle_index - suffix_index - 1
        if prefix_len + suffix_len > max_context:
            new_prefix_len = max_context * prefix_len // (prefix_len + suffix_len)
            new_suffix_len = max_context * suffix_len // (prefix_len + suffix_len)
            new_prefix_tokens = prefix_tokens[-new_prefix_len:]
            new_suffix_tokens = suffix_tokens[:new_suffix_len]
            input_ids = torch.tensor(
                tokens[:prefix_index+1] +
                new_prefix_tokens +
                tokens[suffix_index:suffix_index+1] +
                new_suffix_tokens +
                tokens[middle_index:]
            ).reshape(1, -1)
            input_length = len(input_ids[0])
            prompt = tokenizer.decode(input_ids[0])
    input_ids = input_ids.to(device)
    stopping_criteria = StoppingCriteriaList(
        [ StopWordsCriteria(input_length, request.parameters.stop, tokenizer) ]
    )
    generation_kwargs = dict(stopping_criteria=stopping_criteria,
                             max_new_tokens=request.parameters.max_new_tokens,
                             temperature=request.parameters.temperature,
                             repetition_penalty=request.parameters.repetition_penalty,
                             top_p=request.parameters.top_p,
                             do_sample=request.parameters.do_sample)
    print('-'*80)
    print('input prompt:', prompt)
    print('input length:', input_length)
    print('-'*80)
    output_ids = model.generate(input_ids, **generation_kwargs)
    output_text = tokenizer.decode(output_ids[0])
    return JSONResponse({
                "generated_text": output_text[len(prompt):]
            })
@app.post("/generate_stream")
 async def generate_stream(request: GenerationRequest):
    global model, tokenizer, device, multi_turn
    if device == 'xpu':
        torch.xpu.empty_cache()
    prompt = request.inputs
    if multi_turn:
        prompt = prompt
    else:
        # extract the last turn input
        human_ins = "## human"
        first_ins = prompt.find(human_ins)
        last_ins = prompt.rfind(human_ins)
        prompt = prompt[:first_ins] + prompt[last_ins:]
    input_ids = tokenizer(prompt, return_tensors="pt")
    input_length = len(input_ids['input_ids'][0])
    input_ids = input_ids.to(device)
    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True)
    stopping_criteria = StoppingCriteriaList(
        [ StopWordsCriteria(input_length, request.parameters.stop, tokenizer) ]
    )
    max_batch = 1024
    if input_length <= max_batch:
        past_key_values = None
    else:
        with torch.inference_mode():
            past_key_values = None
            for start_pos in range(0, input_length - 1, max_batch):
                end_pos = min(start_pos + max_batch, input_length - 1)
                output = model.forward(input_ids['input_ids'][:, start_pos:end_pos],
                                       past_key_values=past_key_values)
                past_key_values = output.past_key_values
    generation_kwargs = dict(input_ids,
                             past_key_values=past_key_values,
                             streamer=streamer,
                             stopping_criteria=stopping_criteria,
                             max_new_tokens=request.parameters.max_new_tokens,
                             temperature=request.parameters.temperature,
                             repetition_penalty=request.parameters.repetition_penalty,
                             top_p=request.parameters.top_p,
                             do_sample=request.parameters.do_sample)
    print('-'*80)
    print('input prompt:', prompt)
    print('input length:', input_length)
    print('-'*80)
    thread = Thread(target=model.generate, kwargs=generation_kwargs)
    thread.start()
    def create_response(streamer):
        for word in tqdm(streamer, "Generating Tokens", unit="token"):
            yield json.dumps({
                "token": {
                    "id": 0,
                    "text": word,
                },
            })
    return EventSourceResponse(create_response(streamer), media_type="text/event-stream")
 def _get_args():
    parser = ArgumentParser()
    parser.add_argument(
        "-c",
        "--checkpoint-path",
        type=str,
        default="CodeShell-7B-Chat",
        help="Checkpoint name or path, default to %(default)r",
    )
    parser.add_argument(
        "--device",
        type=str,
        default="cpu",
        help="Device name."
    )
    parser.add_argument(
        "--server-port",
        type=int,
        default=8080,
        help="Demo server port."
    )
    parser.add_argument(
        "--server-name",
        type=str,
        default="127.0.0.1",
        help="Demo server name. Default: 127.0.0.1, which is only visible from the local computer."
        " If you want other computers to access your server, use 0.0.0.0 instead.",
    )
    parser.add_argument(
        "--multi-turn",
        action="store_true",
        help="Enable multi-turn chat",
    )
    parser.add_argument(
        "--cpu-embedding",
        action="store_true",
        help="Move Embedding layer to CPU"
    )
    parser.add_argument(
        "--max-context",
        type=int,
        default=300,
        help="Max context length when using code completion",
    )
    args = parser.parse_args()
    return args
 if __name__ == "__main__":
    args = _get_args()
    tokenizer = AutoTokenizer.from_pretrained(
        args.checkpoint_path,
        trust_remote_code=True,
    )
    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        trust_remote_code=True,
        load_in_4bit=True,
        cpu_embedding=args.cpu_embedding
    ).eval()
    device = args.device
    multi_turn = args.multi_turn
    max_context = args.max_context
    if device == 'xpu':
        import intel_extension_for_pytorch as ipex
    model = model.to(device)
    model.generation_config = GenerationConfig.from_pretrained(
        args.checkpoint_path,
        trust_remote_code=True,
        resume_download=True,
    )
    uvicorn.run(app, host=args.server_name, port=args.server_port, workers=1)