format

minmingzhu · minmingzhu · commit 49b63c1fe26b · 2024-04-10T08:50:32.000Z
Signed-off-by: minmingzhu &lt;minming.zhu@intel.com&gt;
diff --git a/llm_on_ray/common/dataprocesser/general_processer.py b/llm_on_ray/common/dataprocesser/general_processer.py
@@ -116,15 +116,19 @@ def tokenize_function(self, examples, tokenizer):
                 new_message = PROMPT_NO_INPUT_FORMAT.format(
                     instruction=instruction, response=response
                 )
-            return tokenizer(new_message, add_special_tokens=False, max_length=self.config.get("max_length"))
+            return tokenizer(
+                new_message, add_special_tokens=False, max_length=self.config.get("max_length")
+            )
         else:
             new_messages = [
                 {
                     "role": "user",
                     "content": "###Instruction:\n"
-                            + examples["instruction"] + "\n\n"
-                            + "###context:\n"
-                            + examples["context"] + "\n\n",
+                    + examples["instruction"]
+                    + "\n\n"
+                    + "###context:\n"
+                    + examples["context"]
+                    + "\n\n",
                 },
                 {"role": "assistant", "content": examples["response"] + "\n\n"},
             ]
@@ -145,9 +149,9 @@ def tokenize_function(self, examples, tokenizer):
                     new_messages,
                     tokenize=False,
                 )
-            tokenizer = tokenizer(new_tokenizer,
-                                  add_special_tokens=False,
-                                  max_length=self.config.get("max_length"))
+            tokenizer = tokenizer(
+                new_tokenizer, add_special_tokens=False, max_length=self.config.get("max_length")
+            )
             return tokenizer
 
     def prepare(self, tokenizer, dataset):
@@ -184,7 +188,7 @@ def group_texts(examples):
                     total_length = (total_length // block_size) * block_size
                 # Split by chunks of max_len.
                 result = {
-                    k: [t[i: i + block_size] for i in range(0, total_length, block_size)]
+                    k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
                     for k, t in concatenated_examples.items()
                 }
                 result["labels"] = result["input_ids"].copy()
diff --git a/llm_on_ray/finetune/finetune.py b/llm_on_ray/finetune/finetune.py
@@ -354,7 +354,7 @@ def main(external_config=None):
 
             if "xpu" in ipex.__version__:
                 num_cpus = (
-                        resources_per_worker["CPU"] * num_training_workers + 1
+                    resources_per_worker["CPU"] * num_training_workers + 1
                 )  # additional 1 for head worker
                 ray.init(num_cpus=num_cpus, runtime_env=runtime_env)
             else:
diff --git a/pyproject.toml b/pyproject.toml
@@ -35,7 +35,7 @@ dependencies = [
     "py-cpuinfo",
     "pydantic-yaml",
     "async-timeout",
-    "jinja2>=3.0.0"
+    "jinja2>=3.0.0",
     "typer"
 ]
 
diff --git a/tests/finetune/test_chat_template.py b/tests/finetune/test_chat_template.py
@@ -7,133 +7,135 @@
 
 class TestTokenizeFunction(unittest.TestCase):
     def setUp(self):
-        self.tokenizer = AutoTokenizer.from_pretrained('meta-llama/Llama-2-7b-hf')
+        self.tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
         self.config = {
-            'gpt_base_model': True,
-            'max_length': 512,
-            'trust_remote_code': False,
-            'chat_template': "Below is an instruction that describes a task. Write a response that appropriately "
-                             "completes the request\n {% if messages[0]['role'] == 'system' %}{{ raise_exception("
-                             "'System role not supported') }}{% endif %}{% for message in messages %}{% if (message["
-                             "'role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles "
-                             "must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] "
-                             "== 'user' %}{{ '### Instruction: ' + message['content'] }}{% elif message['role'] == "
-                             "'assistant' %}{{ '### Response: '  + message['content'] }}{% endif %}{% endfor %}{{'### "
-                             "End \n'}}",
+            "gpt_base_model": True,
+            "max_length": 512,
+            "trust_remote_code": False,
+            "chat_template": "Below is an instruction that describes a task. Write a response that appropriately "
+            "completes the request\n {% if messages[0]['role'] == 'system' %}{{ raise_exception("
+            "'System role not supported') }}{% endif %}{% for message in messages %}{% if (message["
+            "'role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles "
+            "must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] "
+            "== 'user' %}{{ '### Instruction: ' + message['content'] }}{% elif message['role'] == "
+            "'assistant' %}{{ '### Response: '  + message['content'] }}{% endif %}{% endfor %}{{'### "
+            "End \n'}}",
         }
         self.processer = GeneralProcesser(self.config)
 
     def test_tokenize_function_with_gpt_model(self):
-        self.tokenizer = AutoTokenizer.from_pretrained('EleutherAI/gpt-j-6b')
+        self.tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6b")
 
-        examples = \
-            {
-                "instruction": "Test instruction",
-                "response": "Test response",
-                "context": "Test context",
-            }
+        examples = {
+            "instruction": "Test instruction",
+            "response": "Test response",
+            "context": "Test context",
+        }
 
         # Verify the format of the result
-        expected_result = 'Below is an instruction that describes a task. Write a response that '\
-                          'appropriately completes the request.\n'\
-                          '\n'\
-                          '### Instruction:\n'\
-                          'Test instruction\n'\
-                          '\n'\
-                          'Input:\n'\
-                          'Test context\n'\
-                          '\n'\
-                          '### Response:\n'\
-                          'Test response\n'\
-                          '\n'\
-                          '### End'
+        expected_result = (
+            "Below is an instruction that describes a task. Write a response that "
+            "appropriately completes the request.\n"
+            "\n"
+            "### Instruction:\n"
+            "Test instruction\n"
+            "\n"
+            "Input:\n"
+            "Test context\n"
+            "\n"
+            "### Response:\n"
+            "Test response\n"
+            "\n"
+            "### End"
+        )
 
         result = self.processer.tokenize_function(examples, self.tokenizer)
-        self.assertEqual(self.tokenizer.decode(result['input_ids']), expected_result)
+        self.assertEqual(self.tokenizer.decode(result["input_ids"]), expected_result)
 
     def test_tokenize_function_with_custom_chat_template(self):
-        examples = \
-            {
-                "instruction": "Test instruction",
-                "response": "Test response",
-                "context": "Test context",
-            }
+        examples = {
+            "instruction": "Test instruction",
+            "response": "Test response",
+            "context": "Test context",
+        }
 
         # Verify the format of the result
-        expected_result = '<|im_start|>user\n' \
-                          '###Instruction:\n' \
-                          'Test instruction\n' \
-                          '\n' \
-                          '###context:\n' \
-                          'Test context\n' \
-                          '\n' \
-                          '<|im_end|><|im_start|>assistant\n' \
-                          'Test response\n' \
-                          '\n' \
-                          '<|im_end|>'
+        expected_result = (
+            "<|im_start|>user\n"
+            "###Instruction:\n"
+            "Test instruction\n"
+            "\n"
+            "###context:\n"
+            "Test context\n"
+            "\n"
+            "<|im_end|><|im_start|>assistant\n"
+            "Test response\n"
+            "\n"
+            "<|im_end|>"
+        )
         # Set custom chat template
-        self.config['custom_chat_template'] = "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n'"\
-                                              "+ message['content'] + '<|im_end|>'}}{% endfor %}"
+        self.config["custom_chat_template"] = (
+            "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n'"
+            "+ message['content'] + '<|im_end|>'}}{% endfor %}"
+        )
 
-        self.config['gpt_base_model'] = False
+        self.config["gpt_base_model"] = False
         result = self.processer.tokenize_function(examples, self.tokenizer)
-        self.assertEqual(self.tokenizer.decode(result['input_ids']), expected_result)
+        self.assertEqual(self.tokenizer.decode(result["input_ids"]), expected_result)
 
     def test_tokenize_function_with_chat_template(self):
-        examples = \
-            {
-                "instruction": "Test instruction",
-                "response": "Test response",
-                "context": "Test context",
-            }
+        examples = {
+            "instruction": "Test instruction",
+            "response": "Test response",
+            "context": "Test context",
+        }
 
         # Verify the format of the result
-        expected_result = 'Below is an instruction that describes a task. Write a response that '\
-                          'appropriately completes the request\n'\
-                          '### Instruction: ###Instruction:\n'\
-                          'Test instruction\n'\
-                          '\n'\
-                          '###context:\n'\
-                          'Test context\n'\
-                          '\n'\
-                          '### Response: Test response\n'\
-                          '\n'\
-                          '### End \n'\
-
-        self.config['gpt_base_model'] = False
+        expected_result = (
+            "Below is an instruction that describes a task. Write a response that "
+            "appropriately completes the request\n"
+            "### Instruction: ###Instruction:\n"
+            "Test instruction\n"
+            "\n"
+            "###context:\n"
+            "Test context\n"
+            "\n"
+            "### Response: Test response\n"
+            "\n"
+            "### End \n"
+        )
+        self.config["gpt_base_model"] = False
         result = self.processer.tokenize_function(examples, self.tokenizer)
-        self.assertEqual(self.tokenizer.decode(result['input_ids']), expected_result)
+        self.assertEqual(self.tokenizer.decode(result["input_ids"]), expected_result)
 
     def test_tokenize_function_with_default_chat_template(self):
-        self.tokenizer = AutoTokenizer.from_pretrained('google/gemma-2b-it')
-        examples = \
-            {
-                "instruction": "Test instruction",
-                "response": "Test response",
-                "context": "Test context",
-            }
+        self.tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
+        examples = {
+            "instruction": "Test instruction",
+            "response": "Test response",
+            "context": "Test context",
+        }
 
         chat_example = [
             {
                 "role": "user",
                 "content": "###Instruction:\nTest instruction\n\n###context:\nTest context\n\n",
-
             },
             {
                 "role": "assistant",
                 "content": "Test response\n\n",
-            }
+            },
         ]
 
         # Verify the format of the result
-        expected_result = self.tokenizer.apply_chat_template(chat_example,
-                                                             tokenize=False,
-                                                             max_length=self.config.get("max_length"))
+        expected_result = self.tokenizer.apply_chat_template(
+            chat_example, tokenize=False, max_length=self.config.get("max_length")
+        )
 
-        self.config['gpt_base_model'] = False
+        self.config["gpt_base_model"] = False
         result = self.processer.tokenize_function(examples, self.tokenizer)
-        self.assertEqual(self.tokenizer.decode(result['input_ids']), expected_result)
+        self.assertEqual(self.tokenizer.decode(result["input_ids"]), expected_result)
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
     unittest.main()

Original file line number	Diff line number	Diff line change
`@@ -35,7 +35,7 @@ dependencies = [`
`35`	`35`	`"py-cpuinfo",`
`36`	`36`	`"pydantic-yaml",`
`37`	`37`	`"async-timeout",`
`38`		`- "jinja2>=3.0.0"`
	`38`	`+ "jinja2>=3.0.0",`
`39`	`39`	`"typer"`
`40`	`40`	`]`
`41`	`41`