ModelCloud
diff --git a/‎examples/benchmark/generation_speed.py
Lines changed: 3 additions & 1 deletion b/‎examples/benchmark/generation_speed.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/benchmark/ipex.py
Lines changed: 2 additions & 0 deletions b/‎examples/benchmark/ipex.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎examples/benchmark/perplexity.py
Lines changed: 3 additions & 1 deletion b/‎examples/benchmark/perplexity.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/evaluation/run_language_modeling_task.py
Lines changed: 3 additions & 1 deletion b/‎examples/evaluation/run_language_modeling_task.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/evaluation/run_sequence_classification_task.py
Lines changed: 3 additions & 1 deletion b/‎examples/evaluation/run_sequence_classification_task.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/evaluation/run_text_summarization_task.py
Lines changed: 3 additions & 1 deletion b/‎examples/evaluation/run_text_summarization_task.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/inference/run_transformers.py
Lines changed: 1 addition & 0 deletions b/‎examples/inference/run_transformers.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎examples/inference/run_with_different_backends.py
Lines changed: 3 additions & 1 deletion b/‎examples/inference/run_with_different_backends.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/quantization/basic_usage.py
Lines changed: 3 additions & 1 deletion b/‎examples/quantization/basic_usage.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/quantization/basic_usage_autoround.py
Lines changed: 3 additions & 1 deletion b/‎examples/quantization/basic_usage_autoround.py
Lines changed: 3 additions & 1 deletion
@@ -23,11 +23,13 @@
 
 import torch
 from datasets import Dataset, load_dataset
-from gptqmodel import BACKEND, GPTQModel, QuantizeConfig
 from logbar import LogBar
 from transformers import AutoTokenizer, GenerationConfig
 from transformers.generation.logits_process import LogitsProcessor
 
+from gptqmodel import BACKEND, GPTQModel, QuantizeConfig
+
+
 logger = LogBar.shared()
 
 random.seed(0)
 
@@ -20,6 +20,7 @@
 import torch
 from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
 
+
 try:
     from optimum.intel.utils.modeling_utils import bind_cores_for_best_perf
     bind_cores_for_best_perf()
@@ -29,6 +30,7 @@
 
 import argparse
 
+
 parser = argparse.ArgumentParser(description="Benchmark IPEX vs HF on a pre-trained model.")
 parser.add_argument("--model", type=str, required=True, help="Path or name of the pre-trained model.")
 parser.add_argument("--cores", type=int, default=8, help="Number of CPU cores to use.")
 
@@ -17,9 +17,11 @@
 import argparse
 import os
 
-from gptqmodel.utils import Perplexity
 from transformers import AutoTokenizer
 
+from gptqmodel.utils import Perplexity
+
+
 os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
 
 if __name__ == "__main__":
 
@@ -18,10 +18,12 @@
 
 import datasets
 import torch
+from transformers import AutoTokenizer
+
 from gptqmodel import BACKEND, GPTQModel, QuantizeConfig
 from gptqmodel.eval_tasks import LanguageModelingTask
 from gptqmodel.utils.torch import torch_empty_cache
-from transformers import AutoTokenizer
+
 
 DATASET = "tatsu-lab/alpaca"
 WITH_INPUT_TEMPLATE = "Instruction:\n{instruction}\n\nInput:\n{input}\n\nOutput:\n"
 
@@ -19,10 +19,12 @@
 
 import datasets
 import torch
+from transformers import AutoTokenizer
+
 from gptqmodel import BACKEND, GPTQModel, QuantizeConfig
 from gptqmodel.eval_tasks import SequenceClassificationTask
 from gptqmodel.utils.torch import torch_empty_cache
-from transformers import AutoTokenizer
+
 
 DATASET = "cardiffnlp/tweet_sentiment_multilingual"
 TEMPLATE = "Question:What's the sentiment of the given text? Choices are {labels}.\nText: {text}\nAnswer:"
 
@@ -19,10 +19,12 @@
 
 import datasets
 import torch
+from transformers import AutoTokenizer, GenerationConfig
+
 from gptqmodel import BACKEND, GPTQModel, QuantizeConfig
 from gptqmodel.eval_tasks import TextSummarizationTask
 from gptqmodel.utils.torch import torch_empty_cache
-from transformers import AutoTokenizer, GenerationConfig
+
 
 os.system("pip install py7zr")
 
 
@@ -16,6 +16,7 @@
 
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
+
 tokenizer = AutoTokenizer.from_pretrained("TheBloke/TinyLlama-1.1B-Chat-v0.3-GPTQ")
 quantized_model = AutoModelForCausalLM.from_pretrained("TheBloke/TinyLlama-1.1B-Chat-v0.3-GPTQ")
 print(tokenizer.decode(quantized_model.generate(**tokenizer("gptqmodel is", return_tensors="pt").to(quantized_model.device))[0]))
 
@@ -19,9 +19,11 @@
 import sys
 from argparse import ArgumentParser
 
-from gptqmodel import BACKEND, GPTQModel, QuantizeConfig, get_best_device
 from transformers import AutoTokenizer
 
+from gptqmodel import BACKEND, GPTQModel, QuantizeConfig, get_best_device
+
+
 os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
 pretrained_model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 quantized_model_id = "./TinyLlama/TinyLlama-1.1B-Chat-v1.0-4bit-128g"
 
@@ -16,9 +16,11 @@
 
 import os
 
-from gptqmodel import GPTQModel, QuantizeConfig, get_best_device
 from transformers import AutoTokenizer
 
+from gptqmodel import GPTQModel, QuantizeConfig, get_best_device
+
+
 os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
 
 pretrained_model_id = "/monster/data/model/TinyLlama-1.1B-Chat-v1.0" # "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 
@@ -15,9 +15,11 @@
 # limitations under the License.
 
 import torch
+from transformers import AutoTokenizer
+
 from gptqmodel import GPTQModel
 from gptqmodel.quantization.config import AutoRoundQuantizeConfig  # noqa: E402
-from transformers import AutoTokenizer
+
 
 pretrained_model_id = "/monster/data/model/TinyLlama-1.1B-Chat-v1.0" # "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 quantized_model_id = "./autoround/TinyLlama-1.1B-Chat-v1.0-4bit-128g"