smitkiri · yenniejun · Mar 10, 2022 · Mar 16, 2022 · Mar 16, 2022 · Mar 16, 2022
diff --git a/generate_data.py b/generate_data.py
@@ -41,7 +41,7 @@ def parse_arguments():
                         default=0.1)
 
     parser.add_argument("--tokenizer", type=str,
-                        help="The tokenizer to use. 'scispacy', 'scispacy_plus', 'biobert-base', 'biobert-large', 'default'.",
+                        help="The tokenizer to use. 'scispacy', 'scispacy_plus', 'biobert-base', 'biobert-large', 'spacy_lg', 'default'.",
                         default="scispacy")
 
     parser.add_argument("--ext", type=str,
@@ -171,11 +171,17 @@ def main():
         args.max_seq_len -= biobert.num_special_tokens_to_add()
         tokenizer = biobert.tokenize
         is_bert_tokenizer = True
+
+    elif args.tokenizer == 'spacy_lg':
+        import spacy
+        tokenizer = spacy.load("en_core_web_lg")
+        is_bert_tokenizer = False
+
 
     else:
         warnings.warn("Tokenizer named " + args.tokenizer + " not found."
                       "Using default tokenizer instead. Acceptable values"
-                      "include 'scispacy', 'biobert-base', 'biobert-large',"
+                      "include 'scispacy', 'spacy_lg', 'biobert-base', 'biobert-large',"
                       "and 'default'.")
         tokenizer = default_tokenizer
         is_bert_tokenizer = False