fix rule in normalize

wannaphong · wannaphong · commit eee760e6bc5a · 2017-08-30T16:18:42.000+07:00
diff --git a/pythainlp/summarize/__init__.py b/pythainlp/summarize/__init__.py
@@ -29,7 +29,6 @@ def _rank(self, ranking, n):
 
     def summarize(self, text, n):
         sents = sent_tokenize(text)
-        assert n <= len(sents)
         word_sent = [word_tokenize(s) for s in sents]
         self._freq = self._compute_frequencies(word_sent)
         ranking = defaultdict(int)
diff --git a/pythainlp/util/__init__.py b/pythainlp/util/__init__.py
@@ -47,9 +47,9 @@ def trigram(token):
 ] # เก็บพวกสระ วรรณยุกต์ที่ซ้ำกันแล้วมีปัญหา
 rule2=[
     (u"เเ",u"แ"),
-    (u"ํ้า",u"้ำ"),
-    (u"ํา้",u"้ำ"),
-    (u"้ั",u"ั้")
+    (u"ํ(t)า",u"\\1ำ"),
+    (u"ํา(t)",u"\\1ำ"),
+    (u"([่-๋])([ัิ-ื])",u"\\2\\1")
 ] # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ
 def normalize(text):
     """
@@ -60,6 +60,8 @@ def normalize(text):
     >>> print(normalize("เเปลก")=="แปลก") # เ เ ป ล ก กับ แปลก
     True
     """
-    for data in rule2+list(zip(rule1,rule1)):
-        text=re.sub(data[0]+"+",data[1],text,re.U)
+    for data in rule2:
+        text=re.sub(data[0].replace("t","[่้๊๋]"),data[1],text,re.U)
+    for data in list(zip(rule1,rule1)):
+        text=re.sub(data[0].replace("t","[่้๊๋]")+"+",data[1],text,re.U)
     return text