fix python2 in normalize

wannaphong · wannaphong · commit 68d4fdb09105 · 2017-08-30T16:43:17.000+07:00
diff --git a/pythainlp/util/__init__.py b/pythainlp/util/__init__.py
@@ -1,5 +1,6 @@
 ﻿# -*- coding: utf-8 -*-
 import re
+import six
 from nltk.util import ngrams as ngramsdata
 def ngrams(token,num):
 	'''
@@ -49,7 +50,12 @@ def trigram(token):
     (u"เเ",u"แ"),
     (u"ํ(t)า",u"\\1ำ"),
     (u"ํา(t)",u"\\1ำ"),
-    (u"([่-๋])([ัิ-ื])",u"\\2\\1")
+    (u"([่-๋])([ัิ-ื])",u"\\2\\1")]
+rule2py2=[
+    (u"เเ",u"แ"),
+    (u"ํ(t)า",u"\1ำ"),
+    (u"ํา(t)",u"\1ำ"),
+    (u"([่-๋])([ัิ-ื])",u"\2\1")
 ] # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ
 def normalize(text):
     """
@@ -60,8 +66,12 @@ def normalize(text):
     >>> print(normalize("เเปลก")=="แปลก") # เ เ ป ล ก กับ แปลก
     True
     """
-    for data in rule2:
-        text=re.sub(data[0].replace("t","[่้๊๋]"),data[1],text,re.U)
+    if six.PY2:
+        for data in rule2py2:
+            text=re.sub(data[0].replace(u"t",u"[่้๊๋]"),data[1],text,re.U)
+    else:
+        for data in rule2:
+            text=re.sub(data[0].replace("t","[่้๊๋]"),data[1],text,re.U)
     for data in list(zip(rule1,rule1)):
-        text=re.sub(data[0].replace("t","[่้๊๋]")+"+",data[1],text,re.U)
+        text=re.sub(data[0].replace(u"t",u"[่้๊๋]")+"+",data[1],text,re.U)
     return text