Skip to content

Commit 0dcfae4

Browse files
committed
edit code rule2 in pythainlp.util
run python 2 and python 3
1 parent 437219c commit 0dcfae4

File tree

1 file changed

+21
-19
lines changed

1 file changed

+21
-19
lines changed

pythainlp/util/__init__.py

Lines changed: 21 additions & 19 deletions
Original file line numberDiff line numberDiff line change
@@ -46,23 +46,25 @@ def trigram(token):
4646
u"๋",
4747
u"ำ"
4848
] # เก็บพวกสระ วรรณยุกต์ที่ซ้ำกันแล้วมีปัญหา
49-
rule2=[
50-
(u"เเ",u"แ"), # เ เ -> แ
51-
(u"ํ(t)า",u"\\1ำ"),
52-
(u"ํา(t)",u"\\1ำ"),
53-
(u"([่-๋])([ัิ-ื])",u"\\2\\1"),
54-
(u"([่-๋])([ูุ])", u"\\2\\1"),
55-
(u"ำ([่-๋])", u"\\1ำ"),
56-
(u"(์)([ัิ-ื])",u"\\2\\1")]
57-
rule2py2=[
58-
(u"เเ",u"แ"),
59-
(u"ํ(t)า",u"\1ำ"),
60-
(u"ํา(t)",u"\1ำ"),
61-
(u"([่-๋])([ัิ-ื])",u"\2\1"),
62-
(u"([่-๋])([ูุ])", u"\2\1"),
63-
(u"ำ([่-๋])", u"\1ำ"),
64-
(u"(์)([ัิ-ื])",u"\2\1")
65-
] # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ
49+
if six.PY2:
50+
rule2=[
51+
(u"เเ",u"แ"),
52+
(u"ํ(t)า",u"\1ำ"),
53+
(u"ํา(t)",u"\1ำ"),
54+
(u"([่-๋])([ัิ-ื])",u"\2\1"),
55+
(u"([่-๋])([ูุ])", u"\2\1"),
56+
(u"ำ([่-๋])", u"\1ำ"),
57+
(u"(์)([ัิ-ื])",u"\2\1")
58+
] # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ
59+
else:
60+
rule2=[
61+
(u"เเ",u"แ"), # เ เ -> แ
62+
(u"ํ(t)า",u"\\1ำ"),
63+
(u"ํา(t)",u"\\1ำ"),
64+
(u"([่-๋])([ัิ-ื])",u"\\2\\1"),
65+
(u"([่-๋])([ูุ])", u"\\2\\1"),
66+
(u"ำ([่-๋])", u"\\1ำ"),
67+
(u"(์)([ัิ-ื])",u"\\2\\1")]
6668
def normalize(text):
6769
"""
6870
จัดการกับข้อความภาษาไทยให้เป็นปกติ
@@ -73,11 +75,11 @@ def normalize(text):
7375
True
7476
"""
7577
if six.PY2:
76-
for data in rule2py2:
78+
for data in rule2:
7779
text=re.sub(data[0].replace(u"t",u"[่้๊๋]"),data[1],text,re.U)
7880
else:
7981
for data in rule2:
8082
text=re.sub(data[0].replace("t","[่้๊๋]"),data[1],text,re.U)
8183
for data in list(zip(rule1,rule1)):
8284
text=re.sub(data[0].replace(u"t",u"[่้๊๋]")+"+",data[1],text,re.U)
83-
return text
85+
return text

0 commit comments

Comments
 (0)