Skip to content

Commit 528658e

Browse files
committed
add rule in pythainlp.util.normalize
1 parent 68d4fdb commit 528658e

File tree

1 file changed

+5
-3
lines changed

1 file changed

+5
-3
lines changed

pythainlp/util/__init__.py

Lines changed: 5 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -47,15 +47,17 @@ def trigram(token):
4747
u"ำ"
4848
] # เก็บพวกสระ วรรณยุกต์ที่ซ้ำกันแล้วมีปัญหา
4949
rule2=[
50-
(u"เเ",u"แ"),
50+
(u"เเ",u"แ"), # เ เ -> แ
5151
(u"ํ(t)า",u"\\1ำ"),
5252
(u"ํา(t)",u"\\1ำ"),
53-
(u"([่-๋])([ัิ-ื])",u"\\2\\1")]
53+
(u"([่-๋])([ัิ-ื])",u"\\2\\1"),
54+
(u"ำ([่-๋])", u"\\1ำ")]
5455
rule2py2=[
5556
(u"เเ",u"แ"),
5657
(u"ํ(t)า",u"\1ำ"),
5758
(u"ํา(t)",u"\1ำ"),
58-
(u"([่-๋])([ัิ-ื])",u"\2\1")
59+
(u"([่-๋])([ัิ-ื])",u"\2\1"),
60+
(u"ำ([่-๋])", u"\1ำ")
5961
] # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ
6062
def normalize(text):
6163
"""

0 commit comments

Comments
 (0)