@@ -46,23 +46,25 @@ def trigram(token):
4646 u"๋" ,
4747 u"ำ"
4848] # เก็บพวกสระ วรรณยุกต์ที่ซ้ำกันแล้วมีปัญหา
49- rule2 = [
50- (u"เเ" ,u"แ" ), # เ เ -> แ
51- (u"ํ(t)า" ,u"\\ 1ำ" ),
52- (u"ํา(t)" ,u"\\ 1ำ" ),
53- (u"([่-๋])([ัิ-ื])" ,u"\\ 2\\ 1" ),
54- (u"([่-๋])([ูุ])" , u"\\ 2\\ 1" ),
55- (u"ำ([่-๋])" , u"\\ 1ำ" ),
56- (u"(์)([ัิ-ื])" ,u"\\ 2\\ 1" )]
57- rule2py2 = [
58- (u"เเ" ,u"แ" ),
59- (u"ํ(t)า" ,u"\1 ำ" ),
60- (u"ํา(t)" ,u"\1 ำ" ),
61- (u"([่-๋])([ัิ-ื])" ,u"\2 \1 " ),
62- (u"([่-๋])([ูุ])" , u"\2 \1 " ),
63- (u"ำ([่-๋])" , u"\1 ำ" ),
64- (u"(์)([ัิ-ื])" ,u"\2 \1 " )
65- ] # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ
49+ if six .PY2 :
50+ rule2 = [
51+ (u"เเ" ,u"แ" ),
52+ (u"ํ(t)า" ,u"\1 ำ" ),
53+ (u"ํา(t)" ,u"\1 ำ" ),
54+ (u"([่-๋])([ัิ-ื])" ,u"\2 \1 " ),
55+ (u"([่-๋])([ูุ])" , u"\2 \1 " ),
56+ (u"ำ([่-๋])" , u"\1 ำ" ),
57+ (u"(์)([ัิ-ื])" ,u"\2 \1 " )
58+ ] # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ
59+ else :
60+ rule2 = [
61+ (u"เเ" ,u"แ" ), # เ เ -> แ
62+ (u"ํ(t)า" ,u"\\ 1ำ" ),
63+ (u"ํา(t)" ,u"\\ 1ำ" ),
64+ (u"([่-๋])([ัิ-ื])" ,u"\\ 2\\ 1" ),
65+ (u"([่-๋])([ูุ])" , u"\\ 2\\ 1" ),
66+ (u"ำ([่-๋])" , u"\\ 1ำ" ),
67+ (u"(์)([ัิ-ื])" ,u"\\ 2\\ 1" )]
6668def normalize (text ):
6769 """
6870 จัดการกับข้อความภาษาไทยให้เป็นปกติ
@@ -73,11 +75,11 @@ def normalize(text):
7375 True
7476 """
7577 if six .PY2 :
76- for data in rule2py2 :
78+ for data in rule2 :
7779 text = re .sub (data [0 ].replace (u"t" ,u"[่้๊๋]" ),data [1 ],text ,re .U )
7880 else :
7981 for data in rule2 :
8082 text = re .sub (data [0 ].replace ("t" ,"[่้๊๋]" ),data [1 ],text ,re .U )
8183 for data in list (zip (rule1 ,rule1 )):
8284 text = re .sub (data [0 ].replace (u"t" ,u"[่้๊๋]" )+ "+" ,data [1 ],text ,re .U )
83- return text
85+ return text
0 commit comments