update docs & fix #64

wannaphong · wannaphong · commit 4a979d906833 · 2018-02-17T00:30:21.000+07:00
diff --git a/README.rst b/README.rst
@@ -1,5 +1,5 @@
 ================
-PyThaiNLP 1.5.1
+PyThaiNLP 1.6.0
 ================
 
 Thai natural language processing in Python.
@@ -30,4 +30,4 @@ Development Lead
 
 **License**
 
-Apache Software License 2.0
+Apache Software License 2.0
diff --git a/docs/pythainlp-1-6-thai.md b/docs/pythainlp-1-6-thai.md
@@ -60,15 +60,23 @@ engine คือ ระบบตัดคำไทย ปัจจุบัน
 2. icu -  engine ตัวดั้งเดิมของ PyThaiNLP (ความแม่นยำต่ำ)
 3. dict - เป็นการตัดคำโดยใช้พจานุกรมจาก thaiword.txt ใน corpus  (ความแม่นยำปานกลาง) **จะคืนค่า False หากข้อความนั้นไม่สามารถตัดคำได้**
 4. longest-matching ใช้ Longest matching ในการตัดคำ
-5. mm - ใช้ Maximum Matching algorithm ในการตัดคำภาษาไทย - API ชุดเก่า
-6. pylexto ใช้ LexTo ในการตัดคำ โดยเป็น Longest matching
+5. mm - ใช้ Maximum Matching algorithm ในการตัดคำภาษาไทย - API ชุดเก่า **อยู่ในหมวดบำรุงรักษาเท่านั้น**
+6. ****pylexto ใช้ LexTo ในการตัดคำ โดยเป็น Longest matching
 7. deepcut ใช้ deepcut จาก https://github.com/rkcosmos/deepcut ในการตัดคำภาษาไทย
 8. wordcutpy ใช้ wordcutpy (https://github.com/veer66/wordcutpy) ในการตัดคำ
 
 คืนค่าเป็น ''list'' เช่น ['แมว','กิน']
 
 **ตัวอย่าง**
 
+```
+สำหรับผู้ใช้งาน Python 2.7 ให้ทำการ encode ให้เป็น UTF-8 ก่อนใช้งานโมดูล PyThaiNLP
+
+เช่น text=u'ผมรักคุณนะครับโอเคบ่พวกเราเป็นคนไทยรักภาษาไทยภาษาบ้านเกิด'
+```
+
+การใช้งาน
+
 ```python
 from pythainlp.tokenize import word_tokenize
 text='ผมรักคุณนะครับโอเคบ่พวกเราเป็นคนไทยรักภาษาไทยภาษาบ้านเกิด'
@@ -102,6 +110,12 @@ engine คือ เครื่องมือตัดคำ
 
 ตัวอย่างการใช้งาน https://gist.github.com/wannaphongcom/1e862583051bf0464b6ef4ed592f739c
 
+```
+สำหรับผู้ใช้งาน Python 2.7 ให้ทำการ encode ให้เป็น UTF-8 ก่อนใช้งานโมดูล PyThaiNLP
+
+เช่น text=u'ผมรักคุณนะครับโอเคบ่พวกเราเป็นคนไทยรักภาษาไทยภาษาบ้านเกิด'
+```
+
 #### sent_tokenize
 
 ใช้ตัดประโยคภาษาไทย
@@ -129,6 +143,14 @@ engine คือ เครื่องมือสำหรับใช้ตั
 ['ทดสอบ', 'ตัดคำช่องว่าง']
 ```
 
+```
+สำหรับผู้ใช้งาน Python 2.7 ให้ทำการ encode ให้เป็น UTF-8 ก่อนใช้งานโมดูล PyThaiNLP
+
+เช่น WhitespaceTokenizer(u"ทดสอบ ตัดคำช่องว่าง")
+```
+
+
+
 #### isthai
 
 ใช้เช็คข้อความว่าเป็นภาษาไทยทั้งหมดกี่ %
@@ -217,12 +239,12 @@ engine คือ ชุดเครื่องมือในการ postagge
 
 ```python
 from pythainlp.romanization import romanization
-romanization(str,engine='pyicu')
+romanization(str,engine='royin')
 ```
 มี 2 engine ดังนี้
 
 - pyicu ส่งค่า Latin
-- royin ใช้หลักเกณฑ์การถอดอักษรไทยเป็นอักษรโรมัน ฉบับราชบัณฑิตยสถาน (**หากมีข้อผิดพลาด ให้ใช้คำอ่าน เนื่องจากตัว royin ไม่มีตัวแปลงคำเป็นคำอ่าน**)
+- royin ใช้หลักเกณฑ์การถอดอักษรไทยเป็นอักษรโรมัน ฉบับราชบัณฑิตยสถาน (**หากมีข้อผิดพลาด ให้ใช้คำอ่าน เนื่องจากตัว royin ไม่มีตัวแปลงคำเป็นคำอ่าน**) 
 
 data :
 
@@ -234,7 +256,7 @@ data :
 
 ```python
 from pythainlp.romanization import romanization
-romanization("แมว") # 'mæw'
+romanization("แมว") # 'maew'
 ```
 
 ### spell 
@@ -568,7 +590,7 @@ text_list คือ ข้อความภาษาไทยที่อยู
 
 #### ConceptNet
 
-เครื่องมือสำหรับ ConceptNet.
+เครื่องมือสำหรับ ConceptNet
 
 **ค้นหา edges**
 
diff --git a/example/segment.py b/example/segment.py
@@ -1,4 +1,5 @@
+# -*- coding: utf-8 -*-
 from pythainlp.tokenize import word_tokenize
-a = 'ฉันรักภาษาไทยเพราะฉันเป็นคนไทยและฉันใช้ภาษาไทย'
+a =u'ฉันรักภาษาไทยเพราะฉันเป็นคนไทยและฉันใช้ภาษาไทย'
 b = word_tokenize(a)
-print(b)
+print(b)
diff --git a/requirements.txt b/requirements.txt
@@ -2,6 +2,5 @@ nltk>=3.2.2
 future>=0.16.0
 six
 marisa_trie
-langdetect
 dill
-pytz
+pytz
diff --git a/tox.ini b/tox.ini
@@ -1,5 +1,5 @@
 [tox]
-envlist = py34, py35, flake8
+envlist = py27, py34, py35, flake8
 
 [testenv:flake8]
 basepython=python