Skip to content

dodinhvit23f/MultilingualCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

32 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Paracrawl

Crawl multilingual website likes VovWorld, VNAnet, VietNamPlus, QuanDoiNhanDan etc

This tools has been contributed by Do Dinh Tien, Tran Hong Viet (thviet79) and ** Bui Van Tan**

This tool is by for Window and Linux users, it purpose to crawl low-resource language such as Laotian, Khmer and popular language like Chinese, English etc you can add more if you want

Folders and Files organize

For each website News you have 1 Folder, it contains link of categories manually collected in linkauto Folder. When the tool run it'll check this folder to get all the news link, title (and date) at first run time. At second time etc, it with check the latest news of the website then add it to resource to save time (time it's knowledge and sleep =) ).

Detect Bilingual News

As you know news has title and date (some not in numeric format). Beacause news is very lagre resource so compare them is very time consuming. So we set date range around 15 days or 1 month. It reduce a lot of unnecessary canculating. With title we translate it from Machine translation (googleApi etc) to translate it to Vietnamese. After that titles will be tokenize by VNCoreNLP then use TF-IDF and stop words to remove words has no meaning like và ( and), or (hoặc), về (about) etc then compare titles similar or not.

TF-IDF & Stop Words Results

Bag of words

S1: “chuyển_đổi số : động_lực phát_triển”

S2: “chuyển_đổi sang kỹ_thuật_số : động_lực để phát_triển”

chuyển_đổi kỹ_thuật_số động_lực phát_triển số
2 1 2 2 1

S1 bag of words

chuyển_đổi động_lực phát_triển số
1 1 1 1

S2 bag of words

chuyển_đổi kỹ_thuật_số động_lực phát_triển
1 1 1 1

TF-IDF Vector

Text chuyển_đổi kỹ_thuật_số động_lực phát_triển số
S1 1 -1 1 1 0.30
S2 1 0.30 1 1 -1
Origin title Translated title Score
chủ_tịch quốc_hội lào đánh_giá cao các sáng_kiến và đề_xuất của việt_nam tại aipa 42 chủ_tịch quốc_hội lào biểu_dương các sáng_kiến và đề_xuất của việt_nam tại aipa 42 0.9022
quan_hệ nga mỹ : nhân_tố duy_trì sự ổn_định chiến_lược quan_hệ nga mỹ : ổn_định chiến_lược 0.7676183059241082
giá_trị của tư_tưởng hồ_chí_minh về chủ_nghĩa_xã_hội và con đường đi lên chủ_nghĩa_xã_hội ở việt_nam những giá_trị của quan_niệm hồ_chí_minh về chủ_nghĩa_xã_hội và con đường đi lên chủ_nghĩa_xã_hội ở việt_nam 0.7612
cộng_đồng quốc_tế ủng_hộ các giải_pháp của việt_nam trong vấn_đề biển đông cộng_đồng quốc_tế ủng_hộ các biện_pháp của việt_nam trong vấn_đề biển đông 0.7612
chuyển_đổi số : động_lực phát_triển chuyển_đổi sang kỹ_thuật_số : động_lực để phát_triển 0.7425

Our solution working prety well on finding bilingual news but there are many shortcomings, that I'll describe at below

Problem

Machine Translation Tool

**Similar meaning words and TF-IDF **

Origin title Translated title Bilingual
khai_mạc ngày hội giao_lưu văn_hoá thể_thao và du_lịch các dân_tộc_thiểu_số các tỉnh vùng biên_giới việt_nam lào vovworld_các tỉnh biên_giới việt_lào đã thống_nhất giao_lưu văn_hoá thể_thao và du_lịch với đồng_bào các dân_tộc True
lễ hồi_hương đưa_tiễn hài_cốt quân_tình_nguyện và chuyên_gia việt_nam hy_sinh tại lào lễ viếng 25 chuyên_gia quân_nhân việt_nam hy_sinh tại lào True
hội_thảo hệ_thống phát_triển liên_hợp_quốc và quan_hệ với việt_nam hội_thảo quan_hệ nga asean vai_trò của việt_nam tại liên_bang nga False
khai_mạc hội_nghị bộ_trưởng kinh_tế asean lần thứ 51 hội_nghị bộ_trưởng kinh_tế asean lần thứ 37 False

About

Crawl Multi Language News Website Content

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •