Wikisource Myanmar

23 Jul 2011

Currently, there are only two active Wikimedia Projects for Burmese language, Wikipedia and Wiktionary. I want to expend one more for Wikisource. Wikisource is an online library of free content publications, collected and maintained by Wiki community. Myanmar is a culture-rich country with lots of classical writings. I think it will be better if all the artistic writings of the past can be archived in a single place which is easily accessible. I see no other sources for archiving other than Wikisource itself.

I want Tripiṭaka in Burmese texts along with Burmese translations to be uploaded to Wikisource as well. Tipitaka.org is maintaining the Tripiṭaka in multiple languages. But Burmese-pali texts are in Myanmar1(Unicode 4) texts. Those texts needs to be properly converted to current standard as well. In comparison, Myanmarbible.com is doing the good job maintaining the translations of Bible in various languages inside Myanmar.

The main issue here is we have only a handful of people who are actively contributing to Wiki projects. It will be better if we get some more recruits. I thought font issue was a problem in contributing Wiki. But it seems I guess wrong. Wikimyanmar site which can be written in Zawgyi encoding has little updates anyway.

Another issue is Copyright issues. I don’t want people to upload copyrighted materials to Wiki projects. Normally it seems there is no problem if we use a copyrighted material under fair use. But it’s an ethical issue and I don’t want to mix up the good works with unwanted attentions. Myanmar practices TRIP which means we can upload the publications to public domains after 50 years of author’s death. For example, we can upload Myo Ma Nyein(1909-1955)’s songs (texts) while we can’t upload Thakin Ko Daw Hmine(1876-1964)’s poems until 2014. We may need to list a datasheet of death years of Writers. I see no other than Ko Myat Thwin for this list.

Another issue is setting up an Incubator for new language at Meta before we get approval. Currently, not many Myanmar Wikipedians are active on Meta. If that’s the case, I might as well do it but I’m just a lazy bun in this kind of formal things ##.

Tags: , , , , ,

· · · ◊ ◊ ◊ · · ·

Google Search results (08 July 2011)

မဟုတ်ပဲ OR မလုပ်ပဲ OR မဟုတ္ပဲ OR မလုပ္ပဲ – About 53,400 results ✗ 29.11668484%
မဟုတ်ဘဲ OR မလုပ်ဘဲ OR မဟုတ္ဘဲ OR မလုပ္ဘဲ – About 130,000 results ✓ 70.88331516%

ဒါဘဲ OR သူဘဲ OR ငါဘဲ – About 15,600 results ✗ 23.24888227%
ဒါပဲ OR သူပဲ OR ငါပဲ – About 51,500 results ✓ 76.75111773%

ဒါပေမယ့် OR ဒါေပမယ့္ – About 788,000 results ✗ 69.42731278%
ဒါပေမဲ့ OR ဒါေပမဲ့ – About 347,000 results ✓ 30.57268722%

သူလဲ OR ငါလဲ OR ဒါလဲ – About 54,000 results ✗ 26.47058824%
သူလည်း OR ငါလည်း OR ဒါလည်း OR သူလည္း OR ငါလည္း OR ဒါလည္း – About 150,000 results ✓ 73.52941176%

မဟုတ်ဖူး OR မလုပ်ဖူး OR မဟုတ္ဖူး OR မလုပ္ဖူး – About 9,210 results ✗ 2.797606391%
မဟုတ်ဘူး OR မလုပ်ဘူး OR မဟုတ္ဘူး OR မလုပဘူး – About 320,000 results ✓ 97.20239361%

ဒီနေ့စိတ်ကူးပေါက်တာနဲ့ ယေဘုယျ အကျဆုံးနဲ့ အမှားတတ်ဆုံး စာလုံးတွေကို ရှာကြည့်တယ်။ တချို့စာလုံးတွေက အမှန်ထက်ကို အမှားက ပိုများနေတာ တွေ့ရပါတယ်။ မြန်မာတွေ စာမဖတ်ကြတော့ဘူးလား၊ သတ်ပုံ ဂရုမစိုက်တော့ဘူးလားတောင် ထင်မိတယ်။ ဆယ်တန်းလောက်ထိ ကျောင်းစာနဲ့ ကာတွန်း၊ ဝတ္ထုအနည်းအကျဉ်းဖတ်၊ ဆယ်တန်းအောင်တော့ အွန်လိုင်းကိုရောက်လာ၊ အွန်လိုင်းက စာလုံးပေါင်းအမှားတွေနဲ့ ရင်းနှီးပြီး အမှားကို အမှန်ထင်သွားတာမျိုးတွေက များမယ်ထင်တယ်။ သတ်ပုံဂရုစိုက်တဲ့သူတွေမှာတောင် အမှားကို အမှန်စွဲနေလို့ မှားမိတာတွေ ရှိမယ်ထင့်။ ဥပမာ သွေးခြင်းခြင်းနီ၊ သတ်သတ်၊ အဆောက်အအုံတွေကို သွေးချင်းချင်းနီ၊ သပ်သပ်၊ အဆောက်အဦ လို့ စွဲပြီး မှားနေတာမျိုးတွေ။ နီးစပ်ရာလူတွေကို သတ်ပုံဂရုစိုက်ကြပါ ပြောလွန်းလို့ မျက်မုန်းကျိုးနေလောက်ပြီထင်တယ်။

သတ်ပုံစစ်တဲ့ ပရိုဂရမ်မှ မရှိတာကိုးလို့ ပြောကောင်းပြောကြမယ်။ မြန်မာစာက ဝေါဟာရတစ်ခုချင်းကို စပေ့စ်ခြားတဲ့ အင်္ဂလိပ်စာလိုမျိုး မဟုတ်လေတော့ သတ်ပုံအလွယ်စစ်မရပါ။ Word Segmentation ဝေါဟာရ ခွဲစိတ်ခြင်း လို့ခေါ်တဲ့ ဝေါဟာရတွေကို စာကြောင်းက ခွဲထုတ်ပစ်နိုင်တဲ့ အဆင့်တစ်ခုလိုပါတယ်။ ပြီးမှ ထွက်လာတဲ့ ဝေါဟာရတွေကို စစ်နိုင်ပါတယ်။ လောလောဆယ် Longest matching လို့ခေါ်တဲ့ အရှည်ဆုံးဝေါဟာရတွေကို Dictionary သုံးပြီး စာကြောင်းထဲက တစ်ဆင့်ချင်း ခွဲထုတ်ပစ်တဲ့ Logic နဲ့ ဝါစင်္ဂ တွေကို ခွဲထုတ်ပစ်တဲ့ Logic တွေကို Word Segmentation အတွက် သုံးပါတယ်။ ပြီးပြည့်စုံမှု မရှိသော်ငြား သုံးနိုင်တဲ့ အဆင့် ရှိပါပြီ။ Logic နဲ့ ပရိုဂရမ်လိုချင်သူများ Myanmar NLP နဲ့ ဆက်သွယ်ပြီး ရယူနိုင်ပါတယ်။

Perfect Program တောင်မှ သတ်ပုံစစ်ရင် မှားနိုင်တာတွေ ရှိသေးတာပါပဲ။ ဒါဘဲ – That’s that.(ဒါပဲ အမှား) (or) This is the duck. (ဒါဘဲ အမှန်) ဆိုပြီး ဖြစ်နိုင်ခြေရှိသလို (စျေးသည် စည်ကားနေသည်။) ဆိုတဲ့ ဝါကျမှာ စျေး+သည် လို့ ယူမလား၊ စျေးသည် လို့ ယူမလားဆိုတာကတော့ ဝါကျရဲ့ ခြုံငုံ အဓိပ္ပါယ်ကို ကောက်ပြီးမှသာ ယူလို့ရတဲ့ ကိစ္စမျိုး ဖြစ်ပါတယ်။

အွန်လိုင်းမှာ လူလာများတဲ့ Community Site လိုတွေမျိုးမှာ Homepage က စလို့ စာလုံးပေါင်းမှားနေတာ လက်ခံနိုင်ဖွယ်မရှိ လို့ပဲ ဆိုပါမယ်။ မြန်မာစာလုံးပေါင်း သတ်ပုံကျမ်းလည်း အွန်လိုင်းမှာ အလွယ်ပဲ ရှာရနိုင်ပါတယ်။ မြန်မာ-မြန်မာ-အင်္ဂလိပ် အဘိဓာန်တစ်ခုလုံးလည်း မြန်မာ ဝစ်ရှင်နရီ မှာ တင်ထားပါပြီ။ မြန်မာဖြစ်ပြီး မြန်မာစာလုံးပေါင်းလေး​ေတာ့ ဂရုစိုက်စေချင်ကြောင်းပါ။

Tags: , , , , ,

· · · ◊ ◊ ◊ · · ·