Google Search results (08 July 2011)

မဟုတ်ပဲ OR မလုပ်ပဲ OR မဟုတ္ပဲ OR မလုပ္ပဲ – About 53,400 results ✗ 29.11668484%
မဟုတ်ဘဲ OR မလုပ်ဘဲ OR မဟုတ္ဘဲ OR မလုပ္ဘဲ – About 130,000 results ✓ 70.88331516%

ဒါဘဲ OR သူဘဲ OR ငါဘဲ – About 15,600 results ✗ 23.24888227%
ဒါပဲ OR သူပဲ OR ငါပဲ – About 51,500 results ✓ 76.75111773%

ဒါပေမယ့် OR ဒါေပမယ့္ – About 788,000 results ✗ 69.42731278%
ဒါပေမဲ့ OR ဒါေပမဲ့ – About 347,000 results ✓ 30.57268722%

သူလဲ OR ငါလဲ OR ဒါလဲ – About 54,000 results ✗ 26.47058824%
သူလည်း OR ငါလည်း OR ဒါလည်း OR သူလည္း OR ငါလည္း OR ဒါလည္း – About 150,000 results ✓ 73.52941176%

မဟုတ်ဖူး OR မလုပ်ဖူး OR မဟုတ္ဖူး OR မလုပ္ဖူး – About 9,210 results ✗ 2.797606391%
မဟုတ်ဘူး OR မလုပ်ဘူး OR မဟုတ္ဘူး OR မလုပဘူး – About 320,000 results ✓ 97.20239361%

ဒီနေ့စိတ်ကူးပေါက်တာနဲ့ ယေဘုယျ အကျဆုံးနဲ့ အမှားတတ်ဆုံး စာလုံးတွေကို ရှာကြည့်တယ်။ တချို့စာလုံးတွေက အမှန်ထက်ကို အမှားက ပိုများနေတာ တွေ့ရပါတယ်။ မြန်မာတွေ စာမဖတ်ကြတော့ဘူးလား၊ သတ်ပုံ ဂရုမစိုက်တော့ဘူးလားတောင် ထင်မိတယ်။ ဆယ်တန်းလောက်ထိ ကျောင်းစာနဲ့ ကာတွန်း၊ ဝတ္ထုအနည်းအကျဉ်းဖတ်၊ ဆယ်တန်းအောင်တော့ အွန်လိုင်းကိုရောက်လာ၊ အွန်လိုင်းက စာလုံးပေါင်းအမှားတွေနဲ့ ရင်းနှီးပြီး အမှားကို အမှန်ထင်သွားတာမျိုးတွေက များမယ်ထင်တယ်။ သတ်ပုံဂရုစိုက်တဲ့သူတွေမှာတောင် အမှားကို အမှန်စွဲနေလို့ မှားမိတာတွေ ရှိမယ်ထင့်။ ဥပမာ သွေးခြင်းခြင်းနီ၊ သတ်သတ်၊ အဆောက်အအုံတွေကို သွေးချင်းချင်းနီ၊ သပ်သပ်၊ အဆောက်အဦ လို့ စွဲပြီး မှားနေတာမျိုးတွေ။ နီးစပ်ရာလူတွေကို သတ်ပုံဂရုစိုက်ကြပါ ပြောလွန်းလို့ မျက်မုန်းကျိုးနေလောက်ပြီထင်တယ်။

သတ်ပုံစစ်တဲ့ ပရိုဂရမ်မှ မရှိတာကိုးလို့ ပြောကောင်းပြောကြမယ်။ မြန်မာစာက ဝေါဟာရတစ်ခုချင်းကို စပေ့စ်ခြားတဲ့ အင်္ဂလိပ်စာလိုမျိုး မဟုတ်လေတော့ သတ်ပုံအလွယ်စစ်မရပါ။ Word Segmentation ဝေါဟာရ ခွဲစိတ်ခြင်း လို့ခေါ်တဲ့ ဝေါဟာရတွေကို စာကြောင်းက ခွဲထုတ်ပစ်နိုင်တဲ့ အဆင့်တစ်ခုလိုပါတယ်။ ပြီးမှ ထွက်လာတဲ့ ဝေါဟာရတွေကို စစ်နိုင်ပါတယ်။ လောလောဆယ် Longest matching လို့ခေါ်တဲ့ အရှည်ဆုံးဝေါဟာရတွေကို Dictionary သုံးပြီး စာကြောင်းထဲက တစ်ဆင့်ချင်း ခွဲထုတ်ပစ်တဲ့ Logic နဲ့ ဝါစင်္ဂ တွေကို ခွဲထုတ်ပစ်တဲ့ Logic တွေကို Word Segmentation အတွက် သုံးပါတယ်။ ပြီးပြည့်စုံမှု မရှိသော်ငြား သုံးနိုင်တဲ့ အဆင့် ရှိပါပြီ။ Logic နဲ့ ပရိုဂရမ်လိုချင်သူများ Myanmar NLP နဲ့ ဆက်သွယ်ပြီး ရယူနိုင်ပါတယ်။

Perfect Program တောင်မှ သတ်ပုံစစ်ရင် မှားနိုင်တာတွေ ရှိသေးတာပါပဲ။ ဒါဘဲ – That’s that.(ဒါပဲ အမှား) (or) This is the duck. (ဒါဘဲ အမှန်) ဆိုပြီး ဖြစ်နိုင်ခြေရှိသလို (စျေးသည် စည်ကားနေသည်။) ဆိုတဲ့ ဝါကျမှာ စျေး+သည် လို့ ယူမလား၊ စျေးသည် လို့ ယူမလားဆိုတာကတော့ ဝါကျရဲ့ ခြုံငုံ အဓိပ္ပါယ်ကို ကောက်ပြီးမှသာ ယူလို့ရတဲ့ ကိစ္စမျိုး ဖြစ်ပါတယ်။

အွန်လိုင်းမှာ လူလာများတဲ့ Community Site လိုတွေမျိုးမှာ Homepage က စလို့ စာလုံးပေါင်းမှားနေတာ လက်ခံနိုင်ဖွယ်မရှိ လို့ပဲ ဆိုပါမယ်။ မြန်မာစာလုံးပေါင်း သတ်ပုံကျမ်းလည်း အွန်လိုင်းမှာ အလွယ်ပဲ ရှာရနိုင်ပါတယ်။ မြန်မာ-မြန်မာ-အင်္ဂလိပ် အဘိဓာန်တစ်ခုလုံးလည်း မြန်မာ ဝစ်ရှင်နရီ မှာ တင်ထားပါပြီ။ မြန်မာဖြစ်ပြီး မြန်မာစာလုံးပေါင်းလေး​ေတာ့ ဂရုစိုက်စေချင်ကြောင်းပါ။

Tags: , , , , ,

· · · ◊ ◊ ◊ · · ·