ဒီရက်ပိုင်းမှာ ဧရာဖောင့်ကို ယူနီကုဒ်အဖြစ် ရည်ညွှန်းပြောဆိုနေကြတာ တွေ့ရလို့ ဧရာဟာ ယူနီကုဒ် မဖြစ်ကြောင်းနဲ့ ဘာလို့မဖြစ်ရတာလဲဆိုတာ အတိုပဲ ရှင်းပါမယ်။ ယူနီကုဒ်ဖြစ်ဖို့ –

၁။ ယူနီကုဒ် ကုဒ်ပွိုင့်နဲ့ ကိုက်ညီရပါမယ်။

၂။ ယူနီကုဒ် စာလုံးစီပုံ (Encoding) နဲ့ ကိုက်ညီရပါမယ်။

 

အပြည်ပြည်ဆိုင်ရာ ယူနီကုဒ်ဇယားမှာ မြန်မာနိုင်ငံအတွင်းမှာရှိတဲ့ ဗမာစာနဲ့ တခြားတိုင်းရင်းသားစာတွေအတွက်လည်း နေရာ ၁၆၀ လောက် ပေးထားပါတယ်။ အဲဒီအက္ခရာတွေကို အပြည်ပြည်ဆိုင်ရာ စံသတ်မှတ်ရေးအဖွဲ့ဖြစ်တဲ့ ISO က စံသတ်မှတ်ပေးပြီး ယူနီကုဒ် ကွန်ဆိုတီယမ် အဖွဲ့ကြီးက လက်တွေ့အသုံးချလို့ရအောင် Encoding စည်းမျဉ်းတွေကို ချမှတ်ပေးပါတယ်။ ချမှတ်ထားတဲ့ စည်းမျဉ်းအသေးစိတ်ကို ဒီမှာ သွားဖတ်နိုင်ပါတယ်။

 

ယူနီကုဒ်စံနဲ့အညီ ဖန်တီးထားတဲ့ ဖောင့်စာရင်းက –

  • Myanmar3
  • Padauk
  • Parabaik
  • WinUniInnwa
  • Masterpiece Uni Sans
  • MyMyanmar
  • Xenotype
  • Yunghkio
  • Tharlon

တို့ ဖြစ်ပြီးတော့ ယူနီကုဒ်စံနဲ့ ပြည့်ပြည့်ဝဝ ကိုက်ညီတယ်၊ သို့မဟုတ် ကိုက်ညီအောင် အတတ်နိုင်ဆုံး ကြိုးစားထားတဲ့ ဖောင့်တွေလို့ ပြောလို့ ရပါတယ်။ ဒီစာရင်းထဲမှာပါတဲ့ ဖောင့်တစ်ခုနဲ့ ရေးထားတဲ့စာတွေကို ကျန်တဲ့ဖောင့်တစ်ခုနဲ့ တိုက်ရိုက်ဖတ်နိုင်ပါတယ်။ Times New Roman နဲ့ ရိုက်ထားတဲ့စာတွေကို Arial ဖောင့်နဲ့ ဖတ်လို့ ရသလိုပါပဲ။ ဖောင့်စာရင်းအသေးစိတ်ကို ဒီမှာ သွားကြည့်နိုင်ပါတယ်။

 

၁။ ယူနီကုဒ် ဖြစ်ဖို့ ကုဒ်ပွိုင့်နဲ့ ကိုက်ညီရမယ်ဆိုတဲ့အချက်မှာ အခုချိန်မှာ လူတော်တော်များများသုံးနေကြတဲ့ ဇော်ဂျီက မကိုက်ညီတော့ပါ။ ဧရာဖောင့်ကတော့ ကိုက်ညီပါတယ်။

၂။ ယူနီကုဒ်ဖြစ်ဖို့ ယူနီကုဒ် Encoding အတိုင်းစီရမယ်ဆိုတဲ့နေရာမှာ ဇော်ဂျီရော ဧရာပါ မကိုက်ညီတော့ပါ။

 

Encoding ဆိုတာကို အတိုချုံးပြီး ပြောရမယ်ဆိုရင် ဗြဟ္မီအနွယ်ဝင် စာတွေကို ယူနီကုဒ် Encoding စီတဲ့အခါ အက္ခရာ ရှေ့နောက်ပြောင်းလဲပုံတွေဟာ ရှုပ်ထွေးလွန်းတာကြောင့် ပုံသေ စည်းမျဉ်းတစ်ခု သတ်မှတ်ပြီး စီရပါတယ်။ ဗျည်း – ဗျည်းတွဲ – သရ ဆိုတဲ့ စီပုံပါပဲ။ ဗမာစာ(မြန်မာစာ) ဟာလည်း ဗြဟ္မီအနွယ်ဝင်ဖြစ်တဲ့အတွက် ယူနီကုဒ်စည်းမျဉ်းကို လိုက်နာပြီး စီရပါတယ်။ မြန်မာစာမှာဆိုရင် “မြဲ” ဆိုတဲ့ စာလုံးကို ယူနီကုဒ်မှာ မ(ဗျည်း) ရရစ်(ဗျည်းတွဲ) နောက်ပစ်(သရ) ဆိုပြီး စီပါတယ်။ “မြေ” ဆိုတဲ့ စာလုံးမှာ မ(ဗျည်း) ရရစ်(ဗျည်းတွဲ) သဝေထိုး(သရ) ဆိုပြီး စီပါတယ်။ အသးစိတ်ကို ဒီမှာ ဖတ်နိုင်ပါတယ်။

ယူနီကုဒ်အစစ်ဟာ စာလုံးပုံ ပြောင်းလဲမှုတွေကို ပြည့်ပြည့်ဝဝမလုပ်နိုင်တဲ့အတွက်ကြောင့် (ဧရာအဖွဲ့ကအဲလိုထင်တဲ့အတွက်ကြောင့်) ဧရာဟာ ယူနီကုဒ်စာလုံးစီပုံကို မလိုက်နာတော့ဘဲ ကိုယ်ပိုင် Encoding ကို ထွင်ရေးပါတယ်။

၁။ အမြင်အတိုင်း စာလုံးစီတာ ဖြစ်တဲ့အတွက်ကြောင့် ဝဏ္ဏတစ်ခုမှာ သဝေထိုးဟာ ဗျည်းထက်အရင် ရှေ့ဆုံးကိုလာပါတယ်။

၂။ ဗျည်းတွဲ ပင့်ရစ်ဆွဲထိုးလေးခုအနက် ရရစ်ကလည်း ဗျည်းရှေ့ကို ရောက်လာပါတယ်။

၃။ ကင်းစီး (ငသတ်အသေး) က ဒုတိယ ဗျည်းနောက်ကို ရောက်သွားပါတယ်။ ဥပမာ သင်္ကေတ ဆိုတဲ့ စာလုံးမှာ ကင်းစီးဟာ သ နဲ့သာ ဆိုင်ပါတယ်။ ဒါပေမဲ့ ဧရာမှာ ကကြီးနောက်မှာမှ ကင်းစီးလာပါတယ်။

သဝေထိုး၊ ရရစ်နဲ့၊ ကင်းစီး သုံးမျိုးသာ ယူနီကုဒ် Encoding နဲ့ ကွဲတဲ့အတွက်ကြောင့် ဧရာဟာ ယူနီကုဒ်နဲ့ သိပ်မကွာပါဘူးလို့ ပြောချင်တဲ့သူ ရှိကောင်းရှိပါမယ်။ ဒါပေမဲ့ ဒီနေရာမှာ Stats နဲ့ ပြောရမယ်ဆိုရင် အဲဒီသုံးမျိုး လွဲနေတဲ့အတွက်ကြောင့် ပျမ်းမျှ ၁၂ ရာနှုန်းသော ဝဏ္ဏတွေ လွဲပါတယ်။ ၇၀ ရာနှုန်းသော ဝေါဟာရတွေ လွဲပါတယ်။ ဒါ့အပြင် ဧရာကနေ ယူနီကုဒ်ပြန်ပြောင်းဖို့ လိုအပ်တဲ့အကူအညီတွေ ကိရိယာတွေ လုံလောက်အောင် ထောက်ပံ့မပေးထားပါ။ ယူနီကုဒ်လို့လည်း တောက်လျှောက် Claim လုပ်ပါတယ်။ ယူနီကုဒ်အစစ်တောင် သူ့လောက်မစစ်ဘူးလို့ ပြောချင်သလိုပါပဲ။

ယူနီကုဒ်စည်းမျဉ်းကို မလိုက်နာပါလျက်နဲ့ ကိုယ့်ဖောင့်ကို ယူနီကုဒ်ရယ်လို့ ကြော်ငြာထားခြင်းဟာ အသုံးပြုသူတွေကို ဇဝေဇဝါနဲ့ စိတ်ရှုပ်ထွေးစေပြီး သတင်းအချက်အလက်မှားတွေ ဖြန့်ဝေရာလည်း ရောက်ပါတယ်။ ဒီတော့ ဒီနေရာမှာ ကျွန်တော်မေတ္တာရပ်ခံချင်တာက –

၁။ ယူနီကုဒ်မဟုတ်ရင် ယူနီကုဒ်ဆိုတဲ့ စာလုံးကို ထည့်မသုံးပါနဲ့။ ဥပမာ – ဇော်ဂျီယူနီကုဒ်၊ ဧရာယူနီကုဒ် စသည် မသုံးပါနဲ့။ သုံးပြီးသား ကိုယ့် ဘလော့ထဲမှာ၊ ပို့(စ်) ထဲမှာ၊ ဆိုက်ဘားထဲမှာ၊ လင့်ထဲမှာ တင်ထားတွေရှိရင် ဖြုတ်ပေးကြပါ။

၂။ Mediawiki, WordPress, Google, Drupal စတဲ့ Localization Projects တွေမှာ ယူနီကုဒ်စံသတ်မှတ်ချက်ကိုသာ သုံးပေးပါ။ ဖေ့(စ်)ဘုတ်မှာ ကိုယ်ပိုင်ဘလော့မှာ ကိုယ်သုံးချင်တဲ့ဖောင့်သုံးတာ ပြဿနာမရှိပါ။ နိုင်ငံတကာပရောဂျက်တွေမှာတော့ သုံးလည်း ကျွန်တော်တို့ ယူနီကုဒ်ဖြစ်အောင် ပြန်ပြောင်းမှာ ဖြစ်ပါတယ်။ မယုံမရှိပါနဲ့။

၃။ ယူနီကုဒ်ဆိုတဲ့ ဝေါဟာရကို ဆက်သုံးဖို့ ဆန္ဒရှိတယ်ဆိုရင် ဧရာဖောင့်တွေကို ယူနီကုဒ်အဆင့်မီအောင် ပြင်ဆင်ပေးကြပါ။

ဒါဟာ အပျော့ပြောင်းဆုံးနဲ့ ကျိုးကြောင်းဆီလျော်မှု အရှိဆုံးဖြစ်အောင် ကြိုးစားထားတဲ့ သတိပေးချက်ဖြစ်ပါတယ်။ ဒီသတိပေးချက်ကို ဆက်လျစ်လျူရှုနေမယ်ဆိုရင်တော့ Unicode Consortium နဲ့ ISO ကို အသိပေးပြီး သင့်တော်သလို ကိုင်တွယ်သွားပါမယ်လို့ ပြောချင်ပါတယ်။ ကျေးဇူးတင်ပါတယ်။

Differences between Ayar encoding and standard Unicode encoding

Differences between Ayar encoding and standard Unicode encoding

——————-

This is the brief English section of this article. Ayar font which claimes itself as Unicode font never follows Unicode encoding standard. It wrongly encodes in u1031, u103c and kinzi(u1004 u103A u1039) which results in 12 percents of syllable mistakes and 70 percents of word mistakes. We, Myanmar Unicode activists, demand Ayar group either to remove “Unicode” usage from all of their websites or to fix all of their fonts to follow Unicode standard.Thanks to all and special thanks to Gerard of Wikimedia Foundation’s Language Committee who encouraged me to write this article.

——————-

မှတ်ချက်။  ။ ဒီနေရာမှာ “ဘာလို့ တစ်ယောက်တစ်ပေါက်ကွဲနေကြတာလဲ၊ စုစုစည်းစည်းဆွေးနွေးကြပါလား၊ နှစ်ယောက်ရှိရင်သုံးဖွဲ့ကွဲတယ်” စတဲ့ ဝေဖန်မှုများ မပြုလုပ်ကြဖို့ ကြိုတင် တားမြစ်ပါတယ်။ ပညာရှင်တွေ စုစည်း ကြိုးစား သတ်မှတ်ခဲ့လို့ ၂၀၀၈ က စပြီး  မြန်မာဘာသာအစုအဝေးကြီးအတွက် ယူနီကုဒ် အတည်ဖြစ်ပြီးသွားပါပြီ။ ဒီမူ မပြည့်စုံဘူး၊ လိုနေတယ်၊ ဘယ်နေရာကတော့ဖြင့် မကျေနပ်ဘူး စတာတွေကို ဒီဆောင်းပါးအောက်မှာတင် ကွန်းမန့် ပေးခဲ့နိုင်ပါတယ်။ သို့မဟုတ် Facebook စာမျက်နှာပေါ်မှာ ဝင်ရေးသွားနိုင်ပါတယ်။ သံသယတွေ ရှိရင် ဝိုင်းရှင်းပေးပါမယ်။ ဒီ စံသတ်မှတ်ချက်ဆိုတာကြီးကို စိတ်တိုင်းကျမဖြစ်ရင် မိမိက ကောင်းတယ်ထင်တဲ့ မူကို သက်သေအထောက်အထား အပြည့်အစုံနဲ့တကွ ယူနီကုဒ် ကွန်ဆိုတီယမ်မှာ တင်ပြပါ။ ကျွန်တော်တို့ကတော့ အတည်ဖြစ်တဲ့ စံကို ဝိုင်းဝန်းထောက်ခံသွားမှာပါပဲ။

Tags: , , , , , , , , , ,

· · · ◊ ◊ ◊ · · ·

A Myanmar language loving man asked some of us, the Unicode activists, why encoding sequence of Myanmar Unicode is not the same as Burmese script. So I tried to type a long letter (for a slow typer like me) and explained as much with my tiny wit.

##

အန်ကယ်ခင်ဗျား

အလုပ်မအားလို့ ခုမှ စာပြန်ဖြစ်ပါတယ်။ အဓိက သဝေထိုး ကိစ္စပဲ ပြောမှာပါ။ အာရပ်၊ ဟိန္ဒူ၊ မြန်မာ၊ နဲ့ အခြားသော အရှေ့တောင် အာရှစာများဟာ ဗြာဟ္မီ အနွယ်ဝင် စာများ ဖြစ်ပြီး ဗျည်းနဲ့ ဗျည်းတွဲ သရများ ပေါင်းစပ်တဲ့အခါ ပုံအမျိုးမျိုး ပြောင်းပါတယ်။ အဲဒီအခါ နီးစပ်တဲ့ ဘာသာများ ဖြစ်သည့်တိုင်အောင် တချို့ဘာသာမှာ သရဟာ အရှေ့ရောက်၊ တချို့က အပေါ်ရောက် တချို့က အောက်ရောက်ပါတယ်။ Unicode Encoding အဖြစ် တိကျသေချာတဲ့ စည်းမျဉ်းတွေ ရှိတဲ့ စနစ်တစ်ရပ် ပြုလုပ်တဲ့အခါ ဘယ်အက္ခရာဟာ အရှေ့မှာ နေပြီး ဘယ်ဟာ အနောက်မှာနေမယ်ဆိုတာ အတိအကျ စည်းမျဉ်း ချရပါတယ်။ တော်သလို ကြည့်လုပ်လို့ မရပါ။ အဲဒီစည်းမျဉ်းတွေ ချတဲ့အခါမှာ Linguistic (ဘာသာဗေဒ)ကို လိုက်နာပြီး နေရာချဖို့ ဆုံးဖြတ်ပါတယ်။ Linguistic ဆိုတာ အသံအရ စီခြင်း၊ ယုတ္တိကျအောင် စီခြင်း ဖြစ်ပါတယ်။

သဝေထိုးဟာ ဆိုရင် သရဖြစ်ပါတယ်။ အသံအရ သရဟာ ဗျည်းနောက်မှ လာတာပါ။ ဥပမာ ပြေး ဆိုတဲ့စာလုံးမှာ ပ(ဗျည်း) + ရ(ရရစ်) + သဝေထိုး(သရ) + ဝစ္စပေါက်(အသံလေး) ရယ်လို့စီပါတယ်။ စီပုံစီနည်း တစ်သမတ်တည်း ဖြစ်စေဖို့ ဖြစ်ပါတယ်။ လုံးကြီးတင်ဟာ အပေါ်မှာနေပြီး ချောင်းငင်ဟာ အောက်မှာနေပါတယ်။ ဒါပေမဲ့ စီတော့လည်း သူ့ကို နောက်မှာ သွားထားတာပါပဲ။ တခြား ဝင်းဖောင့်၊ ဇော်ဂျီဖောင့်တို့နဲ့ သွားမနှိုင်းပါနဲ့။ သူတို့မှာ အက္ခရာတွေကို ရှေ့နောက် ပြောင်းပေးနိုင်တဲ့ နည်းပညာမရှိလို့ အမြင်အရ အဆင်ပြေအောင် စီထားရခြင်းသာ ဖြစ်ပါတယ်။

ဗျည်းတွဲဟာ ပင့်ရစ်ဆွဲထိုး လေးလုံးဖြစ်ပြီး သရမလာခင် အရင်လာပါတယ်။ မေဆွိ က ဆွိမှာ ဝဆွဲ အရင်လာပြီးမှ သရ လုံးတင် လာပါတယ်။ ဗျည်းတွဲ အချင်းချင်း ယှဉ်လာရင် ပင့်ရစ်ဆွဲထိုး အစဉ်အတိုင်း ရေးပါတယ်။ ဥပမာ အမြွှာ မှာ အ + မ + ရရစ် + ဝဆွဲ + ဟထိုး + ရေးချ ရယ်လို့ ပုံသေ စီပါတယ်။ စည်းမျဉ်းမရှိ စံမလိုက်နာတဲ့ ဖောင့်တွေမှာတော့ ရေးချင်သလိုရေးပါတယ်။ အဲဒီအခါ Search Engine တွေမှာ တစ်မျိုးနဲ့ရေးရင် နောက်တစ်မျိုးကို ရှာမတွေ့နိုင်တော့ပါ။

အောက်မြစ်ဟာဆိုရင် မြန်မာစာမှာ အသံဖော့တဲ့ သင်္ကေတဖြစ်ပြီး အသတ်နောက်မှ လာပါတယ်။ ဒါပေမဲ့ ယူနီကုဒ်မှာ အောက်မြစ်ပြီးမှ အသတ် လာရပါတယ်။ ဘာဖြစ်လို့လဲ။ ကရင်စာမှာ အောက်မြစ်ဟာ သရအဖြစ်လည်း သုံးပါတယ်။ အဲဒီအခါမှာ အသတ်ရှေ့ကိုရောက်လာပြီး ဗမာစာစီပုံနဲ့ ပြောင်းပြန် ဖြစ်ပါတယ်။ ဒါပေမဲ့ ကရင်ဟာ မြန်မာယူနီကုဒ် အုပ်စုထဲမှာ ပါနေတဲ့အတွက် စီပုံ တစ်သမတ်တည်း ဖြစ်အောင် အောက်မြစ်ကို အရှေ့ပို့လိုက်ရပါတယ်။

စာလုံးစီပုံ Encoding ဟာ ကွန်ပျူတာနဲ့ဆိုင်တဲ့ ကိစ္စဖြစ်ပြီး မြန်မာစာ ရေးထုံးကို မထိခိုက်ပါ။ ရိုက်တဲ့အခါမှာ မြန်မာစာ သင်ပုန်းကြီးအတိုင်း သဝေထိုး ပစောက် ရရစ် ရေးချ ဝစ္စပေါက် = ပြောင်း ရပါတယ်။ ပေါ်ရင်လည်း အမှန်ပေါ်ပါတယ်။ အဲလိုစီတဲ့အတွက်လည်း အက္ခရာစဉ်တာမှာ အများကြီး မှန်ကန်လာပါတယ်။ (ကွန်ပျူတာစနစ်မှာ မြန်မာစာကို အထောက်အပံ့ပေးထားရင် မြန်မာအက္ခရာစဉ်တို ရှေးထုံးအတိုင်း စဉ်လို့ ရပါတယ်။ )အာရပ်စာ ဟိန္ဒူစာ အရှေ့တောင်အာရှစာတွေကို ကွန်ပျူတာစနစ်မှာ ထောက်ပံ့ပေးတဲ့အခါ အရှေ့အနောက်စီတာတွေကို လိုက်ကြည့်စရာမလိုတော့ပါ။ Selection မှတ်တဲ့အခါ ဝဏ္ဏတစ်ဖြတ်လုံးကိုသာ Select လုပ်လို့ ရပါတော့တယ်။ ဆိုလိုတာက ရရစ် အသတ် ဝစ္စပေါက် စတာတွေကို တစ်ခုစီ သတ်သတ် Select လုပ်မရတော့ပါ။ ဝဏ္ဏတစ်ဖြတ်လုံး (Syllable level) ပါလာမှာ ဖြစ်ပါတယ်။ စာရိုက်တာ မှားသွားရင် နောက်က Backspace နဲ့ အက္ခရာ တစ်ခုချင်းစီ ဖျက်လို့ရပါတယ်။ အရှေ့က ဖျက်မယ်ဆိုရင်တော့ ဝဏ္ဏတစ်ခုလုံး ပျက်မှာ ဖြစ်ပါတယ်။ အခုအခါ မြန်မာစာကို Mac နဲ့ Windows မှာ မထောက်ပံ့သေးတဲ့အတွက် အဲဒီ Feature ကို မြင်ရမှာ မဟုတ်ပါ။ Linux မှာတော့ မြန်မာစာကို အပြည့်အဝ အထောက်အပံ့ ပေးပါပြီ။

Selection, Delete နဲ့ Backspace စမ်းနိုင်အောင် ကွန်ပျူတာက အပြည့်အဝ ထောက်ပံ့ပေးထားတဲ့ ဟိန္ဒူစာနဲ့ အာရပ်စာတွေကို ထည့်ပေးလိုက်ပါတယ်။

क्षमा कीजिये أنت غبي

http://unicode.org/notes/tn11/UTN11_3.pdf ယူနီကုဒ် စာလုံးစီပုံ စည်းမျဉ်းတွေကို ယူနီကုဒ် ကွန်ဆိုတီယမ်အဖွဲ့က ဒီမှာ အတိအကျ ရေးထားပါတယ်။ ယူနီကုဒ်ဖောင့် ဖြစ်ဖို့ ကုဒ်ပွိုင့်နေရာသာမက စာလုံးစီပုံကိုလည်း အတိအကျ လိုက်နာရပါတယ်။ ဒီစည်းမျဉ်းတွေက တစ်စက်လေး လွဲချော်တာနဲ့ ယူနီကုဒ် မဟုတ်ဘူးလို့ သတ်မှတ်ပါတယ်။ မတော်တဆ လွဲချော်တာဆိုရင်တော့ ပြင်ဖို့ ထောက်ပြ ပေးနိုင်ပါတယ်။ တမင်ကို လွှဲချော်ထားတာဆိုရင်တော့ ကျွန်တော်လည်း ဘာမှ မတတ်နိုင်ပါ။ ယူနီကုဒ် မဟုတ်ပါလို့ ပြောရုံသာ ရှိပါတော့တယ် ခင်ဗျာ။

လေးစားစွာဖြင့်
##

Tags: , , , ,

· · · ◊ ◊ ◊ · · ·

ဒီရက်ပိုင်း ယူနီကုဒ်ကို လူတော်တော်များများ စိတ်ဝင်စားလာကြပြီး ထောက်ပြဝေဖန် မေးမြန်းတာတွေ ရှိတဲ့အထဲမှာ ညီလင်းဆက်ရေးခဲ့တဲ့ Review on Myanmar Unicode 5.1 & Suggestion ကို ပြတဲ့ပြီး ဒါတွေရှင်းပြီးပြီလားလို့ မေးတဲ့လူတွေ ရှိလာလို့ ဒီစာကို ရေးဖြစ်ပါတယ်။ ယူနီကုဒ်လုပ်ခဲ့တဲ့ ပညာရှင်တွေ၊ Developer တွေက ကိုယ်စီ ရှင်းထားကြပေမဲ့ အင်္ဂလိပ်လိုဖြစ်တာရယ်၊ မြန်မာလိုရေးထားတာဆိုရင်လည်း တစ်စုတစ်စည်းတည်း မရှိတာကြောင့်  တစ်နေရာတည်းမှာ စုစည်းပြီး ဖြေပေးလိုက်ပါတယ်။

.::Download this article in PDF format here::.

 

၁။

ယူနီကုဒ်မှာ ပုံသဏ္ဌာန် ထပ်တူထပ်မျှတူရင် သုံးတဲ့နေရာ မတူပေမဲ့ ကုဒ်ပွိုင့်တစ်ခုတည်း ယူပါတယ်။

 

ဥပမာ –

玍 – (738D)

To be born

Birth, origin

To live, to exist, to survive

To revive, to bring to life

Raw, uncooked, crude

Pure, neat, genuine

unfamiliar, strange

untamed, barbarian

a student

 

ះ – (17C7)

KHMER SIGN REAHMUK

srak ah

visarga

 

Screen shot 2011-01-22 at 2

Khmer O, AU

 

ရှေ့ထိုး (​ေ-ာ်)ကိုသီးခြားခွဲထုတ်မရပါ။ ဒါ့အပြင် Split Vowel (ခမာတွင်သုံးသည်, 17C4, 17C5) ဟုသတ်မှတ်၍ ​ေ-ာ်အတွက် တစ်ကွက်ထည့်ပါက ​ေ-ာ၊ -ံ့ ၊ -ို အတွက်ပါ ထည့်ရပါမယ်။ အဲဒီအတွက်  Split Vowel ကိုမသုံးပဲ အသတ်ကိုသာ ရှေ့ထိုးအတွက် ပုံဖော်ခြင်းမှာ သုံးပါတယ်။ အဲလိုမျှဝေသုံးစွဲခြင်းအတွက် အက္ခရာစဉ်ခြင်းနှင့် ရှာဖွေခြင်းတွင် မည်သို့မျှပြောင်းလဲခြင်းမရှိပါ။ Split Vowel လို့ထည့်ရင် ပြင်မယ်ဆိုရင် အသတ်ကိုဖျက်တာ၊ ရေးချကို ဖျက်တာခက်သွားမယ်။ ကော် ကနေ ကော၊ ကေ ကိုပြင်မယ်ဆိုရင် ရေးချ၊ ရှေ့ထိုးဖျက်ရုံနဲ့မရဘဲ တစ်ခုလုံးဖျက်ရပါမယ်။

 

၂။

 

မွန်ဘာသာ ရှေးစာတွေမှာ “ပဿ” အသုံးရှိသလို “လသ္သ” အသုံးလည်း ရှိပါတယ်။ ယူနီကုဒ် အရှေ့ပိုင်းဗားရှင်းတွေမှာ ဿကြီး မပါပါဘူး။ နောက်မှ လိုလို့ အကြောင်းအကျိုး သက်သေသာဓကတွေ ပြပြီး တောင်းထားတာ ဖြစ်ပါတယ်။ နောက်ထပ် code point မပေးရင် အဲဒီ ၂ခုလုံးကို ဖော်ပြဖို့ မဖြစ်နိုင်ပါ။ disunification လုပ်ရပါတယ်။ Database မှာ De-normalization ကို မြန်ဖို့ အဆင်ပြေဖို့ သုံးရသလိုပါပဲ။

 

၃။

 

ခုခေတ်မှာ ဗမာစာတစ်ခုတည်း ရုံးသုံးဖြစ်နေပေမဲ့ တူညီတဲ့ အက္ခရာတွေ ယူသုံးတဲ့ တခြားသာသာစကား အများအပြားလည်း ရှိပါတယ်။ ယူနီကုဒ်မှာ ဗမာ၊ မွန်၊ ရခိုင်၊ ရှမ်း၊ ပိုးကရင်၊ စကောကရင်၊ ပလောင်၊ ပအို့ဝ် စတဲ့ တိုင်းရင်းသားစာ အများအပြားအတွက်ပါ ထည့်ပေးထားတဲ့အတွက် ဗမာစာတစ်ခုတည်း ကွက်ကြည့်လို့ မဖြစ်တော့ပါဘူး။ ဗမာစာကိုယ်တိုင်ကိုက မွန်အက္ခရာတွေမှာ အခြေခံထားတဲ့အတွက် မွန်ဘာသာရယ်၊ သူနဲ့ယှဉ်ပြီးသုံးတဲ့ ရှေးထုံးဗမာစာရယ်ကိုပါ ထည့်စဉ်းစားရပါတယ်။ မွန်စာရေးထုံးအရ မသတ် (မ်) ကို အတိုရေးချင်တဲ့အခါ ဗျည်းပေါ် အစက်တင် (Superscripted) ရေးပါတယ်။ (အခုထိ ခမာမှာ အဲဒီအတိုင်းသုံးပါတယ်)။ အမှန်တော့ ဗျည်းပေါ်တင်ရေးတဲ့ အဲဒီအစက် ကိုယ်တိုင်ကိုက ဗျည်း(အံ) ဖြစ်ပါတယ်။ အဲဒါကြောင့် အ နဲ့ပေါင်းပြီး အ သေးသေးတင် ဖြစ်တဲ့အခါ သရလို့ မယူဆပါဘူး။ နောက်ပိုင်း မြန်မာသင်ပုန်းကြီးက ဗျည်းမှာ အံ မထည့်တော့ဘဲ ဗျည်းလွတ်နေတဲ့ သရတွေကို စီတဲ့အထဲ သွားထည့်လိုက်တဲ့အခါ သရအဖြစ် သတ်မှတ်လိုက်ပါတော့တယ်။ အဲဒါကြောင့် သေးသေးတင်ကို သရအဖြစ်ရော ဗျည်းအဖြစ်ပါ သတ်မှတ်တဲ့အတွက် Various Sign ထဲထည့်ပါတယ်။ ခမာနဲ့ ထိုင်းဘာသာတွေမှာပါ Various Sign ထဲ ဝင်ပါတယ်။

 

၄။

 

ရှေးက မြန်မာစာရေးတဲ့အခါမှာ ကျောက်စာပေစာတွေမှာ ရေးရတဲ့အတွက် နေရာဆံ့အောင် အတိုရေးရတဲ့ နည်းတွေ ရှိပါတယ်။ အု က ဥ ဖြစ်တာတွေက အဲဒီထုံးပါပဲ။ ၎င်း ကိုယ်၌ကိုက လည်းကောင်းကို ချုံ့တာပါ။ ၎င်း ကို ထပ်ချုံ့ချင်တဲ့အခါမှာတော့ ၎ သင်္ကေတပေါ် ကင်းစီးတင်ပြီး ၎င်္ ရယ်လို့ ရေးပါတယ်။ အဲဒါကြောင့် ၎ သင်္ကေတမှာ ငသတ်ဝစ္စပေါက် ဖြုတ်ထားတာ ဖြစ်ပါတယ်။ ယူနီကုဒ် 1.0 မူကြမ်းမှာ ၎ သင်္ကေတနဲ့ ဿကြီး 5.1 မူအတိုင်း ပါပါတယ်။

 

၅။

 

အပေါ်က သဝေထိုးကို ရှေးက ဗမာစာ၊ မွန်စာတွေမှာ သုံးပါတယ်။ ခုခေတ်လည်း မွန်စာတွေမှာ သုံးနေတုန်းပါပဲ။ ဥပမာ – “ယဵု”။ အသုံးလိုတိုင်းယူနီကုဒ်မှာ လိုက်ထည့်နေရမလားဆိုတော့ ဟုတ်ပါတယ် လိုက်ထည့်ရမှာပါ။ သုံးတဲ့အသုံး၊ ဘယ်နေရာမှာသုံးတယ်၊ ဘယ်ခုနှစ်က ဘယ်တိုင်းရင်းသားရဲ့ ဘယ်စာမှာသုံးတယ်ဆိုတာ ပြနိုင်ရင် ယူနီကုဒ်ကွန်ဆိုတီယမ်မှာ ထပ်တိုးတောင်းလို့ ရပါတယ်။ ကုဒ်ပွိုင့်တစ်ခုချင်းစီဟာ ရဖို့ အင်မတန်ခက်ခဲတဲ့အတွက် အသစ်ရမယ်ဆိုရင် ဒါဟာ ဝမ်းသာအားရ ကြိုဆိုရမယ့် အချက် ဖြစ်ပါတယ်။

 

၆။

 

Normalization အတွက်လားဆိုရင် ဟုတ်ပါတယ်လို့ ဖြေရပါမယ်။ Alternate rule for normalization ဆိုတာ ရှိရင် ပိုအကျိုးရှိပါတယ်။ ရဖို့လည်း ခက်ပါတယ်။ ဥလုံးကြီးတင်ဆန်ခတ်နဲ့ မှားနိုင်စရာ တခြားစာလုံးမရှိတာရယ်၊ ရှောင်ဖို့ခက်တဲ့ သာဓကအများအပြားရယ်ကြောင့် ထည့်ပေးလိုက်တာပါ။ လက်ကွက်မှတ်မိရင် 1025+102E အစား 1026 အက္ခရာ ဦ ကိုသာသုံးဖို့ တိုက်တွန်းပါတယ်။

 

၇။

 

ဪ သရအတွက် မွန်စာမှာ ရှေ့ပစ်သုံးပြီး ပြပါတယ် – “အဴ”။ ဗမာစာမှာ ရှေ့ပစ်မသုံးတော့ဘဲ ဝသတ်နဲ့ ပြပါတယ် – “ဝ်”။ သဝေထိုးနဲ့ ရေးချသုံးတဲ့ အော်သံမှာ ရှေ့ပစ်နဲ့ဆင်တဲ့ ရှေ့ထိုးကို သုံးပြီး ပုံစံအသစ်ရေးပါတယ်။ ကုန်းဘောင်ခေတ် တောင်တွင်းဆရာတော် ခင်ကြီးဖျော်ရဲ့ သဒ္ဒဗျူဟာကျမ်းမှာတော့ အော်သရအတွက် အက္ခရာဩမှာ သဝေထိုးရေးချ ရှေ့ထိုးကပ်ပြီး အက္ခရာဪကို စထွင်ပါတယ်။ ဒါပေမဲ့ အက္ခရာဩ အက္ခရာဪတွေကို သ ရရစ် လို့ မရေးပါ။ မွန်စာမှာ အက္ခရာဩ ရော သ ရရစ် အသုံးပါ ရှိတဲ့အတွက်ကြောင့် ဖြစ်ပါတယ်။ ဥပမာ – “သြန်” (သကို ရရစ်ကပ်ရင် ဆလိမ်+အောသံထွက်ပါတယ်)။

 

 

၈။

 

၁၉၉၈ ယူနီကုဒ်(၃) မြန်မာစာ Proposal မှာ အော နဲ့ အော် သရနှစ်လုံးပါပါတယ်။ ဒါပေမဲ့ သရလို့ဆိုတဲ့ အ ကိုယ်၌က ဗျည်းထဲဝင်နေတဲ့အချက်ကြောင့်ရယ် အို အုံ အံ အသုံးတွေ အတွက်ကြောင့်နဲ့ အ ကိုသုံးပြီး ရှိပြီးသားသရတွေဖြစ်တဲ့ သဝေထိုး၊ ရေးချတို့နဲ့ ရေးလို့ဖြစ်တယ်ဆိုပြီး နောက်ပိုင်းမှာ ပြန်ဖြုတ်ပါတယ်။ ဗျည်းမှာ အ မပါတဲ့ ခမာကိုတော့ အော အော် နှစ်လုံး ပေးပါတယ်။ ယူနီကုဒ်ပွိုင့်လေး တစ်လုံးတစ်ပါဒအတွက် မြန်မာစာပညာရှင်၊ ကွန်ပျူတာပညာရှင်ေတွ ဖြစ်နိုင်ချေရှိတဲ့ နည်းလမ်းပေါင်းစုံသုံးပြီး အကြိမ်ကြိမ် ခေါင်းချင်းဆိုင်ဆွေးနွေး၊ ပြည်ပကိုအခါခါထွက်၊ ဆုံးဖြတ်ချက်ကို လည်တရှည်ရှည်နဲ့စောင့်ဖူးခဲ့ပါပြီ။

 

 

၉။

 

ယူနီကုဒ်အက္ခရာတွေမှာ မြန်မာအက္ခရာတွေအတွက် ဘလော့ခ် အစုအဝေးကြီးတစ်ခု ထားပေးပြီး ပုံစံကျအောင် စီပါတယ်။ ဗားရှင်းတစ်ခုချင်းစီ သွားတိုင်း မလိုတာပယ် လိုတာဖြည့်လုပ်ပါတယ်။ အဲဒီအခါမှာ အရင်ဗားရှင်းတွေနဲ့ အတတ်နိုင်ဆုံးတူအောင် ပြန်ချန်ထားရပါတယ်။ ဗမာစာဟာ မွန်စာကို ယူသုံးထားပါတယ်။ မွန်စာမှာလည်း ဗမာစာမှာမရှိတဲ့ အက္ခရာတွေ ပါပါတယ်။ ရှမ်းစာ မွန်စာ ရခိုင်စာ ကရင်စာ မှာလည်း ဗမာအက္ခရာကို သုံးပါတယ်။ ကျီးဖြူဒီမှာနေ၊ ကျီးမည်းဒီကိုသွားဆိုပြီး ခွဲထုတ်လို့မရနိုင်ပါဘူး။

 

၁၀။

 

 

ယူနီကုဒ်ဖောင့်တွေဖြစ်တဲ့ မြန်မာ၃၊ မိုင်မြန်မာ၊ ပိတောက်၊ ပုရပိုက်၊ ယွန်းချို၊ မာစတာပိယူနီစံတွေမှာ ရှားရှားပါးပါး ပါဠိသက် တစ်နေရာ နှစ်နေရာကလွဲလို့ အားလုံးအတူတူ အလုပ်လုပ်ပါတယ်။ အခုဒီစာကိုလည်း Mac မှာ မာစတာပိယူနီစံနဲ့ ရိုက်ပြီး မွန်စာတွေ မြင်ရအောင် Windows မှာ ပိတောက်နဲ့ PDF ပြန်ထုတ်ပါတယ်။

 

၁၁။ ဒါကတော့ ညီလင်းဆက်ထဲမှာ မပါပေမဲ့ ယူနီကုဒ်က ပါဠိသုံးထပ်ဆင့် မရဘူးလို့ ကတ်ကတ်သတ်သတ် ပြောသူတွေ ရှိလာတာကြောင့် တစ်လက်စတည်း ထည့်ရေးဖြစ်ပါတယ်။ ယူနီကုဒ် Encoding မှာ မြန်မာဘာသာအတွက် Encode လုပ်လို့မရဘူးဆိုတာ မရှိ​သလောက် ဖြစ်နေပါပြီ။ ဖောင့်အနေနဲ့ အမှန်မပြနိုင်တာတွေ ရှိကောင်းရှိပါမယ်။ ဥပမာ –

န + ဝိရာမ + တ + ဝဆွဲ ဆိုတဲ့ ပါဠိသုံးထပ်ဆင့် စာလုံးပါ။

 

သူ့ကို အခု မြန်မာ၃နဲ့ အမှန်မမြင်ရပေမဲ့ သုံးမှဖြစ်မယ်ဆိုပြီးလိုအပ်လာခဲ့လို့ ရှိရင် ယူနီကုဒ် Encoding စာလုံးစီပုံ ရှိပြီးသား ဖြစ်တဲ့အတွက် ဖောင့်မှာ Glyph တစ်ခုနဲ့ Rule တစ်ခု ပေါင်းထည့်လိုက်ရုံနဲ့ ရပါပြီ။

 

Encoding ဆိုတာနဲ့ တစ်ဆက်တည်း ပြောလိုက်ပါဦးမယ်။ ယူနီကုဒ် Encoding Model မှာ ဘယ်အက္ခရာက ရှေ့ကနေပြီး ဘယ်အက္ခရာက နောက်ကနေမယ်ဆိုတာ အတိအကျ ဖော်ပြထားတဲ့ စည်းမျဉ်းတွေ ရှိပါတယ်။ Encoding ဆိုတာ မြန်မာစာ သင်ရိုး မဟုတ်ပါဘူး။ တခြားတိုင်းရင်းသားအက္ခရာတွေနဲ့ အဆင်ပြေအောင်၊ ကွန်ပျူတာမှာ တွက်ချက်ရ လွယ်ကူအောင် နောင်အရှည်မှာ အဆင်ပြေလွယ်ကူအောင် ဘာသာဗေဒနည်း အရ ကွန်ပျူတာမှာ Syllable ဝဏ္ဏအဆင့် သိမ်းတဲ့နည်း ဖြစ်ပါတယ်။ အလွယ်မှတ်ရင်တော့ ဗျည်း၊ ဗျည်းတွဲ၊ သရ လို့ မှတ်နိုင်ပါတယ်။ စိတ်ဝင်စားရင် ဒီနေရာမှာ အလွယ်မှတ်နည်း အဆင့်ဆင့်ကို သွားကြည့်နိုင်ပါတယ်။ အကျယ်ကိုတော့ ဒီမှာ ကြည့်ပါ။

 

နောက်ဆုံးတစ်ခုပြောချင်တာက ယူနီကုဒ်ဟာ မြန်မာစာ ကောင်းကောင်းမတတ်တဲ့ ကွန်ပျူတာသမားတွေ လုပ်ချင်ရာ လုပ်ထားကြတာ မဟုတ်ဘူး ဆိုတာပါပဲ။ မြန်မာစာပညာရှင်တွေ၊ တိုင်းရင်းသားစာပေ ပညာရှင်တွေ၊ ဘာသာဗေဒကို အထူးပြု လေ့လာနေတဲ့ လူတွေ၊ ကွန်ပျူတာပညာရှင်တွေ အားလုံး ဝိုင်းဝန်းပြီး လုပ်ထားကြတာပါ။ လုပ်တိုင်းလည်း မြန်မာတွေ စိတ်ကြိုက် အားလုံး မရပါ။ အရှေ့တောင်အာရှဘာသာစကားတွေကို အထူးပြုလေ့လာထားတဲ့ ယူနီကုဒ်ကွန်ဆိုတီယမ်က ပညာရှင်တွေရဲ့ အဆင့်ဆင့် စိစစ်မှုကို ခံကြရပါသေးတယ်။ ယူနီကုဒ် Proposal တစ်ခုတင်ဖို့ နဲ့ တင်ပြီးရင် အတည်ပြုဖို့ တစ်နှစ်ကြာပါတယ်။ အဲဒီကာလတွေအတွင်းမှာ အကြောင်းပြချက်ခိုင်လုံရင် ပြင်ခွင့် ကန့်ကွက်ခွင့် ရှိပါတယ်။ အဲဒါတွေအားလုံး ပြီးသွားတော့မှ အတည်ပြုတဲ့ ဗားရှင်းတစ်ခုရပါတယ်။ အခု ဗားရှင်း 5.2 မှာ ဗမာစာအတွက် ပြင်စရာ ကုန်သလောက်ဖြစ်သွားပါပြီ။ ဒါကြောင့် စိတ်ချသုံးလို့ ရပါပြီလို့ ပြောနေကြတာပါ။ လူသိနည်းတဲ့ တိုင်းရင်းသားစာတွေ ထည့်ဖို့ရှိလာတယ်ဆိုလည်း အခုရှိပြီးသားအက္ခရာတွေရဲ့ နောက်မှာ ထပ်ထည့်သွားရုံပါပဲ။ ဒီလောက်ဆိုရင် ဒွိဟဖြစ်နေသူ အတော်များများ ရှင်းသွားလောက်ပြီ ထင်ပါတယ်။

 

@=={Lionslayer>

22/01/2011

 

Ref:

Tags: , , , , , , , , , , ,

· · · ◊ ◊ ◊ · · ·