Monday 21st March 2011

by Lionslayer

ဒီရက်ပိုင်းမှာ ဧရာဖောင့်ကို ယူနီကုဒ်အဖြစ် ရည်ညွှန်းပြောဆိုနေကြတာ တွေ့ရလို့ ဧရာဟာ ယူနီကုဒ် မဖြစ်ကြောင်းနဲ့ ဘာလို့မဖြစ်ရတာလဲဆိုတာ အတိုပဲ ရှင်းပါမယ်။ ယူနီကုဒ်ဖြစ်ဖို့ –

၁။ ယူနီကုဒ် ကုဒ်ပွိုင့်နဲ့ ကိုက်ညီရပါမယ်။

၂။ ယူနီကုဒ် စာလုံးစီပုံ (Encoding) နဲ့ ကိုက်ညီရပါမယ်။

 

အပြည်ပြည်ဆိုင်ရာ ယူနီကုဒ်ဇယားမှာ မြန်မာနိုင်ငံအတွင်းမှာရှိတဲ့ ဗမာစာနဲ့ တခြားတိုင်းရင်းသားစာတွေအတွက်လည်း နေရာ ၁၆၀ လောက် ပေးထားပါတယ်။ အဲဒီအက္ခရာတွေကို အပြည်ပြည်ဆိုင်ရာ စံသတ်မှတ်ရေးအဖွဲ့ဖြစ်တဲ့ ISO က စံသတ်မှတ်ပေးပြီး ယူနီကုဒ် ကွန်ဆိုတီယမ် အဖွဲ့ကြီးက လက်တွေ့အသုံးချလို့ရအောင် Encoding စည်းမျဉ်းတွေကို ချမှတ်ပေးပါတယ်။ ချမှတ်ထားတဲ့ စည်းမျဉ်းအသေးစိတ်ကို ဒီမှာ သွားဖတ်နိုင်ပါတယ်။

 

ယူနီကုဒ်စံနဲ့အညီ ဖန်တီးထားတဲ့ ဖောင့်စာရင်းက –

  • Myanmar3
  • Padauk
  • Parabaik
  • WinUniInnwa
  • Masterpiece Uni Sans
  • MyMyanmar
  • Xenotype
  • Yunghkio
  • Tharlon

တို့ ဖြစ်ပြီးတော့ ယူနီကုဒ်စံနဲ့ ပြည့်ပြည့်ဝဝ ကိုက်ညီတယ်၊ သို့မဟုတ် ကိုက်ညီအောင် အတတ်နိုင်ဆုံး ကြိုးစားထားတဲ့ ဖောင့်တွေလို့ ပြောလို့ ရပါတယ်။ ဒီစာရင်းထဲမှာပါတဲ့ ဖောင့်တစ်ခုနဲ့ ရေးထားတဲ့စာတွေကို ကျန်တဲ့ဖောင့်တစ်ခုနဲ့ တိုက်ရိုက်ဖတ်နိုင်ပါတယ်။ Times New Roman နဲ့ ရိုက်ထားတဲ့စာတွေကို Arial ဖောင့်နဲ့ ဖတ်လို့ ရသလိုပါပဲ။ ဖောင့်စာရင်းအသေးစိတ်ကို ဒီမှာ သွားကြည့်နိုင်ပါတယ်။

 

၁။ ယူနီကုဒ် ဖြစ်ဖို့ ကုဒ်ပွိုင့်နဲ့ ကိုက်ညီရမယ်ဆိုတဲ့အချက်မှာ အခုချိန်မှာ လူတော်တော်များများသုံးနေကြတဲ့ ဇော်ဂျီက မကိုက်ညီတော့ပါ။ ဧရာဖောင့်ကတော့ ကိုက်ညီပါတယ်။

၂။ ယူနီကုဒ်ဖြစ်ဖို့ ယူနီကုဒ် Encoding အတိုင်းစီရမယ်ဆိုတဲ့နေရာမှာ ဇော်ဂျီရော ဧရာပါ မကိုက်ညီတော့ပါ။

 

Encoding ဆိုတာကို အတိုချုံးပြီး ပြောရမယ်ဆိုရင် ဗြဟ္မီအနွယ်ဝင် စာတွေကို ယူနီကုဒ် Encoding စီတဲ့အခါ အက္ခရာ ရှေ့နောက်ပြောင်းလဲပုံတွေဟာ ရှုပ်ထွေးလွန်းတာကြောင့် ပုံသေ စည်းမျဉ်းတစ်ခု သတ်မှတ်ပြီး စီရပါတယ်။ ဗျည်း – ဗျည်းတွဲ – သရ ဆိုတဲ့ စီပုံပါပဲ။ ဗမာစာ(မြန်မာစာ) ဟာလည်း ဗြဟ္မီအနွယ်ဝင်ဖြစ်တဲ့အတွက် ယူနီကုဒ်စည်းမျဉ်းကို လိုက်နာပြီး စီရပါတယ်။ မြန်မာစာမှာဆိုရင် “မြဲ” ဆိုတဲ့ စာလုံးကို ယူနီကုဒ်မှာ မ(ဗျည်း) ရရစ်(ဗျည်းတွဲ) နောက်ပစ်(သရ) ဆိုပြီး စီပါတယ်။ “မြေ” ဆိုတဲ့ စာလုံးမှာ မ(ဗျည်း) ရရစ်(ဗျည်းတွဲ) သဝေထိုး(သရ) ဆိုပြီး စီပါတယ်။ အသးစိတ်ကို ဒီမှာ ဖတ်နိုင်ပါတယ်။

ယူနီကုဒ်အစစ်ဟာ စာလုံးပုံ ပြောင်းလဲမှုတွေကို ပြည့်ပြည့်ဝဝမလုပ်နိုင်တဲ့အတွက်ကြောင့် (ဧရာအဖွဲ့ကအဲလိုထင်တဲ့အတွက်ကြောင့်) ဧရာဟာ ယူနီကုဒ်စာလုံးစီပုံကို မလိုက်နာတော့ဘဲ ကိုယ်ပိုင် Encoding ကို ထွင်ရေးပါတယ်။

၁။ အမြင်အတိုင်း စာလုံးစီတာ ဖြစ်တဲ့အတွက်ကြောင့် ဝဏ္ဏတစ်ခုမှာ သဝေထိုးဟာ ဗျည်းထက်အရင် ရှေ့ဆုံးကိုလာပါတယ်။

၂။ ဗျည်းတွဲ ပင့်ရစ်ဆွဲထိုးလေးခုအနက် ရရစ်ကလည်း ဗျည်းရှေ့ကို ရောက်လာပါတယ်။

၃။ ကင်းစီး (ငသတ်အသေး) က ဒုတိယ ဗျည်းနောက်ကို ရောက်သွားပါတယ်။ ဥပမာ သင်္ကေတ ဆိုတဲ့ စာလုံးမှာ ကင်းစီးဟာ သ နဲ့သာ ဆိုင်ပါတယ်။ ဒါပေမဲ့ ဧရာမှာ ကကြီးနောက်မှာမှ ကင်းစီးလာပါတယ်။

သဝေထိုး၊ ရရစ်နဲ့၊ ကင်းစီး သုံးမျိုးသာ ယူနီကုဒ် Encoding နဲ့ ကွဲတဲ့အတွက်ကြောင့် ဧရာဟာ ယူနီကုဒ်နဲ့ သိပ်မကွာပါဘူးလို့ ပြောချင်တဲ့သူ ရှိကောင်းရှိပါမယ်။ ဒါပေမဲ့ ဒီနေရာမှာ Stats နဲ့ ပြောရမယ်ဆိုရင် အဲဒီသုံးမျိုး လွဲနေတဲ့အတွက်ကြောင့် ပျမ်းမျှ ၁၂ ရာနှုန်းသော ဝဏ္ဏတွေ လွဲပါတယ်။ ၇၀ ရာနှုန်းသော ဝေါဟာရတွေ လွဲပါတယ်။ ဒါ့အပြင် ဧရာကနေ ယူနီကုဒ်ပြန်ပြောင်းဖို့ လိုအပ်တဲ့အကူအညီတွေ ကိရိယာတွေ လုံလောက်အောင် ထောက်ပံ့မပေးထားပါ။ ယူနီကုဒ်လို့လည်း တောက်လျှောက် Claim လုပ်ပါတယ်။ ယူနီကုဒ်အစစ်တောင် သူ့လောက်မစစ်ဘူးလို့ ပြောချင်သလိုပါပဲ။

ယူနီကုဒ်စည်းမျဉ်းကို မလိုက်နာပါလျက်နဲ့ ကိုယ့်ဖောင့်ကို ယူနီကုဒ်ရယ်လို့ ကြော်ငြာထားခြင်းဟာ အသုံးပြုသူတွေကို ဇဝေဇဝါနဲ့ စိတ်ရှုပ်ထွေးစေပြီး သတင်းအချက်အလက်မှားတွေ ဖြန့်ဝေရာလည်း ရောက်ပါတယ်။ ဒီတော့ ဒီနေရာမှာ ကျွန်တော်မေတ္တာရပ်ခံချင်တာက –

၁။ ယူနီကုဒ်မဟုတ်ရင် ယူနီကုဒ်ဆိုတဲ့ စာလုံးကို ထည့်မသုံးပါနဲ့။ ဥပမာ – ဇော်ဂျီယူနီကုဒ်၊ ဧရာယူနီကုဒ် စသည် မသုံးပါနဲ့။ သုံးပြီးသား ကိုယ့် ဘလော့ထဲမှာ၊ ပို့(စ်) ထဲမှာ၊ ဆိုက်ဘားထဲမှာ၊ လင့်ထဲမှာ တင်ထားတွေရှိရင် ဖြုတ်ပေးကြပါ။

၂။ Mediawiki, WordPress, Google, Drupal စတဲ့ Localization Projects တွေမှာ ယူနီကုဒ်စံသတ်မှတ်ချက်ကိုသာ သုံးပေးပါ။ ဖေ့(စ်)ဘုတ်မှာ ကိုယ်ပိုင်ဘလော့မှာ ကိုယ်သုံးချင်တဲ့ဖောင့်သုံးတာ ပြဿနာမရှိပါ။ နိုင်ငံတကာပရောဂျက်တွေမှာတော့ သုံးလည်း ကျွန်တော်တို့ ယူနီကုဒ်ဖြစ်အောင် ပြန်ပြောင်းမှာ ဖြစ်ပါတယ်။ မယုံမရှိပါနဲ့။

၃။ ယူနီကုဒ်ဆိုတဲ့ ဝေါဟာရကို ဆက်သုံးဖို့ ဆန္ဒရှိတယ်ဆိုရင် ဧရာဖောင့်တွေကို ယူနီကုဒ်အဆင့်မီအောင် ပြင်ဆင်ပေးကြပါ။

ဒါဟာ အပျော့ပြောင်းဆုံးနဲ့ ကျိုးကြောင်းဆီလျော်မှု အရှိဆုံးဖြစ်အောင် ကြိုးစားထားတဲ့ သတိပေးချက်ဖြစ်ပါတယ်။ ဒီသတိပေးချက်ကို ဆက်လျစ်လျူရှုနေမယ်ဆိုရင်တော့ Unicode Consortium နဲ့ ISO ကို အသိပေးပြီး သင့်တော်သလို ကိုင်တွယ်သွားပါမယ်လို့ ပြောချင်ပါတယ်။ ကျေးဇူးတင်ပါတယ်။

Differences between Ayar encoding and standard Unicode encoding

Differences between Ayar encoding and standard Unicode encoding

——————-

This is the brief English section of this article. Ayar font which claimes itself as Unicode font never follows Unicode encoding standard. It wrongly encodes in u1031, u103c and kinzi(u1004 u103A u1039) which results in 12 percents of syllable mistakes and 70 percents of word mistakes. We, Myanmar Unicode activists, demand Ayar group either to remove “Unicode” usage from all of their websites or to fix all of their fonts to follow Unicode standard.Thanks to all and special thanks to Gerard of Wikimedia Foundation’s Language Committee who encouraged me to write this article.

——————-

မှတ်ချက်။  ။ ဒီနေရာမှာ “ဘာလို့ တစ်ယောက်တစ်ပေါက်ကွဲနေကြတာလဲ၊ စုစုစည်းစည်းဆွေးနွေးကြပါလား၊ နှစ်ယောက်ရှိရင်သုံးဖွဲ့ကွဲတယ်” စတဲ့ ဝေဖန်မှုများ မပြုလုပ်ကြဖို့ ကြိုတင် တားမြစ်ပါတယ်။ ပညာရှင်တွေ စုစည်း ကြိုးစား သတ်မှတ်ခဲ့လို့ ၂၀၀၈ က စပြီး  မြန်မာဘာသာအစုအဝေးကြီးအတွက် ယူနီကုဒ် အတည်ဖြစ်ပြီးသွားပါပြီ။ ဒီမူ မပြည့်စုံဘူး၊ လိုနေတယ်၊ ဘယ်နေရာကတော့ဖြင့် မကျေနပ်ဘူး စတာတွေကို ဒီဆောင်းပါးအောက်မှာတင် ကွန်းမန့် ပေးခဲ့နိုင်ပါတယ်။ သို့မဟုတ် Facebook စာမျက်နှာပေါ်မှာ ဝင်ရေးသွားနိုင်ပါတယ်။ သံသယတွေ ရှိရင် ဝိုင်းရှင်းပေးပါမယ်။ ဒီ စံသတ်မှတ်ချက်ဆိုတာကြီးကို စိတ်တိုင်းကျမဖြစ်ရင် မိမိက ကောင်းတယ်ထင်တဲ့ မူကို သက်သေအထောက်အထား အပြည့်အစုံနဲ့တကွ ယူနီကုဒ် ကွန်ဆိုတီယမ်မှာ တင်ပြပါ။ ကျွန်တော်တို့ကတော့ အတည်ဖြစ်တဲ့ စံကို ဝိုင်းဝန်းထောက်ခံသွားမှာပါပဲ။

Tags: , , , , , , , , , ,

· · · ◊ ◊ ◊ · · ·

2 Responses to “Ayar Font Is Not Unicode”

  1. Law Shay says:

    I think our (Myanmar) dictionary sorting sort in this way : Consonant (Byee), Vowel (Taya) and Co-cosonant (Byee Twe). For example, if we are to sort three words, (a) Mya (with Ra Yit), (b) Myay (with Ra Yit), (c) Mya (with Ya Pint) and (d) Myay (with Ya pint), then the sorted order is like :

    (a) Mya (with Ra Yit)
    (c) Mya (with Ya Pint)
    (b) Myay (with Ra Yit)
    (d) Myay (with Ya Pint)

    If we just follow the (current) Unicode and sort according to the binary coding, we will get (I think)

    (a), (b), (c), (d)

    because we have that Co-consonant (Byee Twe) in front of the vowel. For example, the two with Ra Yit (a and b) comes before those with Ya Pint (c and d).

    Actually, if we follow the Ka Wi Su Nay Se Daw Than Po sequence, the actual sorting sequence should be, like I said, a, c, b, d.

    Therefore, if you must submit to consortium or whatever, submit that our sorting sequence is strange and Co-consonant should be behind the Vowel. (Otherwise, there will be problem with computational complexity)

    • Lionslayer says:

      No, you cannot just auto-sort Bumese words or syllables. It’s sorted in sound.
      Consonant+Vowel+Medial sequence is not linguistically correct either.

      Our sorting isn’t strange and Burmese didn’t invented it themselves. It’s one of many branches of Brahmi(ဗြဟ္မီ) script.
      Here is ref to Burmese sorting.

      I will make a comparison how your way of sorting will work.
      ကို ကြ ဥ အု အူ ကိုက် will sort as ကို ကြ ကိုက် အု အူ ဥ.
      Correct one is ကို ကိုက် ကြ အု ဥ အူ. So adjusting medial and vowel order alone cannot sort Burmese.

      Don’t worry too much about sorting. So long as OS level adopt ICU standard, it can sort any language in any application. For example small “a” and capital “A” have different codepoints. But since OS supports English sorting, it can sort a and A together. ICU components for Burmese are also ready to adopt for any OS. Here is the demo link for Burmese. Now Linux fully support Burmese Unicode and can support all of it’s feature even inside terminal(terminal doesn’t support any complex shaping though). Here is my previous post about encoding and sorting.

· · · ◊ ◊ ◊ · · ·

Leave a Reply

*