ပြောလက်စနဲ့ အမုန်းခံပြီး ထပ်ပြောလိုက်ပါဦးမယ်။ ယူနီကုဒ်ဖောင့်ရေးတဲ့လူတွေ ပြင်တဲ့လူတွေ ကော်ပီရိုက်ကို လေးစားကြဖို့ပါ။ ဖောင့်ဖေ့စ်စုံတာ ကောင်းပါတယ်။ ဒါပေမဲ့ သူများခွင့်ပြုချက်မတောင်းဘဲ (မရဘဲ) ပရော်ဖက်ရှင်နယ်ဖောင့်တွေက ဂလစ်တွေကို ခပ်တည်တည်နဲ့ ယူသုံးနေတာ ရပ်ကြဖို့ တောင်းဆိုပါတယ်။ ခွင့်ပြုချက်မရဘဲ သုံးတယ်ဆိုတာ တနည်းပြောရရင် ခိုးတာပါပဲ။ ဇော်ဂျီကို Tahoma နဲ့ Arial တွေခိုးသုံးထားလို့ သူခိုးဖောင့်လို့ပြောသလို ယူနီကုဒ်ဖောင့်တွေလည်း တဖြည်းဖြည်းနဲ့ ဘာဖြစ်လာပြီလဲ စဉ်းစားကြဖို့ပါ။ ဖောင့်ဖေ့စ် မရေးနိုင်ရင် မရေးတတ်ရင် အသင့်ရေးပြီးသား ဧရာလို ပြန်သုံးခွင့်ပြုထားတဲ့ မြန်မာဖောင့်တွေ ရှိပါတယ်။ အင်္ဂလိပ်နဲ့ လက်တင်ဂလစ်တွေအတွက် အခမဲ့ သုံးခွင့် ပြုပြင်ခွင့် ပေးထားတဲ့ ဖောင့်တွေ ရှိပါတယ်။ ရှာသုံး၊ မေးသုံး၊ တောင်းသုံးကြပါ။ ငါ လုပ်တဲ့ဖောင့်လို့ ဂုဏ်ယူချင်ရင် ကော်ပီရိုက်ကို လေးစားကြပါ။ ဗြောင် ခိုးမစားကြပါနဲ့။

ယူနီကုဒ်သမားအများစုက ယူနီကုဒ်တိုးတက်ရေး နှောင့်နှေးမှာစိုးလို့ထင်ပါတယ်၊ ဘာမှ မပြောကြပေမဲ့ ကျွန်တော်ကတော့ မနေနိုင်လို့ ပြောလိုက်ပါပြီ။ မိုက်ခရိုဆော့ ဂူဂယ်နဲ့ အက်ပဲက မြန်မာနဲ့ အင်္ဂလိပ်ဖောင့်တွေကို ပြင်သုံး၊ ယူသုံးထားတဲ့ မြန်မာယူနီကုဒ်တွေ တွေ့မိလို့ပါ။ Arthouse က W01 ဖောင့်ကို ခပ်တည်တည်နဲ့ အမြီးတွေ ဆွဲရှည်ပြီး သုံးထားတဲ့ ဖောင့်ကိုလည်းတွေ့ပါတယ်။ ဖောင့်ဒီဇိုင်နာ နာမည်တောင် ခံလိုက်ပါသေးတယ်။ တချို့က ခရက်ဒစ်ပေးသလို တချို့ကလည်း ဗြောင်ပဲ ကူးပါတယ်။ ကော်ပီရိုက်ရှိရင် ခရက်ဒစ်ပေးလည်း မသုံးသင့်ဘူးဆိုတာ ဝေဖန်သုံးသပ်ဆင်ခြင်ပြီး ကိုယ့်လိပ်ပြာကိုယ်သိ၊ ကိုယ့်သိက္ခာကိုယ်ရှိကြဖို့ပါ။

#fb link here.

Tags: , , ,

· · · ◊ ◊ ◊ · · ·

Dirty Solution

05 Apr 2015

Someone asked how to convert transformer to dinosaur, I mean Unicode to Avalaser (which is supposed to be grandfather of computerized Myanmar fonts). I installed Avalaser font, opened it in Character Map and test-typed in Words. It is pretty much similar to Win fonts in being ASCII fonts and visual encoding orders.

So I thought it would be a few minute job writing a Win<->Ava converter considering I already have a ready-made script for IPA-Burmese phonetics converter and conversions are character to character mapping. So I asked if someone is up for helping me compile the mapping list in Excel. Ko Ye Zarni Aung generously started writing down the list which was unquestionably the tiresome job.

The next day, I generated the list just to disappoint that the results are gibberish. The direct mapping caused the already-converted texts to convert again . I know what I need to do but don’t know how. Too bad I don’t know how to code.

I gave it a thought for while and finally fell back to Zg<->Ava solution which is a really easy task. I can now understand why some lazy coders are too afraid to adopt using Unicode.

Zg <-> Ava Converter

Tags: , , , ,

· · · ◊ ◊ ◊ · · ·

Some might wonder why there are little written forms of brief history of Zawgyi and Unicode. It seems that many people just don’t want to dig the past. If that’s the case, I might as well be the villain again digging up the old pasts. If there is any mistake written here, it’s the responsibility of me alone.

Brief

ယူနီကုဒ်လက်ရှိ စွဲစွဲမြဲမြဲသုံးနေသူတွေထဲမှာ ဇော်ဂျီဖောင့် မသုံးဖူးတာ၊ မသုံးတတ်တာ တစ်ယောက်မှမရှိလို့ ပြောရင် ရမယ်။ ယူနီကုဒ်ထက် ဘာပိုကောင်းလဲမေးရင် (၁) ရှေးဦးပိုင်း ယူနီကုဒ်ဖောင့် တချို့ထက် စာလုံးပုံစံ ကြည့်ရတာ ပိုအဆင်ပြေတယ်။ (၂) မြန်မာတွေ ကွန်ပျူတာစသင်ရင် ရင်းနှီးပြီးသားဖြစ်တဲ့ ဝင်းဖောင့်တွေနဲ့ အလားတူ အမြင်အရ စာလုံးစီတာဖြစ်တဲ့အတွက် အရင်လာ အရင်ရိုက် နောက်မှလာ နောက်မှရိုက်စနစ်ဖြစ်တဲ့အတွက် ပိုနားလည်လွယ်တယ်။ (၃) လူသုံးများတယ်။ ဘာပိုမကောင်းလဲမေးရင် (၁) စံ စတန်းဒတ်ကို မလိုက်နာဘဲ တိုင်းရင်းသား အက္ခရာနေရာတွေယူသုံးတဲ့အတွက် တခြားတိုင်းရင်းသားဘာသာတွေ သုံးမရဘူး။ (၂) Apple, Windows, Linux စတဲ့ အဓိက ပလက်ဖောင်းတွေမှာ အသင့်ပါလာပြီးသားဖြစ်တဲ့ စံစနစ်နဲ့ မကိုက်ညီဘူး။ ရှင်းအောင်ပြောရရင် ဇော်ဂျီဖောင့်သွင်းမထားရင်၊ စာသားကို ဇော်ဂျီတိုက်ဖေ့စ်အဖြစ် သတ်မှတ်မထားရင် ဖတ်မရဘူး။ (၃) စာအုပ်စာရင်း၊ လူစာရင်း၊ ဆောင်းပါးစာရင်း အစရှိတာတွေအတွက် မြန်မာလို အက္ခရာ စီမရဘူး။ (၄) ရရစ်ရှစ်မျိုး၊ ရကောက်သုံးမျိုး၊ ဘကုန်းသုံးမျိုး အစရှိသဖြင့် ကုဒ်ပွိုင့်အများကြီး ထပ်နေတဲ့အတွက် ရှာတဲ့နေရာ၊ သတ်ပုံစစ်တဲ့နေရာတွေမှာ အဆင်မပြေဘူး။ (၅) ယူနီကုဒ်ကို အခြေခံသတ်မှတ်ထားတဲ့ ICU စနစ်သုံး OS, ဘရောက်ဇာ တွေမှာ Select မှတ်တာ၊ တွက်ချက်တာတွေ အဆင်မပြေဘူး။ (၆) ဇော်ဂျီမှာ ဇော်ဂျီစာလုံးပုံစံတစ်မျိုးသာ ရှိတယ်။

လက်ရှိကြုံနေတာတော့ နိုင်ငံတကာ စံအတိုင်းသွားနေတဲ့ လူသုံးများတဲ့ဆော့ဝဲတွေ ဝန်ဆောင်မှုတွေကို မြန်မာမှုပြုရာမှာ တွေ့ရတဲ့ ပြဿနာပါ။ ကိုယ်က ယူနီကုဒ်နဲ့ ပြန်ထားတယ်။ နောက်တစ်ယောက်က ဇော်ဂျီနဲ့ လာပြင်သွားတယ်။ ဒါမှမဟုတ် Google Map လိုနေရာမျိုးမှာ ဇော်ဂျီနဲ့လာရေးသွားတယ်။ Approve လုပ်တဲ့ Member တွေက မြန်မာစာမတတ်တော့ ဟုတ်ပြီဆိုပြီး Publish လုပ်ပေးလိုက်တယ်။ ဆာဗာက ပုံဖော်တော့ ပဲပင်ပေါက်လိုစာတွေ ထွက်လာတယ်။ ကိုယ်ကနောက်ပိုင်း တွေ့မိလို့ သွားပြင်တော့ မေးခွန်းထုတ်ခံရတယ်။ သက်သေပြရတယ်။ စောင့်ရတယ်။ တစ်ကြိမ်လည်းမဟုတ်၊ နှစ်ကြိမ်လည်းမဟုတ်၊ ကြာတော့ တစ်ယောက်ချင်း ရှင်းပြနေရတာ စိတ်ကုန်လာတယ်။ ယူနီကုဒ် နဲ့ ဇော်ဂျီ ဘာကွာလဲ မသိတဲ့လူတွေက မြန်မာစာ အွန်လိုင်းသုံးတဲ့သူတွေရဲ့ ၉၀ ရာနှုန်းကျော်ရှိမယ်ထင်တယ်။ တချို့လည်း ကြားဖူးနားဝရှိမယ်။ တချို့လည်း ယူနီကုဒ်စသုံးကြည့်လို့ အပေါင်းအသင်းတွေနဲ့ ဆက်ဆံရတာ အဆင်မပြေတာ၊ ကိုယ့်စာကို လူမဖတ်တော့တာ ရှိလို့ စိတ်ပျက်ပြီး ဇော်ဂျီပြန်သုံးတာရှိမယ်။ ဘာပဲဖြစ်ဖြစ် ဒါဟာ အနှေးနဲ့အမြန် အွန်လိုင်းသုံးတဲ့ မြန်မာတိုင်းလိုလို နဖူးတွေ့ ဒူးတွေ့ ကြုံတွေ့ရတော့မယ့် အရာဖြစ်လို့ ကြိုက်သည်ဖြစ်စေ၊ မုန်းသည်ဖြစ်စေ၊ လွယ်သည်ဖြစ်စေ၊ ခက်သည်ဖြစ်စေ၊ သုံးတတ်အောင် စမ်းကြည့်ထားဖို့ နီးစပ်ရာ အပေါင်းအသင်းတွေကို တိုက်တွန်းပါတယ်။

အခုဆို မြန်မာ၃ နဲ့ ပိတောက် လောက်သာ ယူနီကုဒ်ဖောင့် ရှိတော့တာမဟုတ်ဘဲ Microsoft နဲ့ Apple အပါအဝင် မိမိကိုယ်ပိုင် နည်းပညာအမျိုးမျိုးနဲ့ ချဉ်းကပ်ပုံအမျိုးမျိုးနဲ့ လုပ်ထားတဲ့ ယူနီကုဒ်စနစ်ကို လိုက်နာထားတဲ့ ဖောင့်တွေ ရှိနေပြီဖြစ်လို့ စာလုံးမလှခြင်းဟာ ပြဿနာအကြီးကြီး မဟုတ်တော့ပါဘူး။ စံတစ်ရပ်တည်းကို လိုက်နာထားတဲ့အတွက် ဖောင့်တစ်မျိုးနဲ့ ရေးထားတာကို နောက်ဖောင့်တစ်မျိုးနဲ့ ကြည့်ရင် အမှန်မမြင်ရတဲ့ ပြဿနာလည်း မရှိတော့ပါဘူး။ မြန်မာစာ သင်ပုန်းကြီးရေးသလို ရိုက်လို့ရတဲ့ လက်ကွက်စနစ်(အိုင်တီဇင်က ဆရာ ဦးတင်ညွန့်ပြောတာတော့ စာမရိုက်တတ်တဲ့ ဦးဇင်းတစ်ပါး နာရီဝက်အတွင်း မြန်မာလိုရိုက်တတ်သွားတယ် ပြောတယ်။)၊ ဝင်းဖောင့်လို ရိုက်လို့ရတဲ့စနစ်၊ ဇော်ဂျီလို ရိုက်လို့ရတဲ့ စနစ်၊ Logical အတိုင်း ရိုက်လို့ရတဲ့စနစ်စသည်ဖြင့် အမျိုးမျိုးသော လက်ကွက်တွေ ရှိနေပြီဖြစ်လို့ လက်ကွက်ပြောင်းသွားလို့ ဆိုတဲ့ အခက်အခဲလည်း မရှိတော့ပါဘူး။ ဒါပေမဲ့ အနည်းနဲ့ အများဆိုသလို အဆင်မပြေမှုတွေကတော့ ကျန်နေတုန်းပါပဲ။

There is no Unicode user who can’t use Zawgyi-One. Pros of Zawgyi:
(1) Beautiful and neat fontface.
(2) Visual sequence is easier to understand.
(3) Popular.

Cons:
(1) Non-standard. We can’t use Ethnic languages with Zawgyi.
(2) Not compatible with Burmese standard fonts from Microsoft, Apple and Linux community.
(3) Cannot sort correctly.
(4) Lots of repeated codepoints to save up for non-reshaping such as 8 codepoints for medial Ra.
(5) Not compatible with ICU. Selection and calculation are difficult.
(6) Only one typeface.

We are having problems in localization since many Zawgyi-One users are unaware of usage of Unicode. That makes conflicts in localization and translations in such as Google Maps and Wikipedia. It’s important that every Myanmar online should have knowledge of Unicode whether they practice Unicode or not.

Now, there are many Unicode fonts for Burmese compatible to each other including fonts from OSX Lion and Windows 8. There are many Unicode layouts for different OSes including Zawgyi layout.

History

၁၉၉၅ မှာ Michael Everson က ယူနီကုဒ်မှာ မြန်မာစာ (ဗမာစာ) ပါအောင် စအဆိုပြုတယ်။ ၉၇ နဲ့ ၉၈ မှာ Proposal နဲ့ ပြင်ဆင်ချက်တွေကို သူပဲ တင်သွင်းတယ်။ ၉၉ ကစပြီး မြန်မာ ကိုယ်စားလှယ်အဖွဲ့ပါတယ်။ ၂၀၀၃ မှာ NLP ကို စ ဖွဲ့တယ်။ ၂၀၀၅ မှာ မြန်မာ၁ ဖောင့်ကို စဖြန့်တယ်။ အားနည်းချက်တွေ အများကြီးတွေ့ရတယ်။ လက်တွေ့လုပ်ငန်းခွင် သုံးနိုင်တဲ့ အခြေအနေ မရှိဘူး။ အဲဒီချိန်မှာ Solveware က မြစေတီဖောင့် ထွက်လာတယ်။ Web ပေါ်မှာ ပထမဦးဆုံးသော အဆင်ပြေပြေသုံးလို့ရတဲ့ ဖောင့် ဖြစ်လာတယ်။ အခြေခံအက္ခရာတွေမှာ ယူနီကုဒ်စနစ်ကို လိုက်နာထားပေမဲ့ စာလုံးပုံပြောင်းတဲ့နေရာတွေအတွက် Private use အတွက် ချန်ထားတဲ့ ကုဒ်ပွိုင့်တွေထဲက ယူသုံးတယ်။ ဆိုလိုတာက ယူနီကုဒ်စနစ်နဲ့ အပြည့်အဝ မကိုက်ညီဘူး။ သို့သော် မြန်မာစာကို Web ပေါ်မှာ ဒီလိုသုံးလို့ရပါလားဆိုတာ လူတွေ သိသွားကြတယ်။ တနည်းပြောရရင် ကိုလမ်ဘတ် ကြက်ဥထောင်သလိုပဲ။ ဒီလို အဆင်ပြေပြေသုံးလို့ရပေမဲ့ သုံးစွဲခ ဈေးကြီးတာကြောင့် အခမဲ့ သုံးလို့ရမယ့် နည်းတွေ ရှာကြံလာကြတယ်။ အလွယ်ဆုံးကတော့ မြစေတီဖောင့်ကို ဖောင့် Editor တစ်ခုမှာ စာလုံးပုံပြောင်းထည့်လိုက်တာပါပဲ။ ၂၀၀၅ ဝန်းကျင်မှာ Alpha, Geocomp, MyMyanmar နဲ့ ပြည်ပက Bit ဖောင့်တွေ ထွက်လာတယ်။ ရည်ရွယ်ချက်တွေကတော့ ကောင်းကြပါတယ်။ လက်ရှိအချိန်မှာ မြန်မာစာကို သုံးလို့ရနိုင်တဲ့ပုံစံမျိုးနဲ့ တသမတ်တည်း သုံးနိုင်အောင် ဖြစ်ပါလိမ့်မယ်။ ဒါပေမဲ့ တချို့ဖောင့်တွေမှာ မြစေတီရဲ့ ကုဒ်ပွိုင့်အတိုင်း လိုက်ရေးထားရုံမက ဖောင့်ကိုပါ နင်းပြီး မြန်မာစာပြောင်းထည့်ထားတာ အထဲက Font Info တွေပါ နဂိုအတိုင်း ပြန်ပါလာတယ်။ Solveware က နို့တစ်စ်ထုတ်တယ်။ ဇော်ဂျီ ကုဒ်ပွိုင့်တွေ ပြောင်းရေးတယ်၊ Alpha Font ကနေ Alpha Zawgyi, Zawgyi1, Zawgyi-One စသည်ဖြင့် (နာမည်) တဖြည်းဖြည်း ပြောင်းသွားတယ်။ MyMyanmar က စံအတိုင်းလိုက်နာတဲ့ ယူနီကုဒ်ဖောင့် လုပ်ပြသွားတယ်။ ၂၀၀၆ ဇူလိုင် မှာ ယူနီကုဒ် ၅.၁ စံနဲ့ မြန်မာ၂ ထွက်တယ်။ မြန်မာစာနဲ့ မွန်စာအတွက် လိုအပ်ချက်တွေ အများကြီးရှိနေတဲ့အတွက် Proposal တွေ ထပ်တင်တယ်။ မြန်မာသုံး Model ကို လက်ခံပြီး စံအဖြစ် သတ်မှတ်တဲ့အတွက် ၂၀၀၇ မှာ ယူနီကုဒ် ၅.၂ အတည်ဖြစ်တယ်။ ၂၀၀၇ ဒီဇင်ဘာ ၁၄ မှာ မြန်မာ၃ ကို အများပြည်သူသုံးနိုင်အောင် Publish လုပ်လိုက်တယ်။

ဇော်ဂျီ ၂၀၀၆ ဗားရှင်းကို ၂၀၀၆ ဇူလိုင်မှာ မြန်မာ၂ နဲ့ အပြိုင်ထုတ်တယ်။ ယူနီကုဒ် ၄.၀ သော်လည်းကောင်း၊ ၅.၁ သော်လည်းကောင်း မကိုက်ညီပါ။ စံကို အတည်ပြုချက်မရခင် လက်ဦးမှုရအောင် ထုတ်လိုက်ပုံရတယ်။ Private use area ကို မသုံးဘဲ တိုင်းရင်းသားဘာသာတွေအတွက် ချန်ထားတဲ့ နေရာတွေထဲက ယူသုံးတယ်။ Planet.com.mm မှာ စသုံးတယ်။ အလကားပေးတယ်။ ဖိုရမ်ထဲမှာ လက်ကွက်သွင်းစရာမလိုဘဲ ရိုက်လို့ရအောင်လုပ်ပေးထားတယ်။ ချက်လို့ရတယ်။ မီဒီယာသမားတွေ လုပ်တာဖြစ်တဲ့အတွက် ကြော်ငြာအားကောင်းတယ်။ သုံးရတာအဆင်ပြေတယ်။ တိုတိုပြောရရင် ပေါက်သွားတယ်။ ဖိုရမ်မာတွေ ဘလော့ရေးတော့ ဇော်ဂျီဝမ်းပဲ သုံးကြတယ်။ အချင်းချင်းကူညီကြတယ်။ ဖောင့်ရဲ့ အားနည်းချက်တွေကို ဝိုင်းဝန်းကူညီ ပြင်ဆင်ပေးကြတယ်။ ၂၀၁၀ မြန်မာအွန်လိုင်းအသိုင်းအဝိုင်းမှာ ဖေ့စ်ဘုတ် စ ခေတ်စားတယ်။ ဇော်ဂျီပဲအဓိကသုံးကြတယ်။

Michael Everson proposed codepoints for Burmese in 1995. He proposed again in 1997 and amended in 1998. Myanmar representatives started involving as observers in Unicode consortium in 1999. NLP was founded in 2003. Myanmar1 was published in 2005. It had weaknesses in practical usages. Solveware published Myazedi font in the same year. It was a non-standard font using Private Use codepoints for alternative shapings, yet became the first usable font for web. It was like Columbus’s egg. Many fonts including Zawgyi cloned Myazedi. Solveware published legal notice in local newspaper which force the other fonts to change their codepoints. According to Unicode standard 5.1, Myanmar2 was published in July 2006. Zawgyi-One font was published at the same time. But it didn’t followed neither Unicode 4.0 or Unicode 5.1 standards (probably to compete in publishing date with Myanmar2)and used reserved codepoints for minority languages. There were major updates in Unicode 5.2 and updated font Myanmar3 was published in Dec 14 2007.

Zawgyi-One font was published as freeware and used on popular www.planet.com.mm website in 2006. It became a major hit since the advertising was enormous and most online users are waiting for a usable Burmese font. Bloggers started using Zawgyi-One font and they helped each other. Since then, majority of Burmese online users used Zawgyi-One as primary font and unaware of Unicode standard.

Zawgyi’s Copyright Holder And Recognition

ဇော်ဂျီစာလုံးပုံစံက ASCII ဖောင့်တွေဖြစ်တဲ့ Arthouse ဖောင့်တွေထဲက တစ်ခုဖြစ်တယ်။ ဇော်ဂျီအဖွဲ့ထဲက တစ်ယောက် (လို့ထင်ရသူတစ်ယောက်) က Arthouse ဆီက ဖောင့်နဲ့ဆိုင်တဲ့ အခွင့်အရေး အားလုံး ဝယ်လိုက်တယ် ဆိုပါတယ်။ ခက်တာက ဇော်ဂျီအဖွဲ့ထဲက ပညာရှင်ငါးဦးဆိုတာ ဘယ်သူမှန်း မသိရပါ (သို့မဟုတ် ဝန်မခံပါ)။ MyMyanmar က ထုတ်တဲ့ MyMyanmar ဆော့ဖ်ဝဲမှာ Zawgyi-One/Two/Three စသည်ဖြင့်ပါလာတယ်။ ကွန်ပျူတာဂျာနယ်မှာ Zawgyi-One ကို မိုင်မြန်မာက ဝယ်လိုက်တယ်လို့ ပါလာတယ်။ ဒါပေမဲ့ Arthouse က ကိုဇော်ဝင်းမြတ်နဲ့ အင်တာဗျူးတစ်ခုမှာ Font ပုံစံနဲ့ ပတ်သက်တဲ့ အခွင့်အရေးအားလုံးကို သူသာပိုင်တယ်လို့ ပြောပါတယ်။ ဇော်ဂျီဝမ်းရဲ့ မြန်မာမဟုတ်တဲ့ အက္ခရာတွေမှာတော့ Microsoft ရဲ့ Tahoma ဖောင့်ကို တိုက်ရိုက်ယူသုံးထားပါတယ်။ ယာယီလို့ ပြောပေမဲ့ ခုထိပြင်သေးတာ မတွေ့ပါ။ ၂၀၀၈ Arial ဗားရှင်းမှာ Microsoft ပိုင် Arial ဖောင့်ကို ယူသုံးတယ်။ ၂၀၀၇ မှာ ဇော်ဂျီအဖွဲ့ MCPA Excellence Award ဆုရတယ်။

Zawgyi-One typeface was taken from Arthouse(Mandalay) font package. A member of Zawgyi team unofficially said that they bought all rights of Zawgyi font from font’s designer. One big confusion is that the “five” main founders of Zawgyi font are unknown of (at least did not declared themselves). MyMyanmar software package included Zawgyi-One, Zawgyi-Two and Zawgyi-Three fonts and said it owned Zawgyi font in Computer Journal(Myanmar). Again, Zaw Win Myat of Arthouse said in an interview that he still owned all rights of Zawgyi typeface and he just simply allowed the usage of the font. All other characters of Zawgyi font apart from Burmese codepoints are directly copied from Tahoma font of Microsoft. Zawgyi-Arial version uses Arial font owned by Microsoft too. Zawgyi team won 2007 MCPA Excellence award.

Future Upgrade

ဇော်ဂျီကို ယူနီကုဒ်ဖြစ်အောင် ဇော်ဂျီအဖွဲ့က ပြောင်းပေးမယ့် အချိန်ကို စောင့်နေသူတွေ ရှိတာတွေ့တယ်။ စောင့်မနေပါနဲ့။ ဇော်ဂျီ ကို ဘယ်နည်းနဲ့မှ နဂိုအတိုင်းလည်းဖြစ်အောင် (ဖတ်လို့ရအောင်)၊ ယူနီကုဒ်စနစ်နဲ့လည်း ကိုက်ညီအောင် ပြောင်းလို့မရပါ။ ယူနီကုဒ်ဖောင့်ကို ဇော်ဂျီစာလုံးပုံနဲ့ လိုချင်တယ်ဆိုတော့ ဖြေရှင်းနည်းက လွယ်ပါတယ်။

There are some who waiting for the “right” time when the Zawgyi team would upgrade Zawgyi font to Unicode standard and still compatible with old Zawgyi. But it’s just logically impossible to co-exist since Zawgyi characters and Unicode characters cross-exit. If it’s simply the changing of one of Unicode font’s typeface to Zawgyi typeface, it’s pretty easy.

Ref:

  • http://www.myanmarnlp.org.mm/
  • http://www.unicodeconference.org/
  • http://unicode.org/conference/about-conf.html
  • http://www.zawgyi.net
  • http://www.myanmaritpro.com/
  • http://my.wikipedia.org/wiki/မြန်မာယူနီကုဒ်နေ့ရက်စဉ်သမိုင်း

 

Tags: , , ,

· · · ◊ ◊ ◊ · · ·

ဒီရက်ပိုင်းမှာ ဧရာဖောင့်ကို ယူနီကုဒ်အဖြစ် ရည်ညွှန်းပြောဆိုနေကြတာ တွေ့ရလို့ ဧရာဟာ ယူနီကုဒ် မဖြစ်ကြောင်းနဲ့ ဘာလို့မဖြစ်ရတာလဲဆိုတာ အတိုပဲ ရှင်းပါမယ်။ ယူနီကုဒ်ဖြစ်ဖို့ –

၁။ ယူနီကုဒ် ကုဒ်ပွိုင့်နဲ့ ကိုက်ညီရပါမယ်။

၂။ ယူနီကုဒ် စာလုံးစီပုံ (Encoding) နဲ့ ကိုက်ညီရပါမယ်။

 

အပြည်ပြည်ဆိုင်ရာ ယူနီကုဒ်ဇယားမှာ မြန်မာနိုင်ငံအတွင်းမှာရှိတဲ့ ဗမာစာနဲ့ တခြားတိုင်းရင်းသားစာတွေအတွက်လည်း နေရာ ၁၆၀ လောက် ပေးထားပါတယ်။ အဲဒီအက္ခရာတွေကို အပြည်ပြည်ဆိုင်ရာ စံသတ်မှတ်ရေးအဖွဲ့ဖြစ်တဲ့ ISO က စံသတ်မှတ်ပေးပြီး ယူနီကုဒ် ကွန်ဆိုတီယမ် အဖွဲ့ကြီးက လက်တွေ့အသုံးချလို့ရအောင် Encoding စည်းမျဉ်းတွေကို ချမှတ်ပေးပါတယ်။ ချမှတ်ထားတဲ့ စည်းမျဉ်းအသေးစိတ်ကို ဒီမှာ သွားဖတ်နိုင်ပါတယ်။

 

ယူနီကုဒ်စံနဲ့အညီ ဖန်တီးထားတဲ့ ဖောင့်စာရင်းက –

  • Myanmar3
  • Padauk
  • Parabaik
  • WinUniInnwa
  • Masterpiece Uni Sans
  • MyMyanmar
  • Xenotype
  • Yunghkio
  • Tharlon

တို့ ဖြစ်ပြီးတော့ ယူနီကုဒ်စံနဲ့ ပြည့်ပြည့်ဝဝ ကိုက်ညီတယ်၊ သို့မဟုတ် ကိုက်ညီအောင် အတတ်နိုင်ဆုံး ကြိုးစားထားတဲ့ ဖောင့်တွေလို့ ပြောလို့ ရပါတယ်။ ဒီစာရင်းထဲမှာပါတဲ့ ဖောင့်တစ်ခုနဲ့ ရေးထားတဲ့စာတွေကို ကျန်တဲ့ဖောင့်တစ်ခုနဲ့ တိုက်ရိုက်ဖတ်နိုင်ပါတယ်။ Times New Roman နဲ့ ရိုက်ထားတဲ့စာတွေကို Arial ဖောင့်နဲ့ ဖတ်လို့ ရသလိုပါပဲ။ ဖောင့်စာရင်းအသေးစိတ်ကို ဒီမှာ သွားကြည့်နိုင်ပါတယ်။

 

၁။ ယူနီကုဒ် ဖြစ်ဖို့ ကုဒ်ပွိုင့်နဲ့ ကိုက်ညီရမယ်ဆိုတဲ့အချက်မှာ အခုချိန်မှာ လူတော်တော်များများသုံးနေကြတဲ့ ဇော်ဂျီက မကိုက်ညီတော့ပါ။ ဧရာဖောင့်ကတော့ ကိုက်ညီပါတယ်။

၂။ ယူနီကုဒ်ဖြစ်ဖို့ ယူနီကုဒ် Encoding အတိုင်းစီရမယ်ဆိုတဲ့နေရာမှာ ဇော်ဂျီရော ဧရာပါ မကိုက်ညီတော့ပါ။

 

Encoding ဆိုတာကို အတိုချုံးပြီး ပြောရမယ်ဆိုရင် ဗြဟ္မီအနွယ်ဝင် စာတွေကို ယူနီကုဒ် Encoding စီတဲ့အခါ အက္ခရာ ရှေ့နောက်ပြောင်းလဲပုံတွေဟာ ရှုပ်ထွေးလွန်းတာကြောင့် ပုံသေ စည်းမျဉ်းတစ်ခု သတ်မှတ်ပြီး စီရပါတယ်။ ဗျည်း – ဗျည်းတွဲ – သရ ဆိုတဲ့ စီပုံပါပဲ။ ဗမာစာ(မြန်မာစာ) ဟာလည်း ဗြဟ္မီအနွယ်ဝင်ဖြစ်တဲ့အတွက် ယူနီကုဒ်စည်းမျဉ်းကို လိုက်နာပြီး စီရပါတယ်။ မြန်မာစာမှာဆိုရင် “မြဲ” ဆိုတဲ့ စာလုံးကို ယူနီကုဒ်မှာ မ(ဗျည်း) ရရစ်(ဗျည်းတွဲ) နောက်ပစ်(သရ) ဆိုပြီး စီပါတယ်။ “မြေ” ဆိုတဲ့ စာလုံးမှာ မ(ဗျည်း) ရရစ်(ဗျည်းတွဲ) သဝေထိုး(သရ) ဆိုပြီး စီပါတယ်။ အသးစိတ်ကို ဒီမှာ ဖတ်နိုင်ပါတယ်။

ယူနီကုဒ်အစစ်ဟာ စာလုံးပုံ ပြောင်းလဲမှုတွေကို ပြည့်ပြည့်ဝဝမလုပ်နိုင်တဲ့အတွက်ကြောင့် (ဧရာအဖွဲ့ကအဲလိုထင်တဲ့အတွက်ကြောင့်) ဧရာဟာ ယူနီကုဒ်စာလုံးစီပုံကို မလိုက်နာတော့ဘဲ ကိုယ်ပိုင် Encoding ကို ထွင်ရေးပါတယ်။

၁။ အမြင်အတိုင်း စာလုံးစီတာ ဖြစ်တဲ့အတွက်ကြောင့် ဝဏ္ဏတစ်ခုမှာ သဝေထိုးဟာ ဗျည်းထက်အရင် ရှေ့ဆုံးကိုလာပါတယ်။

၂။ ဗျည်းတွဲ ပင့်ရစ်ဆွဲထိုးလေးခုအနက် ရရစ်ကလည်း ဗျည်းရှေ့ကို ရောက်လာပါတယ်။

၃။ ကင်းစီး (ငသတ်အသေး) က ဒုတိယ ဗျည်းနောက်ကို ရောက်သွားပါတယ်။ ဥပမာ သင်္ကေတ ဆိုတဲ့ စာလုံးမှာ ကင်းစီးဟာ သ နဲ့သာ ဆိုင်ပါတယ်။ ဒါပေမဲ့ ဧရာမှာ ကကြီးနောက်မှာမှ ကင်းစီးလာပါတယ်။

သဝေထိုး၊ ရရစ်နဲ့၊ ကင်းစီး သုံးမျိုးသာ ယူနီကုဒ် Encoding နဲ့ ကွဲတဲ့အတွက်ကြောင့် ဧရာဟာ ယူနီကုဒ်နဲ့ သိပ်မကွာပါဘူးလို့ ပြောချင်တဲ့သူ ရှိကောင်းရှိပါမယ်။ ဒါပေမဲ့ ဒီနေရာမှာ Stats နဲ့ ပြောရမယ်ဆိုရင် အဲဒီသုံးမျိုး လွဲနေတဲ့အတွက်ကြောင့် ပျမ်းမျှ ၁၂ ရာနှုန်းသော ဝဏ္ဏတွေ လွဲပါတယ်။ ၇၀ ရာနှုန်းသော ဝေါဟာရတွေ လွဲပါတယ်။ ဒါ့အပြင် ဧရာကနေ ယူနီကုဒ်ပြန်ပြောင်းဖို့ လိုအပ်တဲ့အကူအညီတွေ ကိရိယာတွေ လုံလောက်အောင် ထောက်ပံ့မပေးထားပါ။ ယူနီကုဒ်လို့လည်း တောက်လျှောက် Claim လုပ်ပါတယ်။ ယူနီကုဒ်အစစ်တောင် သူ့လောက်မစစ်ဘူးလို့ ပြောချင်သလိုပါပဲ။

ယူနီကုဒ်စည်းမျဉ်းကို မလိုက်နာပါလျက်နဲ့ ကိုယ့်ဖောင့်ကို ယူနီကုဒ်ရယ်လို့ ကြော်ငြာထားခြင်းဟာ အသုံးပြုသူတွေကို ဇဝေဇဝါနဲ့ စိတ်ရှုပ်ထွေးစေပြီး သတင်းအချက်အလက်မှားတွေ ဖြန့်ဝေရာလည်း ရောက်ပါတယ်။ ဒီတော့ ဒီနေရာမှာ ကျွန်တော်မေတ္တာရပ်ခံချင်တာက –

၁။ ယူနီကုဒ်မဟုတ်ရင် ယူနီကုဒ်ဆိုတဲ့ စာလုံးကို ထည့်မသုံးပါနဲ့။ ဥပမာ – ဇော်ဂျီယူနီကုဒ်၊ ဧရာယူနီကုဒ် စသည် မသုံးပါနဲ့။ သုံးပြီးသား ကိုယ့် ဘလော့ထဲမှာ၊ ပို့(စ်) ထဲမှာ၊ ဆိုက်ဘားထဲမှာ၊ လင့်ထဲမှာ တင်ထားတွေရှိရင် ဖြုတ်ပေးကြပါ။

၂။ Mediawiki, WordPress, Google, Drupal စတဲ့ Localization Projects တွေမှာ ယူနီကုဒ်စံသတ်မှတ်ချက်ကိုသာ သုံးပေးပါ။ ဖေ့(စ်)ဘုတ်မှာ ကိုယ်ပိုင်ဘလော့မှာ ကိုယ်သုံးချင်တဲ့ဖောင့်သုံးတာ ပြဿနာမရှိပါ။ နိုင်ငံတကာပရောဂျက်တွေမှာတော့ သုံးလည်း ကျွန်တော်တို့ ယူနီကုဒ်ဖြစ်အောင် ပြန်ပြောင်းမှာ ဖြစ်ပါတယ်။ မယုံမရှိပါနဲ့။

၃။ ယူနီကုဒ်ဆိုတဲ့ ဝေါဟာရကို ဆက်သုံးဖို့ ဆန္ဒရှိတယ်ဆိုရင် ဧရာဖောင့်တွေကို ယူနီကုဒ်အဆင့်မီအောင် ပြင်ဆင်ပေးကြပါ။

ဒါဟာ အပျော့ပြောင်းဆုံးနဲ့ ကျိုးကြောင်းဆီလျော်မှု အရှိဆုံးဖြစ်အောင် ကြိုးစားထားတဲ့ သတိပေးချက်ဖြစ်ပါတယ်။ ဒီသတိပေးချက်ကို ဆက်လျစ်လျူရှုနေမယ်ဆိုရင်တော့ Unicode Consortium နဲ့ ISO ကို အသိပေးပြီး သင့်တော်သလို ကိုင်တွယ်သွားပါမယ်လို့ ပြောချင်ပါတယ်။ ကျေးဇူးတင်ပါတယ်။

Differences between Ayar encoding and standard Unicode encoding

Differences between Ayar encoding and standard Unicode encoding

——————-

This is the brief English section of this article. Ayar font which claimes itself as Unicode font never follows Unicode encoding standard. It wrongly encodes in u1031, u103c and kinzi(u1004 u103A u1039) which results in 12 percents of syllable mistakes and 70 percents of word mistakes. We, Myanmar Unicode activists, demand Ayar group either to remove “Unicode” usage from all of their websites or to fix all of their fonts to follow Unicode standard.Thanks to all and special thanks to Gerard of Wikimedia Foundation’s Language Committee who encouraged me to write this article.

——————-

မှတ်ချက်။  ။ ဒီနေရာမှာ “ဘာလို့ တစ်ယောက်တစ်ပေါက်ကွဲနေကြတာလဲ၊ စုစုစည်းစည်းဆွေးနွေးကြပါလား၊ နှစ်ယောက်ရှိရင်သုံးဖွဲ့ကွဲတယ်” စတဲ့ ဝေဖန်မှုများ မပြုလုပ်ကြဖို့ ကြိုတင် တားမြစ်ပါတယ်။ ပညာရှင်တွေ စုစည်း ကြိုးစား သတ်မှတ်ခဲ့လို့ ၂၀၀၈ က စပြီး  မြန်မာဘာသာအစုအဝေးကြီးအတွက် ယူနီကုဒ် အတည်ဖြစ်ပြီးသွားပါပြီ။ ဒီမူ မပြည့်စုံဘူး၊ လိုနေတယ်၊ ဘယ်နေရာကတော့ဖြင့် မကျေနပ်ဘူး စတာတွေကို ဒီဆောင်းပါးအောက်မှာတင် ကွန်းမန့် ပေးခဲ့နိုင်ပါတယ်။ သို့မဟုတ် Facebook စာမျက်နှာပေါ်မှာ ဝင်ရေးသွားနိုင်ပါတယ်။ သံသယတွေ ရှိရင် ဝိုင်းရှင်းပေးပါမယ်။ ဒီ စံသတ်မှတ်ချက်ဆိုတာကြီးကို စိတ်တိုင်းကျမဖြစ်ရင် မိမိက ကောင်းတယ်ထင်တဲ့ မူကို သက်သေအထောက်အထား အပြည့်အစုံနဲ့တကွ ယူနီကုဒ် ကွန်ဆိုတီယမ်မှာ တင်ပြပါ။ ကျွန်တော်တို့ကတော့ အတည်ဖြစ်တဲ့ စံကို ဝိုင်းဝန်းထောက်ခံသွားမှာပါပဲ။

Tags: , , , , , , , , , ,

· · · ◊ ◊ ◊ · · ·

A Myanmar language loving man asked some of us, the Unicode activists, why encoding sequence of Myanmar Unicode is not the same as Burmese script. So I tried to type a long letter (for a slow typer like me) and explained as much with my tiny wit.

##

အန်ကယ်ခင်ဗျား

အလုပ်မအားလို့ ခုမှ စာပြန်ဖြစ်ပါတယ်။ အဓိက သဝေထိုး ကိစ္စပဲ ပြောမှာပါ။ အာရပ်၊ ဟိန္ဒူ၊ မြန်မာ၊ နဲ့ အခြားသော အရှေ့တောင် အာရှစာများဟာ ဗြာဟ္မီ အနွယ်ဝင် စာများ ဖြစ်ပြီး ဗျည်းနဲ့ ဗျည်းတွဲ သရများ ပေါင်းစပ်တဲ့အခါ ပုံအမျိုးမျိုး ပြောင်းပါတယ်။ အဲဒီအခါ နီးစပ်တဲ့ ဘာသာများ ဖြစ်သည့်တိုင်အောင် တချို့ဘာသာမှာ သရဟာ အရှေ့ရောက်၊ တချို့က အပေါ်ရောက် တချို့က အောက်ရောက်ပါတယ်။ Unicode Encoding အဖြစ် တိကျသေချာတဲ့ စည်းမျဉ်းတွေ ရှိတဲ့ စနစ်တစ်ရပ် ပြုလုပ်တဲ့အခါ ဘယ်အက္ခရာဟာ အရှေ့မှာ နေပြီး ဘယ်ဟာ အနောက်မှာနေမယ်ဆိုတာ အတိအကျ စည်းမျဉ်း ချရပါတယ်။ တော်သလို ကြည့်လုပ်လို့ မရပါ။ အဲဒီစည်းမျဉ်းတွေ ချတဲ့အခါမှာ Linguistic (ဘာသာဗေဒ)ကို လိုက်နာပြီး နေရာချဖို့ ဆုံးဖြတ်ပါတယ်။ Linguistic ဆိုတာ အသံအရ စီခြင်း၊ ယုတ္တိကျအောင် စီခြင်း ဖြစ်ပါတယ်။

သဝေထိုးဟာ ဆိုရင် သရဖြစ်ပါတယ်။ အသံအရ သရဟာ ဗျည်းနောက်မှ လာတာပါ။ ဥပမာ ပြေး ဆိုတဲ့စာလုံးမှာ ပ(ဗျည်း) + ရ(ရရစ်) + သဝေထိုး(သရ) + ဝစ္စပေါက်(အသံလေး) ရယ်လို့စီပါတယ်။ စီပုံစီနည်း တစ်သမတ်တည်း ဖြစ်စေဖို့ ဖြစ်ပါတယ်။ လုံးကြီးတင်ဟာ အပေါ်မှာနေပြီး ချောင်းငင်ဟာ အောက်မှာနေပါတယ်။ ဒါပေမဲ့ စီတော့လည်း သူ့ကို နောက်မှာ သွားထားတာပါပဲ။ တခြား ဝင်းဖောင့်၊ ဇော်ဂျီဖောင့်တို့နဲ့ သွားမနှိုင်းပါနဲ့။ သူတို့မှာ အက္ခရာတွေကို ရှေ့နောက် ပြောင်းပေးနိုင်တဲ့ နည်းပညာမရှိလို့ အမြင်အရ အဆင်ပြေအောင် စီထားရခြင်းသာ ဖြစ်ပါတယ်။

ဗျည်းတွဲဟာ ပင့်ရစ်ဆွဲထိုး လေးလုံးဖြစ်ပြီး သရမလာခင် အရင်လာပါတယ်။ မေဆွိ က ဆွိမှာ ဝဆွဲ အရင်လာပြီးမှ သရ လုံးတင် လာပါတယ်။ ဗျည်းတွဲ အချင်းချင်း ယှဉ်လာရင် ပင့်ရစ်ဆွဲထိုး အစဉ်အတိုင်း ရေးပါတယ်။ ဥပမာ အမြွှာ မှာ အ + မ + ရရစ် + ဝဆွဲ + ဟထိုး + ရေးချ ရယ်လို့ ပုံသေ စီပါတယ်။ စည်းမျဉ်းမရှိ စံမလိုက်နာတဲ့ ဖောင့်တွေမှာတော့ ရေးချင်သလိုရေးပါတယ်။ အဲဒီအခါ Search Engine တွေမှာ တစ်မျိုးနဲ့ရေးရင် နောက်တစ်မျိုးကို ရှာမတွေ့နိုင်တော့ပါ။

အောက်မြစ်ဟာဆိုရင် မြန်မာစာမှာ အသံဖော့တဲ့ သင်္ကေတဖြစ်ပြီး အသတ်နောက်မှ လာပါတယ်။ ဒါပေမဲ့ ယူနီကုဒ်မှာ အောက်မြစ်ပြီးမှ အသတ် လာရပါတယ်။ ဘာဖြစ်လို့လဲ။ ကရင်စာမှာ အောက်မြစ်ဟာ သရအဖြစ်လည်း သုံးပါတယ်။ အဲဒီအခါမှာ အသတ်ရှေ့ကိုရောက်လာပြီး ဗမာစာစီပုံနဲ့ ပြောင်းပြန် ဖြစ်ပါတယ်။ ဒါပေမဲ့ ကရင်ဟာ မြန်မာယူနီကုဒ် အုပ်စုထဲမှာ ပါနေတဲ့အတွက် စီပုံ တစ်သမတ်တည်း ဖြစ်အောင် အောက်မြစ်ကို အရှေ့ပို့လိုက်ရပါတယ်။

စာလုံးစီပုံ Encoding ဟာ ကွန်ပျူတာနဲ့ဆိုင်တဲ့ ကိစ္စဖြစ်ပြီး မြန်မာစာ ရေးထုံးကို မထိခိုက်ပါ။ ရိုက်တဲ့အခါမှာ မြန်မာစာ သင်ပုန်းကြီးအတိုင်း သဝေထိုး ပစောက် ရရစ် ရေးချ ဝစ္စပေါက် = ပြောင်း ရပါတယ်။ ပေါ်ရင်လည်း အမှန်ပေါ်ပါတယ်။ အဲလိုစီတဲ့အတွက်လည်း အက္ခရာစဉ်တာမှာ အများကြီး မှန်ကန်လာပါတယ်။ (ကွန်ပျူတာစနစ်မှာ မြန်မာစာကို အထောက်အပံ့ပေးထားရင် မြန်မာအက္ခရာစဉ်တို ရှေးထုံးအတိုင်း စဉ်လို့ ရပါတယ်။ )အာရပ်စာ ဟိန္ဒူစာ အရှေ့တောင်အာရှစာတွေကို ကွန်ပျူတာစနစ်မှာ ထောက်ပံ့ပေးတဲ့အခါ အရှေ့အနောက်စီတာတွေကို လိုက်ကြည့်စရာမလိုတော့ပါ။ Selection မှတ်တဲ့အခါ ဝဏ္ဏတစ်ဖြတ်လုံးကိုသာ Select လုပ်လို့ ရပါတော့တယ်။ ဆိုလိုတာက ရရစ် အသတ် ဝစ္စပေါက် စတာတွေကို တစ်ခုစီ သတ်သတ် Select လုပ်မရတော့ပါ။ ဝဏ္ဏတစ်ဖြတ်လုံး (Syllable level) ပါလာမှာ ဖြစ်ပါတယ်။ စာရိုက်တာ မှားသွားရင် နောက်က Backspace နဲ့ အက္ခရာ တစ်ခုချင်းစီ ဖျက်လို့ရပါတယ်။ အရှေ့က ဖျက်မယ်ဆိုရင်တော့ ဝဏ္ဏတစ်ခုလုံး ပျက်မှာ ဖြစ်ပါတယ်။ အခုအခါ မြန်မာစာကို Mac နဲ့ Windows မှာ မထောက်ပံ့သေးတဲ့အတွက် အဲဒီ Feature ကို မြင်ရမှာ မဟုတ်ပါ။ Linux မှာတော့ မြန်မာစာကို အပြည့်အဝ အထောက်အပံ့ ပေးပါပြီ။

Selection, Delete နဲ့ Backspace စမ်းနိုင်အောင် ကွန်ပျူတာက အပြည့်အဝ ထောက်ပံ့ပေးထားတဲ့ ဟိန္ဒူစာနဲ့ အာရပ်စာတွေကို ထည့်ပေးလိုက်ပါတယ်။

क्षमा कीजिये أنت غبي

http://unicode.org/notes/tn11/UTN11_3.pdf ယူနီကုဒ် စာလုံးစီပုံ စည်းမျဉ်းတွေကို ယူနီကုဒ် ကွန်ဆိုတီယမ်အဖွဲ့က ဒီမှာ အတိအကျ ရေးထားပါတယ်။ ယူနီကုဒ်ဖောင့် ဖြစ်ဖို့ ကုဒ်ပွိုင့်နေရာသာမက စာလုံးစီပုံကိုလည်း အတိအကျ လိုက်နာရပါတယ်။ ဒီစည်းမျဉ်းတွေက တစ်စက်လေး လွဲချော်တာနဲ့ ယူနီကုဒ် မဟုတ်ဘူးလို့ သတ်မှတ်ပါတယ်။ မတော်တဆ လွဲချော်တာဆိုရင်တော့ ပြင်ဖို့ ထောက်ပြ ပေးနိုင်ပါတယ်။ တမင်ကို လွှဲချော်ထားတာဆိုရင်တော့ ကျွန်တော်လည်း ဘာမှ မတတ်နိုင်ပါ။ ယူနီကုဒ် မဟုတ်ပါလို့ ပြောရုံသာ ရှိပါတော့တယ် ခင်ဗျာ။

လေးစားစွာဖြင့်
##

Tags: , , , ,

· · · ◊ ◊ ◊ · · ·

Myanmar3 (Windows/Linux)

Masterpiece Uni Sans (OSX)

Drag the link to Bookmark Bar and click when viewing websites written in Unicode.

BookmarkDrag

Please note that Myanmar3 is for Windows and Linux while Masterpiece Uni Sans is for OSX(Mac). If Bookmark Toolbar is not there, enable it by View>Toolbars>Bookmarks Toolbar from browser’s menu. I used mm3web which is considerably small in size. After converting it to compressed font, it’s only around 10Kb in size.

This bookmarklet doesn’t work with Chrome browser in all OSs.

Tags: , , ,

· · · ◊ ◊ ◊ · · ·

ဒီရက်ပိုင်း ယူနီကုဒ်ကို လူတော်တော်များများ စိတ်ဝင်စားလာကြပြီး ထောက်ပြဝေဖန် မေးမြန်းတာတွေ ရှိတဲ့အထဲမှာ ညီလင်းဆက်ရေးခဲ့တဲ့ Review on Myanmar Unicode 5.1 & Suggestion ကို ပြတဲ့ပြီး ဒါတွေရှင်းပြီးပြီလားလို့ မေးတဲ့လူတွေ ရှိလာလို့ ဒီစာကို ရေးဖြစ်ပါတယ်။ ယူနီကုဒ်လုပ်ခဲ့တဲ့ ပညာရှင်တွေ၊ Developer တွေက ကိုယ်စီ ရှင်းထားကြပေမဲ့ အင်္ဂလိပ်လိုဖြစ်တာရယ်၊ မြန်မာလိုရေးထားတာဆိုရင်လည်း တစ်စုတစ်စည်းတည်း မရှိတာကြောင့်  တစ်နေရာတည်းမှာ စုစည်းပြီး ဖြေပေးလိုက်ပါတယ်။

.::Download this article in PDF format here::.

 

၁။

ယူနီကုဒ်မှာ ပုံသဏ္ဌာန် ထပ်တူထပ်မျှတူရင် သုံးတဲ့နေရာ မတူပေမဲ့ ကုဒ်ပွိုင့်တစ်ခုတည်း ယူပါတယ်။

 

ဥပမာ –

玍 – (738D)

To be born

Birth, origin

To live, to exist, to survive

To revive, to bring to life

Raw, uncooked, crude

Pure, neat, genuine

unfamiliar, strange

untamed, barbarian

a student

 

ះ – (17C7)

KHMER SIGN REAHMUK

srak ah

visarga

 

Screen shot 2011-01-22 at 2

Khmer O, AU

 

ရှေ့ထိုး (​ေ-ာ်)ကိုသီးခြားခွဲထုတ်မရပါ။ ဒါ့အပြင် Split Vowel (ခမာတွင်သုံးသည်, 17C4, 17C5) ဟုသတ်မှတ်၍ ​ေ-ာ်အတွက် တစ်ကွက်ထည့်ပါက ​ေ-ာ၊ -ံ့ ၊ -ို အတွက်ပါ ထည့်ရပါမယ်။ အဲဒီအတွက်  Split Vowel ကိုမသုံးပဲ အသတ်ကိုသာ ရှေ့ထိုးအတွက် ပုံဖော်ခြင်းမှာ သုံးပါတယ်။ အဲလိုမျှဝေသုံးစွဲခြင်းအတွက် အက္ခရာစဉ်ခြင်းနှင့် ရှာဖွေခြင်းတွင် မည်သို့မျှပြောင်းလဲခြင်းမရှိပါ။ Split Vowel လို့ထည့်ရင် ပြင်မယ်ဆိုရင် အသတ်ကိုဖျက်တာ၊ ရေးချကို ဖျက်တာခက်သွားမယ်။ ကော် ကနေ ကော၊ ကေ ကိုပြင်မယ်ဆိုရင် ရေးချ၊ ရှေ့ထိုးဖျက်ရုံနဲ့မရဘဲ တစ်ခုလုံးဖျက်ရပါမယ်။

 

၂။

 

မွန်ဘာသာ ရှေးစာတွေမှာ “ပဿ” အသုံးရှိသလို “လသ္သ” အသုံးလည်း ရှိပါတယ်။ ယူနီကုဒ် အရှေ့ပိုင်းဗားရှင်းတွေမှာ ဿကြီး မပါပါဘူး။ နောက်မှ လိုလို့ အကြောင်းအကျိုး သက်သေသာဓကတွေ ပြပြီး တောင်းထားတာ ဖြစ်ပါတယ်။ နောက်ထပ် code point မပေးရင် အဲဒီ ၂ခုလုံးကို ဖော်ပြဖို့ မဖြစ်နိုင်ပါ။ disunification လုပ်ရပါတယ်။ Database မှာ De-normalization ကို မြန်ဖို့ အဆင်ပြေဖို့ သုံးရသလိုပါပဲ။

 

၃။

 

ခုခေတ်မှာ ဗမာစာတစ်ခုတည်း ရုံးသုံးဖြစ်နေပေမဲ့ တူညီတဲ့ အက္ခရာတွေ ယူသုံးတဲ့ တခြားသာသာစကား အများအပြားလည်း ရှိပါတယ်။ ယူနီကုဒ်မှာ ဗမာ၊ မွန်၊ ရခိုင်၊ ရှမ်း၊ ပိုးကရင်၊ စကောကရင်၊ ပလောင်၊ ပအို့ဝ် စတဲ့ တိုင်းရင်းသားစာ အများအပြားအတွက်ပါ ထည့်ပေးထားတဲ့အတွက် ဗမာစာတစ်ခုတည်း ကွက်ကြည့်လို့ မဖြစ်တော့ပါဘူး။ ဗမာစာကိုယ်တိုင်ကိုက မွန်အက္ခရာတွေမှာ အခြေခံထားတဲ့အတွက် မွန်ဘာသာရယ်၊ သူနဲ့ယှဉ်ပြီးသုံးတဲ့ ရှေးထုံးဗမာစာရယ်ကိုပါ ထည့်စဉ်းစားရပါတယ်။ မွန်စာရေးထုံးအရ မသတ် (မ်) ကို အတိုရေးချင်တဲ့အခါ ဗျည်းပေါ် အစက်တင် (Superscripted) ရေးပါတယ်။ (အခုထိ ခမာမှာ အဲဒီအတိုင်းသုံးပါတယ်)။ အမှန်တော့ ဗျည်းပေါ်တင်ရေးတဲ့ အဲဒီအစက် ကိုယ်တိုင်ကိုက ဗျည်း(အံ) ဖြစ်ပါတယ်။ အဲဒါကြောင့် အ နဲ့ပေါင်းပြီး အ သေးသေးတင် ဖြစ်တဲ့အခါ သရလို့ မယူဆပါဘူး။ နောက်ပိုင်း မြန်မာသင်ပုန်းကြီးက ဗျည်းမှာ အံ မထည့်တော့ဘဲ ဗျည်းလွတ်နေတဲ့ သရတွေကို စီတဲ့အထဲ သွားထည့်လိုက်တဲ့အခါ သရအဖြစ် သတ်မှတ်လိုက်ပါတော့တယ်။ အဲဒါကြောင့် သေးသေးတင်ကို သရအဖြစ်ရော ဗျည်းအဖြစ်ပါ သတ်မှတ်တဲ့အတွက် Various Sign ထဲထည့်ပါတယ်။ ခမာနဲ့ ထိုင်းဘာသာတွေမှာပါ Various Sign ထဲ ဝင်ပါတယ်။

 

၄။

 

ရှေးက မြန်မာစာရေးတဲ့အခါမှာ ကျောက်စာပေစာတွေမှာ ရေးရတဲ့အတွက် နေရာဆံ့အောင် အတိုရေးရတဲ့ နည်းတွေ ရှိပါတယ်။ အု က ဥ ဖြစ်တာတွေက အဲဒီထုံးပါပဲ။ ၎င်း ကိုယ်၌ကိုက လည်းကောင်းကို ချုံ့တာပါ။ ၎င်း ကို ထပ်ချုံ့ချင်တဲ့အခါမှာတော့ ၎ သင်္ကေတပေါ် ကင်းစီးတင်ပြီး ၎င်္ ရယ်လို့ ရေးပါတယ်။ အဲဒါကြောင့် ၎ သင်္ကေတမှာ ငသတ်ဝစ္စပေါက် ဖြုတ်ထားတာ ဖြစ်ပါတယ်။ ယူနီကုဒ် 1.0 မူကြမ်းမှာ ၎ သင်္ကေတနဲ့ ဿကြီး 5.1 မူအတိုင်း ပါပါတယ်။

 

၅။

 

အပေါ်က သဝေထိုးကို ရှေးက ဗမာစာ၊ မွန်စာတွေမှာ သုံးပါတယ်။ ခုခေတ်လည်း မွန်စာတွေမှာ သုံးနေတုန်းပါပဲ။ ဥပမာ – “ယဵု”။ အသုံးလိုတိုင်းယူနီကုဒ်မှာ လိုက်ထည့်နေရမလားဆိုတော့ ဟုတ်ပါတယ် လိုက်ထည့်ရမှာပါ။ သုံးတဲ့အသုံး၊ ဘယ်နေရာမှာသုံးတယ်၊ ဘယ်ခုနှစ်က ဘယ်တိုင်းရင်းသားရဲ့ ဘယ်စာမှာသုံးတယ်ဆိုတာ ပြနိုင်ရင် ယူနီကုဒ်ကွန်ဆိုတီယမ်မှာ ထပ်တိုးတောင်းလို့ ရပါတယ်။ ကုဒ်ပွိုင့်တစ်ခုချင်းစီဟာ ရဖို့ အင်မတန်ခက်ခဲတဲ့အတွက် အသစ်ရမယ်ဆိုရင် ဒါဟာ ဝမ်းသာအားရ ကြိုဆိုရမယ့် အချက် ဖြစ်ပါတယ်။

 

၆။

 

Normalization အတွက်လားဆိုရင် ဟုတ်ပါတယ်လို့ ဖြေရပါမယ်။ Alternate rule for normalization ဆိုတာ ရှိရင် ပိုအကျိုးရှိပါတယ်။ ရဖို့လည်း ခက်ပါတယ်။ ဥလုံးကြီးတင်ဆန်ခတ်နဲ့ မှားနိုင်စရာ တခြားစာလုံးမရှိတာရယ်၊ ရှောင်ဖို့ခက်တဲ့ သာဓကအများအပြားရယ်ကြောင့် ထည့်ပေးလိုက်တာပါ။ လက်ကွက်မှတ်မိရင် 1025+102E အစား 1026 အက္ခရာ ဦ ကိုသာသုံးဖို့ တိုက်တွန်းပါတယ်။

 

၇။

 

ဪ သရအတွက် မွန်စာမှာ ရှေ့ပစ်သုံးပြီး ပြပါတယ် – “အဴ”။ ဗမာစာမှာ ရှေ့ပစ်မသုံးတော့ဘဲ ဝသတ်နဲ့ ပြပါတယ် – “ဝ်”။ သဝေထိုးနဲ့ ရေးချသုံးတဲ့ အော်သံမှာ ရှေ့ပစ်နဲ့ဆင်တဲ့ ရှေ့ထိုးကို သုံးပြီး ပုံစံအသစ်ရေးပါတယ်။ ကုန်းဘောင်ခေတ် တောင်တွင်းဆရာတော် ခင်ကြီးဖျော်ရဲ့ သဒ္ဒဗျူဟာကျမ်းမှာတော့ အော်သရအတွက် အက္ခရာဩမှာ သဝေထိုးရေးချ ရှေ့ထိုးကပ်ပြီး အက္ခရာဪကို စထွင်ပါတယ်။ ဒါပေမဲ့ အက္ခရာဩ အက္ခရာဪတွေကို သ ရရစ် လို့ မရေးပါ။ မွန်စာမှာ အက္ခရာဩ ရော သ ရရစ် အသုံးပါ ရှိတဲ့အတွက်ကြောင့် ဖြစ်ပါတယ်။ ဥပမာ – “သြန်” (သကို ရရစ်ကပ်ရင် ဆလိမ်+အောသံထွက်ပါတယ်)။

 

 

၈။

 

၁၉၉၈ ယူနီကုဒ်(၃) မြန်မာစာ Proposal မှာ အော နဲ့ အော် သရနှစ်လုံးပါပါတယ်။ ဒါပေမဲ့ သရလို့ဆိုတဲ့ အ ကိုယ်၌က ဗျည်းထဲဝင်နေတဲ့အချက်ကြောင့်ရယ် အို အုံ အံ အသုံးတွေ အတွက်ကြောင့်နဲ့ အ ကိုသုံးပြီး ရှိပြီးသားသရတွေဖြစ်တဲ့ သဝေထိုး၊ ရေးချတို့နဲ့ ရေးလို့ဖြစ်တယ်ဆိုပြီး နောက်ပိုင်းမှာ ပြန်ဖြုတ်ပါတယ်။ ဗျည်းမှာ အ မပါတဲ့ ခမာကိုတော့ အော အော် နှစ်လုံး ပေးပါတယ်။ ယူနီကုဒ်ပွိုင့်လေး တစ်လုံးတစ်ပါဒအတွက် မြန်မာစာပညာရှင်၊ ကွန်ပျူတာပညာရှင်ေတွ ဖြစ်နိုင်ချေရှိတဲ့ နည်းလမ်းပေါင်းစုံသုံးပြီး အကြိမ်ကြိမ် ခေါင်းချင်းဆိုင်ဆွေးနွေး၊ ပြည်ပကိုအခါခါထွက်၊ ဆုံးဖြတ်ချက်ကို လည်တရှည်ရှည်နဲ့စောင့်ဖူးခဲ့ပါပြီ။

 

 

၉။

 

ယူနီကုဒ်အက္ခရာတွေမှာ မြန်မာအက္ခရာတွေအတွက် ဘလော့ခ် အစုအဝေးကြီးတစ်ခု ထားပေးပြီး ပုံစံကျအောင် စီပါတယ်။ ဗားရှင်းတစ်ခုချင်းစီ သွားတိုင်း မလိုတာပယ် လိုတာဖြည့်လုပ်ပါတယ်။ အဲဒီအခါမှာ အရင်ဗားရှင်းတွေနဲ့ အတတ်နိုင်ဆုံးတူအောင် ပြန်ချန်ထားရပါတယ်။ ဗမာစာဟာ မွန်စာကို ယူသုံးထားပါတယ်။ မွန်စာမှာလည်း ဗမာစာမှာမရှိတဲ့ အက္ခရာတွေ ပါပါတယ်။ ရှမ်းစာ မွန်စာ ရခိုင်စာ ကရင်စာ မှာလည်း ဗမာအက္ခရာကို သုံးပါတယ်။ ကျီးဖြူဒီမှာနေ၊ ကျီးမည်းဒီကိုသွားဆိုပြီး ခွဲထုတ်လို့မရနိုင်ပါဘူး။

 

၁၀။

 

 

ယူနီကုဒ်ဖောင့်တွေဖြစ်တဲ့ မြန်မာ၃၊ မိုင်မြန်မာ၊ ပိတောက်၊ ပုရပိုက်၊ ယွန်းချို၊ မာစတာပိယူနီစံတွေမှာ ရှားရှားပါးပါး ပါဠိသက် တစ်နေရာ နှစ်နေရာကလွဲလို့ အားလုံးအတူတူ အလုပ်လုပ်ပါတယ်။ အခုဒီစာကိုလည်း Mac မှာ မာစတာပိယူနီစံနဲ့ ရိုက်ပြီး မွန်စာတွေ မြင်ရအောင် Windows မှာ ပိတောက်နဲ့ PDF ပြန်ထုတ်ပါတယ်။

 

၁၁။ ဒါကတော့ ညီလင်းဆက်ထဲမှာ မပါပေမဲ့ ယူနီကုဒ်က ပါဠိသုံးထပ်ဆင့် မရဘူးလို့ ကတ်ကတ်သတ်သတ် ပြောသူတွေ ရှိလာတာကြောင့် တစ်လက်စတည်း ထည့်ရေးဖြစ်ပါတယ်။ ယူနီကုဒ် Encoding မှာ မြန်မာဘာသာအတွက် Encode လုပ်လို့မရဘူးဆိုတာ မရှိ​သလောက် ဖြစ်နေပါပြီ။ ဖောင့်အနေနဲ့ အမှန်မပြနိုင်တာတွေ ရှိကောင်းရှိပါမယ်။ ဥပမာ –

န + ဝိရာမ + တ + ဝဆွဲ ဆိုတဲ့ ပါဠိသုံးထပ်ဆင့် စာလုံးပါ။

 

သူ့ကို အခု မြန်မာ၃နဲ့ အမှန်မမြင်ရပေမဲ့ သုံးမှဖြစ်မယ်ဆိုပြီးလိုအပ်လာခဲ့လို့ ရှိရင် ယူနီကုဒ် Encoding စာလုံးစီပုံ ရှိပြီးသား ဖြစ်တဲ့အတွက် ဖောင့်မှာ Glyph တစ်ခုနဲ့ Rule တစ်ခု ပေါင်းထည့်လိုက်ရုံနဲ့ ရပါပြီ။

 

Encoding ဆိုတာနဲ့ တစ်ဆက်တည်း ပြောလိုက်ပါဦးမယ်။ ယူနီကုဒ် Encoding Model မှာ ဘယ်အက္ခရာက ရှေ့ကနေပြီး ဘယ်အက္ခရာက နောက်ကနေမယ်ဆိုတာ အတိအကျ ဖော်ပြထားတဲ့ စည်းမျဉ်းတွေ ရှိပါတယ်။ Encoding ဆိုတာ မြန်မာစာ သင်ရိုး မဟုတ်ပါဘူး။ တခြားတိုင်းရင်းသားအက္ခရာတွေနဲ့ အဆင်ပြေအောင်၊ ကွန်ပျူတာမှာ တွက်ချက်ရ လွယ်ကူအောင် နောင်အရှည်မှာ အဆင်ပြေလွယ်ကူအောင် ဘာသာဗေဒနည်း အရ ကွန်ပျူတာမှာ Syllable ဝဏ္ဏအဆင့် သိမ်းတဲ့နည်း ဖြစ်ပါတယ်။ အလွယ်မှတ်ရင်တော့ ဗျည်း၊ ဗျည်းတွဲ၊ သရ လို့ မှတ်နိုင်ပါတယ်။ စိတ်ဝင်စားရင် ဒီနေရာမှာ အလွယ်မှတ်နည်း အဆင့်ဆင့်ကို သွားကြည့်နိုင်ပါတယ်။ အကျယ်ကိုတော့ ဒီမှာ ကြည့်ပါ။

 

နောက်ဆုံးတစ်ခုပြောချင်တာက ယူနီကုဒ်ဟာ မြန်မာစာ ကောင်းကောင်းမတတ်တဲ့ ကွန်ပျူတာသမားတွေ လုပ်ချင်ရာ လုပ်ထားကြတာ မဟုတ်ဘူး ဆိုတာပါပဲ။ မြန်မာစာပညာရှင်တွေ၊ တိုင်းရင်းသားစာပေ ပညာရှင်တွေ၊ ဘာသာဗေဒကို အထူးပြု လေ့လာနေတဲ့ လူတွေ၊ ကွန်ပျူတာပညာရှင်တွေ အားလုံး ဝိုင်းဝန်းပြီး လုပ်ထားကြတာပါ။ လုပ်တိုင်းလည်း မြန်မာတွေ စိတ်ကြိုက် အားလုံး မရပါ။ အရှေ့တောင်အာရှဘာသာစကားတွေကို အထူးပြုလေ့လာထားတဲ့ ယူနီကုဒ်ကွန်ဆိုတီယမ်က ပညာရှင်တွေရဲ့ အဆင့်ဆင့် စိစစ်မှုကို ခံကြရပါသေးတယ်။ ယူနီကုဒ် Proposal တစ်ခုတင်ဖို့ နဲ့ တင်ပြီးရင် အတည်ပြုဖို့ တစ်နှစ်ကြာပါတယ်။ အဲဒီကာလတွေအတွင်းမှာ အကြောင်းပြချက်ခိုင်လုံရင် ပြင်ခွင့် ကန့်ကွက်ခွင့် ရှိပါတယ်။ အဲဒါတွေအားလုံး ပြီးသွားတော့မှ အတည်ပြုတဲ့ ဗားရှင်းတစ်ခုရပါတယ်။ အခု ဗားရှင်း 5.2 မှာ ဗမာစာအတွက် ပြင်စရာ ကုန်သလောက်ဖြစ်သွားပါပြီ။ ဒါကြောင့် စိတ်ချသုံးလို့ ရပါပြီလို့ ပြောနေကြတာပါ။ လူသိနည်းတဲ့ တိုင်းရင်းသားစာတွေ ထည့်ဖို့ရှိလာတယ်ဆိုလည်း အခုရှိပြီးသားအက္ခရာတွေရဲ့ နောက်မှာ ထပ်ထည့်သွားရုံပါပဲ။ ဒီလောက်ဆိုရင် ဒွိဟဖြစ်နေသူ အတော်များများ ရှင်းသွားလောက်ပြီ ထင်ပါတယ်။

 

@=={Lionslayer>

22/01/2011

 

Ref:

Tags: , , , , , , , , , , ,

· · · ◊ ◊ ◊ · · ·