ဒီရက်ပိုင်း ယူနီကုဒ်ကို လူတော်တော်များများ စိတ်ဝင်စားလာကြပြီး ထောက်ပြဝေဖန် မေးမြန်းတာတွေ ရှိတဲ့အထဲမှာ ညီလင်းဆက်ရေးခဲ့တဲ့ Review on Myanmar Unicode 5.1 & Suggestion ကို ပြတဲ့ပြီး ဒါတွေရှင်းပြီးပြီလားလို့ မေးတဲ့လူတွေ ရှိလာလို့ ဒီစာကို ရေးဖြစ်ပါတယ်။ ယူနီကုဒ်လုပ်ခဲ့တဲ့ ပညာရှင်တွေ၊ Developer တွေက ကိုယ်စီ ရှင်းထားကြပေမဲ့ အင်္ဂလိပ်လိုဖြစ်တာရယ်၊ မြန်မာလိုရေးထားတာဆိုရင်လည်း တစ်စုတစ်စည်းတည်း မရှိတာကြောင့်  တစ်နေရာတည်းမှာ စုစည်းပြီး ဖြေပေးလိုက်ပါတယ်။

.::Download this article in PDF format here::.

 

၁။

ယူနီကုဒ်မှာ ပုံသဏ္ဌာန် ထပ်တူထပ်မျှတူရင် သုံးတဲ့နေရာ မတူပေမဲ့ ကုဒ်ပွိုင့်တစ်ခုတည်း ယူပါတယ်။

 

ဥပမာ –

玍 – (738D)

To be born

Birth, origin

To live, to exist, to survive

To revive, to bring to life

Raw, uncooked, crude

Pure, neat, genuine

unfamiliar, strange

untamed, barbarian

a student

 

ះ – (17C7)

KHMER SIGN REAHMUK

srak ah

visarga

 

Screen shot 2011-01-22 at 2

Khmer O, AU

 

ရှေ့ထိုး (​ေ-ာ်)ကိုသီးခြားခွဲထုတ်မရပါ။ ဒါ့အပြင် Split Vowel (ခမာတွင်သုံးသည်, 17C4, 17C5) ဟုသတ်မှတ်၍ ​ေ-ာ်အတွက် တစ်ကွက်ထည့်ပါက ​ေ-ာ၊ -ံ့ ၊ -ို အတွက်ပါ ထည့်ရပါမယ်။ အဲဒီအတွက်  Split Vowel ကိုမသုံးပဲ အသတ်ကိုသာ ရှေ့ထိုးအတွက် ပုံဖော်ခြင်းမှာ သုံးပါတယ်။ အဲလိုမျှဝေသုံးစွဲခြင်းအတွက် အက္ခရာစဉ်ခြင်းနှင့် ရှာဖွေခြင်းတွင် မည်သို့မျှပြောင်းလဲခြင်းမရှိပါ။ Split Vowel လို့ထည့်ရင် ပြင်မယ်ဆိုရင် အသတ်ကိုဖျက်တာ၊ ရေးချကို ဖျက်တာခက်သွားမယ်။ ကော် ကနေ ကော၊ ကေ ကိုပြင်မယ်ဆိုရင် ရေးချ၊ ရှေ့ထိုးဖျက်ရုံနဲ့မရဘဲ တစ်ခုလုံးဖျက်ရပါမယ်။

 

၂။

 

မွန်ဘာသာ ရှေးစာတွေမှာ “ပဿ” အသုံးရှိသလို “လသ္သ” အသုံးလည်း ရှိပါတယ်။ ယူနီကုဒ် အရှေ့ပိုင်းဗားရှင်းတွေမှာ ဿကြီး မပါပါဘူး။ နောက်မှ လိုလို့ အကြောင်းအကျိုး သက်သေသာဓကတွေ ပြပြီး တောင်းထားတာ ဖြစ်ပါတယ်။ နောက်ထပ် code point မပေးရင် အဲဒီ ၂ခုလုံးကို ဖော်ပြဖို့ မဖြစ်နိုင်ပါ။ disunification လုပ်ရပါတယ်။ Database မှာ De-normalization ကို မြန်ဖို့ အဆင်ပြေဖို့ သုံးရသလိုပါပဲ။

 

၃။

 

ခုခေတ်မှာ ဗမာစာတစ်ခုတည်း ရုံးသုံးဖြစ်နေပေမဲ့ တူညီတဲ့ အက္ခရာတွေ ယူသုံးတဲ့ တခြားသာသာစကား အများအပြားလည်း ရှိပါတယ်။ ယူနီကုဒ်မှာ ဗမာ၊ မွန်၊ ရခိုင်၊ ရှမ်း၊ ပိုးကရင်၊ စကောကရင်၊ ပလောင်၊ ပအို့ဝ် စတဲ့ တိုင်းရင်းသားစာ အများအပြားအတွက်ပါ ထည့်ပေးထားတဲ့အတွက် ဗမာစာတစ်ခုတည်း ကွက်ကြည့်လို့ မဖြစ်တော့ပါဘူး။ ဗမာစာကိုယ်တိုင်ကိုက မွန်အက္ခရာတွေမှာ အခြေခံထားတဲ့အတွက် မွန်ဘာသာရယ်၊ သူနဲ့ယှဉ်ပြီးသုံးတဲ့ ရှေးထုံးဗမာစာရယ်ကိုပါ ထည့်စဉ်းစားရပါတယ်။ မွန်စာရေးထုံးအရ မသတ် (မ်) ကို အတိုရေးချင်တဲ့အခါ ဗျည်းပေါ် အစက်တင် (Superscripted) ရေးပါတယ်။ (အခုထိ ခမာမှာ အဲဒီအတိုင်းသုံးပါတယ်)။ အမှန်တော့ ဗျည်းပေါ်တင်ရေးတဲ့ အဲဒီအစက် ကိုယ်တိုင်ကိုက ဗျည်း(အံ) ဖြစ်ပါတယ်။ အဲဒါကြောင့် အ နဲ့ပေါင်းပြီး အ သေးသေးတင် ဖြစ်တဲ့အခါ သရလို့ မယူဆပါဘူး။ နောက်ပိုင်း မြန်မာသင်ပုန်းကြီးက ဗျည်းမှာ အံ မထည့်တော့ဘဲ ဗျည်းလွတ်နေတဲ့ သရတွေကို စီတဲ့အထဲ သွားထည့်လိုက်တဲ့အခါ သရအဖြစ် သတ်မှတ်လိုက်ပါတော့တယ်။ အဲဒါကြောင့် သေးသေးတင်ကို သရအဖြစ်ရော ဗျည်းအဖြစ်ပါ သတ်မှတ်တဲ့အတွက် Various Sign ထဲထည့်ပါတယ်။ ခမာနဲ့ ထိုင်းဘာသာတွေမှာပါ Various Sign ထဲ ဝင်ပါတယ်။

 

၄။

 

ရှေးက မြန်မာစာရေးတဲ့အခါမှာ ကျောက်စာပေစာတွေမှာ ရေးရတဲ့အတွက် နေရာဆံ့အောင် အတိုရေးရတဲ့ နည်းတွေ ရှိပါတယ်။ အု က ဥ ဖြစ်တာတွေက အဲဒီထုံးပါပဲ။ ၎င်း ကိုယ်၌ကိုက လည်းကောင်းကို ချုံ့တာပါ။ ၎င်း ကို ထပ်ချုံ့ချင်တဲ့အခါမှာတော့ ၎ သင်္ကေတပေါ် ကင်းစီးတင်ပြီး ၎င်္ ရယ်လို့ ရေးပါတယ်။ အဲဒါကြောင့် ၎ သင်္ကေတမှာ ငသတ်ဝစ္စပေါက် ဖြုတ်ထားတာ ဖြစ်ပါတယ်။ ယူနီကုဒ် 1.0 မူကြမ်းမှာ ၎ သင်္ကေတနဲ့ ဿကြီး 5.1 မူအတိုင်း ပါပါတယ်။

 

၅။

 

အပေါ်က သဝေထိုးကို ရှေးက ဗမာစာ၊ မွန်စာတွေမှာ သုံးပါတယ်။ ခုခေတ်လည်း မွန်စာတွေမှာ သုံးနေတုန်းပါပဲ။ ဥပမာ – “ယဵု”။ အသုံးလိုတိုင်းယူနီကုဒ်မှာ လိုက်ထည့်နေရမလားဆိုတော့ ဟုတ်ပါတယ် လိုက်ထည့်ရမှာပါ။ သုံးတဲ့အသုံး၊ ဘယ်နေရာမှာသုံးတယ်၊ ဘယ်ခုနှစ်က ဘယ်တိုင်းရင်းသားရဲ့ ဘယ်စာမှာသုံးတယ်ဆိုတာ ပြနိုင်ရင် ယူနီကုဒ်ကွန်ဆိုတီယမ်မှာ ထပ်တိုးတောင်းလို့ ရပါတယ်။ ကုဒ်ပွိုင့်တစ်ခုချင်းစီဟာ ရဖို့ အင်မတန်ခက်ခဲတဲ့အတွက် အသစ်ရမယ်ဆိုရင် ဒါဟာ ဝမ်းသာအားရ ကြိုဆိုရမယ့် အချက် ဖြစ်ပါတယ်။

 

၆။

 

Normalization အတွက်လားဆိုရင် ဟုတ်ပါတယ်လို့ ဖြေရပါမယ်။ Alternate rule for normalization ဆိုတာ ရှိရင် ပိုအကျိုးရှိပါတယ်။ ရဖို့လည်း ခက်ပါတယ်။ ဥလုံးကြီးတင်ဆန်ခတ်နဲ့ မှားနိုင်စရာ တခြားစာလုံးမရှိတာရယ်၊ ရှောင်ဖို့ခက်တဲ့ သာဓကအများအပြားရယ်ကြောင့် ထည့်ပေးလိုက်တာပါ။ လက်ကွက်မှတ်မိရင် 1025+102E အစား 1026 အက္ခရာ ဦ ကိုသာသုံးဖို့ တိုက်တွန်းပါတယ်။

 

၇။

 

ဪ သရအတွက် မွန်စာမှာ ရှေ့ပစ်သုံးပြီး ပြပါတယ် – “အဴ”။ ဗမာစာမှာ ရှေ့ပစ်မသုံးတော့ဘဲ ဝသတ်နဲ့ ပြပါတယ် – “ဝ်”။ သဝေထိုးနဲ့ ရေးချသုံးတဲ့ အော်သံမှာ ရှေ့ပစ်နဲ့ဆင်တဲ့ ရှေ့ထိုးကို သုံးပြီး ပုံစံအသစ်ရေးပါတယ်။ ကုန်းဘောင်ခေတ် တောင်တွင်းဆရာတော် ခင်ကြီးဖျော်ရဲ့ သဒ္ဒဗျူဟာကျမ်းမှာတော့ အော်သရအတွက် အက္ခရာဩမှာ သဝေထိုးရေးချ ရှေ့ထိုးကပ်ပြီး အက္ခရာဪကို စထွင်ပါတယ်။ ဒါပေမဲ့ အက္ခရာဩ အက္ခရာဪတွေကို သ ရရစ် လို့ မရေးပါ။ မွန်စာမှာ အက္ခရာဩ ရော သ ရရစ် အသုံးပါ ရှိတဲ့အတွက်ကြောင့် ဖြစ်ပါတယ်။ ဥပမာ – “သြန်” (သကို ရရစ်ကပ်ရင် ဆလိမ်+အောသံထွက်ပါတယ်)။

 

 

၈။

 

၁၉၉၈ ယူနီကုဒ်(၃) မြန်မာစာ Proposal မှာ အော နဲ့ အော် သရနှစ်လုံးပါပါတယ်။ ဒါပေမဲ့ သရလို့ဆိုတဲ့ အ ကိုယ်၌က ဗျည်းထဲဝင်နေတဲ့အချက်ကြောင့်ရယ် အို အုံ အံ အသုံးတွေ အတွက်ကြောင့်နဲ့ အ ကိုသုံးပြီး ရှိပြီးသားသရတွေဖြစ်တဲ့ သဝေထိုး၊ ရေးချတို့နဲ့ ရေးလို့ဖြစ်တယ်ဆိုပြီး နောက်ပိုင်းမှာ ပြန်ဖြုတ်ပါတယ်။ ဗျည်းမှာ အ မပါတဲ့ ခမာကိုတော့ အော အော် နှစ်လုံး ပေးပါတယ်။ ယူနီကုဒ်ပွိုင့်လေး တစ်လုံးတစ်ပါဒအတွက် မြန်မာစာပညာရှင်၊ ကွန်ပျူတာပညာရှင်ေတွ ဖြစ်နိုင်ချေရှိတဲ့ နည်းလမ်းပေါင်းစုံသုံးပြီး အကြိမ်ကြိမ် ခေါင်းချင်းဆိုင်ဆွေးနွေး၊ ပြည်ပကိုအခါခါထွက်၊ ဆုံးဖြတ်ချက်ကို လည်တရှည်ရှည်နဲ့စောင့်ဖူးခဲ့ပါပြီ။

 

 

၉။

 

ယူနီကုဒ်အက္ခရာတွေမှာ မြန်မာအက္ခရာတွေအတွက် ဘလော့ခ် အစုအဝေးကြီးတစ်ခု ထားပေးပြီး ပုံစံကျအောင် စီပါတယ်။ ဗားရှင်းတစ်ခုချင်းစီ သွားတိုင်း မလိုတာပယ် လိုတာဖြည့်လုပ်ပါတယ်။ အဲဒီအခါမှာ အရင်ဗားရှင်းတွေနဲ့ အတတ်နိုင်ဆုံးတူအောင် ပြန်ချန်ထားရပါတယ်။ ဗမာစာဟာ မွန်စာကို ယူသုံးထားပါတယ်။ မွန်စာမှာလည်း ဗမာစာမှာမရှိတဲ့ အက္ခရာတွေ ပါပါတယ်။ ရှမ်းစာ မွန်စာ ရခိုင်စာ ကရင်စာ မှာလည်း ဗမာအက္ခရာကို သုံးပါတယ်။ ကျီးဖြူဒီမှာနေ၊ ကျီးမည်းဒီကိုသွားဆိုပြီး ခွဲထုတ်လို့မရနိုင်ပါဘူး။

 

၁၀။

 

 

ယူနီကုဒ်ဖောင့်တွေဖြစ်တဲ့ မြန်မာ၃၊ မိုင်မြန်မာ၊ ပိတောက်၊ ပုရပိုက်၊ ယွန်းချို၊ မာစတာပိယူနီစံတွေမှာ ရှားရှားပါးပါး ပါဠိသက် တစ်နေရာ နှစ်နေရာကလွဲလို့ အားလုံးအတူတူ အလုပ်လုပ်ပါတယ်။ အခုဒီစာကိုလည်း Mac မှာ မာစတာပိယူနီစံနဲ့ ရိုက်ပြီး မွန်စာတွေ မြင်ရအောင် Windows မှာ ပိတောက်နဲ့ PDF ပြန်ထုတ်ပါတယ်။

 

၁၁။ ဒါကတော့ ညီလင်းဆက်ထဲမှာ မပါပေမဲ့ ယူနီကုဒ်က ပါဠိသုံးထပ်ဆင့် မရဘူးလို့ ကတ်ကတ်သတ်သတ် ပြောသူတွေ ရှိလာတာကြောင့် တစ်လက်စတည်း ထည့်ရေးဖြစ်ပါတယ်။ ယူနီကုဒ် Encoding မှာ မြန်မာဘာသာအတွက် Encode လုပ်လို့မရဘူးဆိုတာ မရှိ​သလောက် ဖြစ်နေပါပြီ။ ဖောင့်အနေနဲ့ အမှန်မပြနိုင်တာတွေ ရှိကောင်းရှိပါမယ်။ ဥပမာ –

န + ဝိရာမ + တ + ဝဆွဲ ဆိုတဲ့ ပါဠိသုံးထပ်ဆင့် စာလုံးပါ။

 

သူ့ကို အခု မြန်မာ၃နဲ့ အမှန်မမြင်ရပေမဲ့ သုံးမှဖြစ်မယ်ဆိုပြီးလိုအပ်လာခဲ့လို့ ရှိရင် ယူနီကုဒ် Encoding စာလုံးစီပုံ ရှိပြီးသား ဖြစ်တဲ့အတွက် ဖောင့်မှာ Glyph တစ်ခုနဲ့ Rule တစ်ခု ပေါင်းထည့်လိုက်ရုံနဲ့ ရပါပြီ။

 

Encoding ဆိုတာနဲ့ တစ်ဆက်တည်း ပြောလိုက်ပါဦးမယ်။ ယူနီကုဒ် Encoding Model မှာ ဘယ်အက္ခရာက ရှေ့ကနေပြီး ဘယ်အက္ခရာက နောက်ကနေမယ်ဆိုတာ အတိအကျ ဖော်ပြထားတဲ့ စည်းမျဉ်းတွေ ရှိပါတယ်။ Encoding ဆိုတာ မြန်မာစာ သင်ရိုး မဟုတ်ပါဘူး။ တခြားတိုင်းရင်းသားအက္ခရာတွေနဲ့ အဆင်ပြေအောင်၊ ကွန်ပျူတာမှာ တွက်ချက်ရ လွယ်ကူအောင် နောင်အရှည်မှာ အဆင်ပြေလွယ်ကူအောင် ဘာသာဗေဒနည်း အရ ကွန်ပျူတာမှာ Syllable ဝဏ္ဏအဆင့် သိမ်းတဲ့နည်း ဖြစ်ပါတယ်။ အလွယ်မှတ်ရင်တော့ ဗျည်း၊ ဗျည်းတွဲ၊ သရ လို့ မှတ်နိုင်ပါတယ်။ စိတ်ဝင်စားရင် ဒီနေရာမှာ အလွယ်မှတ်နည်း အဆင့်ဆင့်ကို သွားကြည့်နိုင်ပါတယ်။ အကျယ်ကိုတော့ ဒီမှာ ကြည့်ပါ။

 

နောက်ဆုံးတစ်ခုပြောချင်တာက ယူနီကုဒ်ဟာ မြန်မာစာ ကောင်းကောင်းမတတ်တဲ့ ကွန်ပျူတာသမားတွေ လုပ်ချင်ရာ လုပ်ထားကြတာ မဟုတ်ဘူး ဆိုတာပါပဲ။ မြန်မာစာပညာရှင်တွေ၊ တိုင်းရင်းသားစာပေ ပညာရှင်တွေ၊ ဘာသာဗေဒကို အထူးပြု လေ့လာနေတဲ့ လူတွေ၊ ကွန်ပျူတာပညာရှင်တွေ အားလုံး ဝိုင်းဝန်းပြီး လုပ်ထားကြတာပါ။ လုပ်တိုင်းလည်း မြန်မာတွေ စိတ်ကြိုက် အားလုံး မရပါ။ အရှေ့တောင်အာရှဘာသာစကားတွေကို အထူးပြုလေ့လာထားတဲ့ ယူနီကုဒ်ကွန်ဆိုတီယမ်က ပညာရှင်တွေရဲ့ အဆင့်ဆင့် စိစစ်မှုကို ခံကြရပါသေးတယ်။ ယူနီကုဒ် Proposal တစ်ခုတင်ဖို့ နဲ့ တင်ပြီးရင် အတည်ပြုဖို့ တစ်နှစ်ကြာပါတယ်။ အဲဒီကာလတွေအတွင်းမှာ အကြောင်းပြချက်ခိုင်လုံရင် ပြင်ခွင့် ကန့်ကွက်ခွင့် ရှိပါတယ်။ အဲဒါတွေအားလုံး ပြီးသွားတော့မှ အတည်ပြုတဲ့ ဗားရှင်းတစ်ခုရပါတယ်။ အခု ဗားရှင်း 5.2 မှာ ဗမာစာအတွက် ပြင်စရာ ကုန်သလောက်ဖြစ်သွားပါပြီ။ ဒါကြောင့် စိတ်ချသုံးလို့ ရပါပြီလို့ ပြောနေကြတာပါ။ လူသိနည်းတဲ့ တိုင်းရင်းသားစာတွေ ထည့်ဖို့ရှိလာတယ်ဆိုလည်း အခုရှိပြီးသားအက္ခရာတွေရဲ့ နောက်မှာ ထပ်ထည့်သွားရုံပါပဲ။ ဒီလောက်ဆိုရင် ဒွိဟဖြစ်နေသူ အတော်များများ ရှင်းသွားလောက်ပြီ ထင်ပါတယ်။

 

@=={Lionslayer>

22/01/2011

 

Ref:

Tags: , , , , , , , , , , ,

· · · ◊ ◊ ◊ · · ·