ယူနီကုဒ္ ရွင္းတမ္း
.::Download this article in PDF format here::.
၁။
ယူနီကုဒ္မွာ ပုံသဏၭာန္ ထပ္တူထပ္မၽွတူရင္ သုံးတဲ့ေနရာ မတူေပမဲ့ ကုဒ္ပြိဳင့္တစ္ခုတည္း ယူပါတယ္။
ဥပမာ -
玍 - (738D)
To be born
Birth, origin
To live, to exist, to survive
To revive, to bring to life
Raw, uncooked, crude
Pure, neat, genuine
unfamiliar, strange
untamed, barbarian
a student
ះ - (17C7)
KHMER SIGN REAHMUK
srak ah
visarga
Khmer O, AU
ေရွ႕ထိုး (ေ-ာ္)ကိုသီးျခားခြဲထုတ္မရပါ။ ဒါ့အျပင္ Split Vowel (ခမာတြင္သုံးသည္, 17C4, 17C5) ဟုသတ္မွတ္၍ ေ-ာ္အတြက္ တစ္ကြက္ထည့္ပါက ေ-ာ၊ -ံ့ ၊ -ို အတြက္ပါ ထည့္ရပါမယ္။ အဲဒီအတြက္ Split Vowel ကိုမသုံးပဲ အသတ္ကိုသာ ေရွ႕ထိုးအတြက္ ပုံေဖာ္ျခင္းမွာ သုံးပါတယ္။ အဲလိုမၽွေဝသုံးစြဲျခင္းအတြက္ အကၡရာစဥ္ျခင္းႏွင့္ ရွာေဖြျခင္းတြင္ မည္သို႔မၽွေျပာင္းလဲျခင္းမရွိပါ။ Split Vowel လို႔ထည့္ရင္ ျပင္မယ္ဆိုရင္ အသတ္ကိုဖ်က္တာ၊ ေရးခ်ကို ဖ်က္တာခက္သြားမယ္။ ေကာ္ ကေန ေကာ၊ ေက ကိုျပင္မယ္ဆိုရင္ ေရးခ်၊ ေရွ႕ထိုးဖ်က္႐ုံနဲ႔မရဘဲ တစ္ခုလုံးဖ်က္ရပါမယ္။
၂။
မြန္ဘာသာ ေရွးစာေတြမွာ "ပႆ" အသုံးရွိသလို "လသ္သ" အသုံးလည္း ရွိပါတယ္။ ယူနီကုဒ္ အေရွ႕ပိုင္းဗားရွင္းေတြမွာ ႆႀကီး မပါပါဘူး။ ေနာက္မွ လိုလို႔ အေၾကာင္းအက်ိဳး သက္ေသသာဓကေတြ ျပၿပီး ေတာင္းထားတာ ျဖစ္ပါတယ္။ ေနာက္ထပ္ code point မေပးရင္ အဲဒီ ၂ခုလုံးကို ေဖာ္ျပဖို႔ မျဖစ္နိုင္ပါ။ disunification လုပ္ရပါတယ္။ Database မွာ De-normalization ကို ျမန္ဖို႔ အဆင္ေျပဖို႔ သုံးရသလိုပါပဲ။
၃။
ခုေခတ္မွာ ဗမာစာတစ္ခုတည္း ႐ုံးသုံးျဖစ္ေနေပမဲ့ တူညီတဲ့ အကၡရာေတြ ယူသုံးတဲ့ တျခားသာသာစကား အမ်ားအျပားလည္း ရွိပါတယ္။ ယူနီကုဒ္မွာ ဗမာ၊ မြန္၊ ရခိုင္၊ ရွမ္း၊ ပိုးကရင္၊ စေကာကရင္၊ ပေလာင္၊ ပအို႔ဝ္ စတဲ့ တိုင္းရင္းသားစာ အမ်ားအျပားအတြက္ပါ ထည့္ေပးထားတဲ့အတြက္ ဗမာစာတစ္ခုတည္း ကြက္ၾကည့္လို႔ မျဖစ္ေတာ့ပါဘူး။ ဗမာစာကိုယ္တိုင္ကိုက မြန္အကၡရာေတြမွာ အေျခခံထားတဲ့အတြက္ မြန္ဘာသာရယ္၊ သူနဲ႔ယွဥ္ၿပီးသုံးတဲ့ ေရွးထုံးဗမာစာရယ္ကိုပါ ထည့္စဥ္းစားရပါတယ္။ မြန္စာေရးထုံးအရ မသတ္ (မ္) ကို အတိုေရးခ်င္တဲ့အခါ ဗ်ည္းေပၚ အစက္တင္ (Superscripted) ေရးပါတယ္။ (အခုထိ ခမာမွာ အဲဒီအတိုင္းသုံးပါတယ္)။ အမွန္ေတာ့ ဗ်ည္းေပၚတင္ေရးတဲ့ အဲဒီအစက္ ကိုယ္တိုင္ကိုက ဗ်ည္း(အံ) ျဖစ္ပါတယ္။ အဲဒါေၾကာင့္ အ နဲ႔ေပါင္းၿပီး အ ေသးေသးတင္ ျဖစ္တဲ့အခါ သရလို႔ မယူဆပါဘူး။ ေနာက္ပိုင္း ျမန္မာသင္ပုန္းႀကီးက ဗ်ည္းမွာ အံ မထည့္ေတာ့ဘဲ ဗ်ည္းလြတ္ေနတဲ့ သရေတြကို စီတဲ့အထဲ သြားထည့္လိုက္တဲ့အခါ သရအျဖစ္ သတ္မွတ္လိုက္ပါေတာ့တယ္။ အဲဒါေၾကာင့္ ေသးေသးတင္ကို သရအျဖစ္ေရာ ဗ်ည္းအျဖစ္ပါ သတ္မွတ္တဲ့အတြက္ Various Sign ထဲထည့္ပါတယ္။ ခမာနဲ႔ ထိုင္းဘာသာေတြမွာပါ Various Sign ထဲ ဝင္ပါတယ္။
၄။
ေရွးက ျမန္မာစာေရးတဲ့အခါမွာ ေက်ာက္စာေပစာေတြမွာ ေရးရတဲ့အတြက္ ေနရာဆံ့ေအာင္ အတိုေရးရတဲ့ နည္းေတြ ရွိပါတယ္။ အု က ဥ ျဖစ္တာေတြက အဲဒီထုံးပါပဲ။ ၎ ကိုယ္၌ကိုက လည္းေကာင္းကို ခ်ဳံ႕တာပါ။ ၎ ကို ထပ္ခ်ဳံ႕ခ်င္တဲ့အခါမွာေတာ့ ၎ သေကၤတေပၚ ကင္းစီးတင္ၿပီး ၎ ၤရယ္လို႔ ေရးပါတယ္။ အဲဒါေၾကာင့္ ၎ သေကၤတမွာ ငသတ္ဝစၥေပါက္ ျဖဳတ္ထားတာ ျဖစ္ပါတယ္။ ယူနီကုဒ္ 1.0 မူၾကမ္းမွာ ၎ သေကၤတနဲ႔ ႆႀကီး 5.1 မူအတိုင္း ပါပါတယ္။
၅။
အေပၚက သေဝထိုးကို ေရွးက ဗမာစာ၊ မြန္စာေတြမွာ သုံးပါတယ္။ ခုေခတ္လည္း မြန္စာေတြမွာ သုံးေနတုန္းပါပဲ။ ဥပမာ - "ယဵု"။ အသုံးလိုတိုင္းယူနီကုဒ္မွာ လိုက္ထည့္ေနရမလားဆိုေတာ့ ဟုတ္ပါတယ္ လိုက္ထည့္ရမွာပါ။ သုံးတဲ့အသုံး၊ ဘယ္ေနရာမွာသုံးတယ္၊ ဘယ္ခုႏွစ္က ဘယ္တိုင္းရင္းသားရဲ့ ဘယ္စာမွာသုံးတယ္ဆိုတာ ျပနိုင္ရင္ ယူနီကုဒ္ကြန္ဆိုတီယမ္မွာ ထပ္တိုးေတာင္းလို႔ ရပါတယ္။ ကုဒ္ပြိဳင့္တစ္ခုခ်င္းစီဟာ ရဖို႔ အင္မတန္ခက္ခဲတဲ့အတြက္ အသစ္ရမယ္ဆိုရင္ ဒါဟာ ဝမ္းသာအားရ ႀကိဳဆိုရမယ့္ အခ်က္ ျဖစ္ပါတယ္။
၆။
Normalization အတြက္လားဆိုရင္ ဟုတ္ပါတယ္လို႔ ေျဖရပါမယ္။ Alternate rule for normalization ဆိုတာ ရွိရင္ ပိုအက်ိဳးရွိပါတယ္။ ရဖို႔လည္း ခက္ပါတယ္။ ဥလုံးႀကီးတင္ဆန္ခတ္နဲ႔ မွားနိုင္စရာ တျခားစာလုံးမရွိတာရယ္၊ ေရွာင္ဖို႔ခက္တဲ့ သာဓကအမ်ားအျပားရယ္ေၾကာင့္ ထည့္ေပးလိုက္တာပါ။ လက္ကြက္မွတ္မိရင္ 1025+102E အစား 1026 အကၡရာ ဦ ကိုသာသုံးဖို႔ တိုက္တြန္းပါတယ္။
၇။
ဪ သရအတြက္ မြန္စာမွာ ေရွ႕ပစ္သုံးၿပီး ျပပါတယ္ - "အဴ"။ ဗမာစာမွာ ေရွ႕ပစ္မသုံးေတာ့ဘဲ ဝသတ္နဲ႔ ျပပါတယ္ - "ဝ္"။ သေဝထိုးနဲ႔ ေရးခ်သုံးတဲ့ ေအာ္သံမွာ ေရွ႕ပစ္နဲ႔ဆင္တဲ့ ေရွ႕ထိုးကို သုံးၿပီး ပုံစံအသစ္ေရးပါတယ္။ ကုန္းေဘာင္ေခတ္ ေတာင္တြင္းဆရာေတာ္ ခင္ႀကီးေဖ်ာ္ရဲ့ သဒၵဗ်ဴဟာက်မ္းမွာေတာ့ ေအာ္သရအတြက္ အကၡရာဩမွာ သေဝထိုးေရးခ် ေရွ႕ထိုးကပ္ၿပီး အကၡရာဪကို စထြင္ပါတယ္။ ဒါေပမဲ့ အကၡရာဩ အကၡရာဪေတြကို သ ရရစ္ လို႔ မေရးပါ။ မြန္စာမွာ အကၡရာဩ ေရာ သ ရရစ္ အသုံးပါ ရွိတဲ့အတြက္ေၾကာင့္ ျဖစ္ပါတယ္။ ဥပမာ - "ၾသန္" (သကို ရရစ္ကပ္ရင္ ဆလိမ္+ေအာသံထြက္ပါတယ္)။
၈။
၁၉၉၈ ယူနီကုဒ္(၃) ျမန္မာစာ Proposal မွာ ေအာ နဲ႔ ေအာ္ သရႏွစ္လုံးပါပါတယ္။ ဒါေပမဲ့ သရလို႔ဆိုတဲ့ အ ကိုယ္၌က ဗ်ည္းထဲဝင္ေနတဲ့အခ်က္ေၾကာင့္ရယ္ အို အုံ အံ အသုံးေတြ အတြက္ေၾကာင့္နဲ႔ အ ကိုသုံးၿပီး ရွိၿပီးသားသရေတြျဖစ္တဲ့ သေဝထိုး၊ ေရးခ်တို႔နဲ႔ ေရးလို႔ျဖစ္တယ္ဆိုၿပီး ေနာက္ပိုင္းမွာ ျပန္ျဖဳတ္ပါတယ္။ ဗ်ည္းမွာ အ မပါတဲ့ ခမာကိုေတာ့ ေအာ ေအာ္ ႏွစ္လုံး ေပးပါတယ္။ ယူနီကုဒ္ပြိဳင့္ေလး တစ္လုံးတစ္ပါဒအတြက္ ျမန္မာစာပညာရွင္၊ ကြန္ပ်ဴတာပညာရွင္ေတြ ျဖစ္နိုင္ေခ်ရွိတဲ့ နည္းလမ္းေပါင္းစုံသုံးၿပီး အႀကိမ္ႀကိမ္ ေခါင္းခ်င္းဆိုင္ေဆြးေႏြး၊ ျပည္ပကိုအခါခါထြက္၊ ဆုံးျဖတ္ခ်က္ကို လည္တရွည္ရွည္နဲ႔ေစာင့္ဖူးခဲ့ပါၿပီ။
၉။
ယူနီကုဒ္အကၡရာေတြမွာ ျမန္မာအကၡရာေတြအတြက္ ဘေလာ့ခ္ အစုအေဝးႀကီးတစ္ခု ထားေပးၿပီး ပုံစံက်ေအာင္ စီပါတယ္။ ဗားရွင္းတစ္ခုခ်င္းစီ သြားတိုင္း မလိုတာပယ္ လိုတာျဖည့္လုပ္ပါတယ္။ အဲဒီအခါမွာ အရင္ဗားရွင္းေတြနဲ႔ အတတ္နိုင္ဆုံးတူေအာင္ ျပန္ခ်န္ထားရပါတယ္။ ဗမာစာဟာ မြန္စာကို ယူသုံးထားပါတယ္။ မြန္စာမွာလည္း ဗမာစာမွာမရွိတဲ့ အကၡရာေတြ ပါပါတယ္။ ရွမ္းစာ မြန္စာ ရခိုင္စာ ကရင္စာ မွာလည္း ဗမာအကၡရာကို သုံးပါတယ္။ က်ီးျဖဴဒီမွာေန၊ က်ီးမည္းဒီကိုသြားဆိုၿပီး ခြဲထုတ္လို႔မရနိုင္ပါဘူး။
၁၀။
ယူနီကုဒ္ေဖာင့္ေတြျဖစ္တဲ့ ျမန္မာ၃၊ မိုင္ျမန္မာ၊ ပိေတာက္၊ ပုရပိုက္၊ ယြန္းခ်ိဳ၊ မာစတာပိယူနီစံေတြမွာ ရွားရွားပါးပါး ပါဠိသက္ တစ္ေနရာ ႏွစ္ေနရာကလြဲလို႔ အားလုံးအတူတူ အလုပ္လုပ္ပါတယ္။ အခုဒီစာကိုလည္း Mac မွာ မာစတာပိယူနီစံနဲ႔ ရိုက္ၿပီး မြန္စာေတြ ျမင္ရေအာင္ Windows မွာ ပိေတာက္နဲ႔ PDF ျပန္ထုတ္ပါတယ္။
၁၁။ ဒါကေတာ့ ညီလင္းဆက္ထဲမွာ မပါေပမဲ့ ယူနီကုဒ္က ပါဠိသုံးထပ္ဆင့္ မရဘူးလို႔ ကတ္ကတ္သတ္သတ္ ေျပာသူေတြ ရွိလာတာေၾကာင့္ တစ္လက္စတည္း ထည့္ေရးျဖစ္ပါတယ္။ ယူနီကုဒ္ Encoding မွာ ျမန္မာဘာသာအတြက္ Encode လုပ္လို႔မရဘူးဆိုတာ မရွိသေလာက္ ျဖစ္ေနပါၿပီ။ ေဖာင့္အေနနဲ႔ အမွန္မျပနိုင္တာေတြ ရွိေကာင္းရွိပါမယ္။ ဥပမာ -
န + ဝိရာမ + တ + ဝဆြဲ ဆိုတဲ့ ပါဠိသုံးထပ္ဆင့္ စာလုံးပါ။
သူ႔ကို အခု ျမန္မာ၃နဲ႔ အမွန္မျမင္ရေပမဲ့ သုံးမွျဖစ္မယ္ဆိုၿပီးလိုအပ္လာခဲ့လို႔ ရွိရင္ ယူနီကုဒ္ Encoding စာလုံးစီပုံ ရွိၿပီးသား ျဖစ္တဲ့အတြက္ ေဖာင့္မွာ Glyph တစ္ခုနဲ႔ Rule တစ္ခု ေပါင္းထည့္လိုက္႐ုံနဲ႔ ရပါၿပီ။
Encoding ဆိုတာနဲ႔ တစ္ဆက္တည္း ေျပာလိုက္ပါဦးမယ္။ ယူနီကုဒ္ Encoding Model မွာ ဘယ္အကၡရာက ေရွ႕ကေနၿပီး ဘယ္အကၡရာက ေနာက္ကေနမယ္ဆိုတာ အတိအက် ေဖာ္ျပထားတဲ့ စည္းမ်ဥ္းေတြ ရွိပါတယ္။ Encoding ဆိုတာ ျမန္မာစာ သင္ရိုး မဟုတ္ပါဘူး။ တျခားတိုင္းရင္းသားအကၡရာေတြနဲ႔ အဆင္ေျပေအာင္၊ ကြန္ပ်ဴတာမွာ တြက္ခ်က္ရ လြယ္ကူေအာင္ ေနာင္အရွည္မွာ အဆင္ေျပလြယ္ကူေအာင္ ဘာသာေဗဒနည္း အရ ကြန္ပ်ဴတာမွာ Syllable ဝဏၰအဆင့္ သိမ္းတဲ့နည္း ျဖစ္ပါတယ္။ အလြယ္မွတ္ရင္ေတာ့ ဗ်ည္း၊ ဗ်ည္းတြဲ၊ သရ လို႔ မွတ္နိုင္ပါတယ္။ စိတ္ဝင္စားရင္ ဒီေနရာမွာ အလြယ္မွတ္နည္း အဆင့္ဆင့္ကို သြားၾကည့္နိုင္ပါတယ္။ အက်ယ္ကိုေတာ့ ဒီမွာ ၾကည့္ပါ။
ေနာက္ဆုံးတစ္ခုေျပာခ်င္တာက ယူနီကုဒ္ဟာ ျမန္မာစာ ေကာင္းေကာင္းမတတ္တဲ့ ကြန္ပ်ဴတာသမားေတြ လုပ္ခ်င္ရာ လုပ္ထားၾကတာ မဟုတ္ဘူး ဆိုတာပါပဲ။ ျမန္မာစာပညာရွင္ေတြ၊ တိုင္းရင္းသားစာေပ ပညာရွင္ေတြ၊ ဘာသာေဗဒကို အထူးျပဳ ေလ့လာေနတဲ့ လူေတြ၊ ကြန္ပ်ဴတာပညာရွင္ေတြ အားလုံး ဝိုင္းဝန္းၿပီး လုပ္ထားၾကတာပါ။ လုပ္တိုင္းလည္း ျမန္မာေတြ စိတ္ႀကိဳက္ အားလုံး မရပါ။ အေရွ႕ေတာင္အာရွဘာသာစကားေတြကို အထူးျပဳေလ့လာထားတဲ့ ယူနီကုဒ္ကြန္ဆိုတီယမ္က ပညာရွင္ေတြရဲ့ အဆင့္ဆင့္ စိစစ္မွုကို ခံၾကရပါေသးတယ္။ ယူနီကုဒ္ Proposal တစ္ခုတင္ဖို႔ နဲ႔ တင္ၿပီးရင္ အတည္ျပဳဖို႔ တစ္ႏွစ္ၾကာပါတယ္။ အဲဒီကာလေတြအတြင္းမွာ အေၾကာင္းျပခ်က္ခိုင္လုံရင္ ျပင္ခြင့္ ကန႔္ကြက္ခြင့္ ရွိပါတယ္။ အဲဒါေတြအားလုံး ၿပီးသြားေတာ့မွ အတည္ျပဳတဲ့ ဗားရွင္းတစ္ခုရပါတယ္။ အခု ဗားရွင္း 5.2 မွာ ဗမာစာအတြက္ ျပင္စရာ ကုန္သေလာက္ျဖစ္သြားပါၿပီ။ ဒါေၾကာင့္ စိတ္ခ်သုံးလို႔ ရပါၿပီလို႔ ေျပာေနၾကတာပါ။ လူသိနည္းတဲ့ တိုင္းရင္းသားစာေတြ ထည့္ဖို႔ရွိလာတယ္ဆိုလည္း အခုရွိၿပီးသားအကၡရာေတြရဲ့ ေနာက္မွာ ထပ္ထည့္သြား႐ုံပါပဲ။ ဒီေလာက္ဆိုရင္ ဒြိဟျဖစ္ေနသူ အေတာ္မ်ားမ်ား ရွင္းသြားေလာက္ၿပီ ထင္ပါတယ္။
@=={Lionslayer>
22/01/2011
Ref:
· All Myanmar Unicode Proposals and revisions (1996-2008)
· A HISTORY OF THE MYANMAR ALPHABET (1994)
· Myanmar - The Unicode Standard (6.0)
· Han Unification in the Unicode Standard
· Proposed PDAM for ISO/IEC 10646-1: 1993/Amd. xx: 1998 (E)
· Myanmar Unicode Research Papers & Reference Documents
· http://unicode.org/notes/tn11/UTN11_3.pdf
· http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3043.pdf
Credit to http://www.myanmarlanguage.org/unicode/unicode-Q-n-A
No comments:
Post a Comment
daweiit@gmail.com