Calm Hill My Random Thoughts

Topic Model and Tipitaka

အလုပ်မရှိ အလုပ်ရှာတယ်ပဲ ပြောပြောပေါ့ ကိုယ်လုပ်ချင်တာ လုပ်နေရရင် အိပ်ရေးပျက်လည်း ပျက်မှန်းမသိဘူး အချိန်လေးနည်းနည်းရလို့ Text Mining တွေပြန်ဖတ် လျှောက်စမ်းကြည့်နဲ့ တခါလာလည်း English Corpus တွေနဲ့ သံသရာလည်နေတော့ သိပ်ပြီးတော့ စိတ်မဝင်စားတာနဲ့ မဖြစ်သေးဘူးဆိုပြီး ထွက်ပေါက်ရှာတော့ လွန်ခဲ့တဲ့နှစ်ထဲက လုပ်ထားတဲ့ တိပိဋိက မြန်မာပြန်တွေကို Tipitaka Cropus ဆိုပြီး Text Corpus လုပ်ထားတာ ပြန်သတိရတာနဲ့ Topic Model တခုခုကို စမ်းကြည့်ဖို့အကြံရတယ်။

Data အနေနဲ့ကတော့ Sutta Central ထဲမှာရှိတဲ့ မြန်မာဘာသာပြန်တွေကို သင့်လျော်သလို Process လုပ်ပြီးထားတာ Data တွေအတွက်က ဦးဇင်း ငနုချောင်းသားကို ကျေးဇူးတင်ရမယ် ဦးဇင်းနဲ့ အရင်နှစ်ထဲက စကားပြောဖြစ်ကြရင်းနဲ့ ပိဋိကတ်ကို ပါဠိလိုကနေ မြန်မာပြန်အထိ ရှိတာတွေကို နမူနာပြလို့ လိုက်ရှာရင်းနဲ့ Sutta Central ရဲ့ Repo ကိုရောက်ပြီးတော့ Text Corpus လုပ်ဖို့ စိတ်ကူးရတာနဲ့ လုပ်ထားဖြစ်ခဲ့တယ်။

Topic Model ဆိုတာကတော့ အလွယ်ပြောရရင်တော့ Text တွေကို Statistically ပဲဖြစ်ဖြစ် Probabilistically ပဲဖြစ်ဖြစ် Analyze လုပ်ပြီးတော့ Text တွေဟာ ဘာအကြောင်းအရာကို ဆိုလိုလဲဆိုပြီး ခေါင်းစဉ်ခွဲပေးတာလို့ ပြောရင်ရမယ်။ Topic Model အမျိုးမျိုးထဲကမှ လူသုံးများတဲ့ Latent Dirichlet Allocation (LDA) ကိုသုံးပြီး စမ်းကြည့်ထားတယ် ဘယ်လိုအလုပ်လုပ်လဲ သိချင်ရင်တော့ ကိုယ့်ဟာကိုယ်ရှာဖတ်ပါ။ Text Processing မှာ အခြေခံအကျဆုံးဖြစ်တဲ့ Tokenization ကိုက မြန်မာစာအတွက် အတော်အခက်အခဲရှိတော့ သိပ်ပြီးတော့ကောင်းတဲ့ Result ထွက်လာမယ်တော့ မျှော်လင့်မထားခဲ့မိဘူး။

Data

https://github.com/suttacentral/suttacentral-data

Topics - မဇ္ဈိမနိကာယ်

Tokenization ကို Whitespace နဲ့ပဲဖြတ်လိုက်တယ် အဖြေတွေထွက်လာတော့ သိပ်ပြီးတော့မဆိုးဘူး ခံစားမိတယ် ဒါပေမယ့် ထွက်လာတဲ့ Result ကတော့ Stop Words တွေအတော်ပါတော့ Token တွေကို “ဖြစ်၏” “နှင့်” “ထို” “သို့သော်” စသည်ဖြင့် Stop Words List လုပ်ပြီး Filter လိုက်တော့ အခြေအနေက အတော်လေး တိုးတက်လာတယ် ထပ်ပြီးတော့ လုပ်စရာတွေက အများကြီးရှိပါတယ် အချိန်ရမှ စမ်းကြည့်ရမယ်။ အပေါ်ကပုံက မဇ္ဈိမနိကာယ်ကို LDA နဲ့ Topic ထုတ်ပြီးတော့ Visualized လုပ်ထားတာ သာမန်ဖတ်ကြည့်တာတော့ အဓိပ္ပာယ်မရှိတဲ့ Topic တွေ ထွက်လာတယ်တော့မဟုတ်ဘူး ဖတ်ကြည့်ရင် သာမန်လူအတွက် အဓိပ္ပာယ်က အထိုက်အလျောက် ရှိတယ်လို့ ယူဆလို့ရတယ်။ ကောင်းပါတယ်လို့ ပြောဖို့ဆိုတာက ကိုယ့်အခြေအနေက Field Expert မဟုတ်တာရယ် တကယ်တမ်း Statistically evaluate လုပ်မကြည့်တော့ ကောင်းတယ်မကောင်းဘူး တကယ်တမ်းပြောဖို့ကတော့ မသင့်သေးပါဘူး။