Topics and Topic Prevalence by Dataset

Before Election Data

Topic	Prevalence	Top Terms
T0	20.90%	ধানের, শীষ, মানুষ, ইনশাআল্লাহ, নাই, তারেক, চোর, খুনি, তুই, বিজয়
T4	20.53%	ইনশাআল্লাহ, বিএনপি, জিতবে, নাই, করতে, বি, জয়, দলে, জনগণ, ভালো
T2	20.48%	ভোট, জিন্দাবাদ, ধানের, চাঁদাবাজ, বাংলাদেশ, তারেক, রহমান, বলে, দিবে, শীষে
T1	19.31%	মানুষ, ভাই, হাদী, ঢাকা, বাটপার, জনগণ, চাই, দল, নাহিদ, রাম
T3	18.78%	আব্বাস, চান্দা, মির্জা, মনে, বিএনপি, থাকবে, খাম্বা, আপনারা, ভাই, ঠিক

Post Election Data upto Forming Government

Topic	Prevalence	Top Terms
T0	23.19%	ঠিক, হলো, কাজ, মনে, লাভ, তেল, এত, নাই, নোটিশ, কোন
T4	20.90%	সমঝোতা, চাঁদা, বলে, সমঝোতার, ভাই, নাই, খেলা, চাদা, খা, হা
T1	19.87%	রাষ্ট্রপতি, ভালো, দরকার, মন্ত্রী, নতুন, চাই, উনি, বিষয়ক, সংবিধান, জুলাই
T3	18.78%	হোক, দেওয়া, সে, কোন, করতে, আবার, মানুষ, ডিম, বড়, শাহরিয়ার
T2	17.28%	আলহামদুলিল্লাহ, শেষ, দেশের, ঘাট, হাট, মারা, ঘেরাও, সারা, নাম, good

After Forming Government Data

Topic	Prevalence	Top Terms
T3	22.01%	কষ্ট, বলে, তোর, খান, বেশি, তোমাদের, ভাই, নাই, গাড়ির, দেয়
T0	21.00%	খাও, খা, ভালো, তুই, নাই, নেতা, মনে, জুলাই, হোক, পিছনে
T4	20.03%	ঠিক, ভাই, খাওয়ার, জ্বালা, চাই, অধিকার, খেতে, বলেছেন, যান, ভোট
T1	19.84%	হাট, ঘাট, খাইতে, বছর, ভাই, আপনারা, কোন, খেয়ে, দরদ, আহারে
T2	17.13%	খাবে, খাবেন, তাহলে, আপনাদের, টয়লেট, অবশ্যই, বাহ, সমস্যা, সমঝোতা, সুন্দর

Topic prevalence means how much a topic appears overall in a dataset.

In each dataset, each comment gets a probability distribution across topics (from LDA), and prevalence is the average probability of a topic across all comments in that dataset.

So if Topic 2 has prevalence of 21%, it means roughly 21% of the context of data from the particular dataset aligns with Topic 2.