«

»

নভে. 15

পরিসংখ্যান পরিচিতি – লেকচার-১- উপাত্ত সংগ্রহ

[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]

পরিসংখ্যান পরিচিতি- লেকচার ১

 

ভিডিও-ডাউনলোড লিংক

3gp ফরম্যাট

লেকচার১-১ (৩ মেগা)
লেকচার ১-২ (৩.১৭ মেগা)
লেকচার ১-৩ (২ মেগা)
লেকচার ১-৪ (৩.৭৫ মেগা)
লেকচার ১-৫ (২.৫ মেগা)

MP4 ফরম্যাট

লেকচার১-১ (২১ মেগা)
লেকচার ১-২ (২৪ মেগা)
লেকচার ১-৩ (১৩ মেগা)
লেকচার ১-৪ (২৮ মেগা)
লেকচার ১-৫ (১৫ মেগা)

 [আপনি যদি ভিডিও নাও দেখতে পান, শুধু বর্ণনা পড়েই পুরো টপিক ভালোমত বুঝতে পারবেন বলে আশা করছি।তবে জরিপে অংশ নিতে ভুলবেন না]

পরিসংখ্যান শব্দটি শুনলেই প্রথমে আমাদের মনে যে বিষয়টি ভেসে ওঠে সেটি হচ্ছে কতগুলো সংখ্যা বা number যা দিয়ে আমরা কোন একটি বিষয়ের একটা সারাংশ প্রকাশ করছি। যেমন- যেদিন এসএসসি বা এইচএসসি পরীক্ষার ফল প্রকাশিত হয় তার পরের দিন সকল পত্র-পত্রিকায় খবর বের হয় পাশের হার ৮০% কিংবা পাশের হার ৮৫%, ইত্যাদি। অথচ আপনার ভাই বা আপনি পাশ করেছেন সেটা নিয়ে কিন্তু কোন খবর বের হয়না। এই যে পাশের শতকরা হার—এটি একটি পরিসংখ্যান। আর এই পরিসংখ্যার বের করতে জানতে হয়েছে কত জন  শিক্ষার্থী পরীক্ষাং অংশগ্রগণ করেছেন আর তাদের মধ্যে কত জন পাশ করেছে তার অনুপাত, যেটিকে শতকরায় প্রকাশ করা হয়েছে। অর্থাৎ কোন বিশেষ ছাত্র বা ছাত্রী পাশ করেছে কিনা সেটা নয় বরং মোটের উপর প্রতি একশ জনে কত জন পাশ করেছে সেটিই মুখ্য।

পরিসংখ্যানের ব্যাপারটাই এরকম। আমরা প্রায় সব ক্ষেত্রেই জানতে চাই “মোটের উপর” কি হয়েছে সেটা। আরো নির্দিষ্ট করে বললে বলতে হয় আমরা জানতে চাই সমগ্র জনগোষ্ঠীতে বিষয়টি কেমন– সে সম্পর্কে।

 

 

জনগোষ্ঠী (Population) কী?

সাধারণ অর্থে জনগোষ্ঠী বলতে মানুষ বোঝালেও পরিসংখ্যানের ভাষায় জনগোষ্ঠী বলতে কোন কিছুর সমষ্টি বোঝায়। যেমন এসএসসি পরীক্ষায় যত শিক্ষার্থী অংশগ্রহণ করেছে তারা একটি জনগোষ্ঠী (Student population)। তেমনি সুন্দর বনের সবগুলো বাঘকে আমরা বলবো বাঘের জনগোষ্ঠী (Tiger population). আমরা যদি বলি সুন্দর বনে ৪০% বাঘ আর বাকী ৬০% বাঘিনী, তাহলে বুঝতে হবে আমরা সুন্দর বনের সকল বাঘের কথাই বলছি, শুধু বুড়িগোয়ালীনির বাঘের কথা বলা হচ্ছে না। বলা হচ্ছে সমগ্র সুন্দরবনে যত বাঘ আছে তার ৪০ শতাংশ বাঘ (tiger) আর ৬০ শতাংশ বাঘিনী (tigress).

সুন্দর বনে কতগুলো বাঘ আছে?

কত গুলো বাঘ আছে সেটা জানতে গেলে আমাদের জানতে হবে ‘বাঘ’ বলতে আমরা কী বোঝাচ্ছি। এটা কি রয়েল বেঙ্গল বাঘের কথা বোঝাচ্ছি, নাকি মেছো বাঘ, নাকি গেছো বাঘ, নাকি অন্য কোন বাঘ বোঝাচ্ছি? এটি পরিস্কার করে জানতে হবে।

আচ্ছা ঠিক আছে, ধরা যাক রয়েল বেঙ্গলের কথাই বলছি।

সুন্দর বনের বাঘের সংখ্যা দুই ভাবে জানা যেতে পারে—

১) আপনি নিজে (সাথে দলবল নিয়ে গেলেও সমস্যা নেই) সুন্দরবনে গিয়ে বাঘ গুনবেন।
২) আগে কেউ কোন না কোন ভাবে বাঘের সংখ্যা গুনেছেন, আপনি সেখানে থেকে এই তথ্য নিবেন।

প্রাথমিক উপাত্ত ও সেকেন্ডারি উপাত্ত (Primary data and secondary data)

সহজ কথায় আপনি বা অন্য কেউ যদি নিজে কোন উপাত্ত সংগ্রহ করেন, সেটিই প্রাইমারি উপাত্ত বা প্রাথমিক উপাত্ত। যেমন আপনি সুন্দর বনের ৫০টি হটস্পটে (যেখানে বাঘের আনাগোনা বেশী) গিয়ে বাঘ গুনলেন (নমুনা নিলেন।) তারপর সেখান থেকে গাণিতিক সমীকরণের মাধ্যমে বের করলেন যে মোট বাঘের সংখ্যা প্রায় ৩০০টি। তো এটিই হল প্রাইমারি উপাত্ত—যে উপাত্ত সরাসরি সংগ্রহ করা হলো।

এখন আপনি যে উপাত্ত সংগ্রহ করলেন এবং সেটি কোথাও না কোথাও প্রকাশ করলেন এবং সেখান থেকে আমি তথ্য নিয়ে বললাম যে সুন্দর বনের খুলনা অংশে প্রায় ৪০টি বাঘ আছে—এটি সেকেন্ডারি উপাত্তের উদাহরণ।

কোনটি প্রাথমিক উপাত্ত আর কোনটি সেকেন্ডারি উপাত্ত সেটি উপাত্তের সোর্স (source) থেকেও জানা যেতে পারে। যেমন, প্রাথমিক সোর্স থেকে যদি উপাত্ত সংগ্রহ করা হয় সেটা হবে প্রাথমিক উপাত্ত (উদাহরণ – সুন্দরবন থেকে সংগ্রহ করা উপাত্ত),  তেমনি আপনার সংগ্রহ করা উপাত্ত নিয়ে আমি যদি কোন কাজ করতে চাই সেটি আমার কাছে সেকেন্ডারি সোর্স হিসেবে বিবেচিত হবে এবং এই উপাত্তকে আমি বলবো সেকেন্ডারি উপাত্ত। কারণ আমি সরাসরি সুন্দরবন থেকে (অর্থাৎ প্রাইমারি সোর্স থেকে) উপাত্ত সংগ্রহ করিনি।

অন্যভাবে বলা যায়- প্রাইমারি উপাত্তকে ঘষে মেঝে পরিস্কার করার পরে যখন সেটিকে প্রকাশ করা হয়, সেটি সেকেন্ডারি উপাত্তে পরিণত হয়।

আমরা দেখলাম–পরিসংখ্যানে আমরা এক বা একাধিক প্রশ্নের উত্তর খোঁজার চেষ্টা করি। এবং এই উত্তর দেয়া হয় উপাত্ত বিশ্লেষণ করে–কোন অনুভূতি বা ভাবনা থেকে নয়। ‘আমার মনে হল আর আমি বলে দিলাম ব্যাপারটা এরকম হবে’ –পরিসংখ্যান ব্যাপারটা তেমন নয়। উপাত্ত নেই তো গুরুত্বও নেই। (তবে মনে রাখা ভালো সবকিছুর উত্তর কিন্তু পরিসংখ্যান দিয়ে খোঁজা ঠিক নাও হতে পারে।)

 

নমুনা সম্পর্কে ধারণা

নমুনা কি? উত্তরটি আমাদের জানা। ধরুন আপনি বাজারে গেলেন আঙুর কেনার জন্য। দোকানি আঙুর নিয়ে বসে আছে—থোকায় থোকায় আঙুর। আপনি তো মিষ্টি আঙুরই চান, তাই না? টক চাইলেও সমস্যা নেই, পদ্ধতি একই। আপনি একটা বা দুইটা আঙুর চেখে দেখবেন টক না মিষ্টি। আপনি কোন আঙুরটি নমুনা হিসেবে বেছে নিবেন তা জানি না, তবে আমি সেই ঝুরি থেকে বেছে নেব যেটিকে দেখে মনে হয় এটাই সবচেয়ে টক আঙুরের ঝুরি। এই আঙুর যদি মিষ্টি হয় তো সবগুলোই মিষ্টি হবে। অর্থাৎ আমি আমার বুদ্ধি (নাকি নির্বুদ্ধিতা?) খাটিয়ে ঠিক করলাম কোন আঙুরটা চেখে দেখবো।

এই উদাহরণে আমরা দুটি জিনিস দেখলাম—এক- সবগুলো আঙুর না চেখে শুধু একটি বা দুটি বা তিনটি আঙুর চেখে আমরা সবগুলো আঙুর সম্পর্কে একটা ধারনা করা চেষ্টা করলাম। দুই- চেখে দেখার জন্য আঙুর বাছাই করার সময় বিবেচনার আশ্রয় নিলাম। অনেক সময় বিবেচনা না থাকলে (অর্থাৎ অবিবেচক হলে) আপনি দোকানিকেই জিজ্ঞেস করবেন—ভাই কোন আঙুরগুলো ভালো হবে।তারপর সিদ্ধান্ত নিবেন।

গাণিতিক পরিসংখ্যানের মূল কাজটিই হলো নমুনা থেকে জনগোষ্ঠী সম্পর্কে সিদ্ধান্ত নেয়া। উদাহরণস্বরূপ– কোন ঝুরির আঙুর ভালো হবে তা নমুনা পরীক্ষা করেই আমরা সিদ্ধান্ত নিয়েছিলাম। (তাহলে দেখতেই পারছেন পরিসংখ্যান আপনি আমি সবাই আমাদের দৈনন্দিন জীবনে প্রতিনিয়ত ব্যবহার করে যাচ্ছি।)

যেন তেন নমুনা দিয়ে কি সিদ্ধান্ত নেয়া যাবে?

না, যাবে না। নমুনার মধ্যে জনগোষ্ঠীর বৈশিষ্ট্যসমূহ থাকতে হবে। অর্থাৎ নমুনাকে হতে হবে representative of population. নমুনা থেকেই আমরা যেন পুরো জনগোষ্ঠী সম্পর্কে  ধারণা করতে পারি, সেরকম নমুনা চয়ন করতে হবে।

বাঘের উদাহরণটা আবারো চিন্তা করুন। আপনি ঠিক করলেন সুন্দরবনের বুড়িগোয়ালিনি ফরেস্ট রেঞ্জে গিয়ে বাঘের নমুনা নিবেন। সেখানে তিন রাত থেকে বাঘ গুনে এসে বলে দিলেন সুন্দরবনে ১৬টি বাঘ আছে। সেটা কি ঠিক হবে? হবে না। কারণ আপনি সুন্দরবনের একটা নির্দষ্ট জায়গা থেকে বাঘ গুনে এসে বলতে পারেন না যে পুরো সুন্দরবনে ১৬টি বাঘ আছে।

তার মানে নমুনা চয়ন করার কিছু পদ্ধতি আপনাকে অনুসরণ করতে হবে।

 

নমুনা চয়ন (Selection of sample)

নমুনাতে জনগোষ্ঠীর বৈশিষ্ট্যসমূহের প্রতিফলন দেখতে চাইলে নমুনাকে নির্বাচন করতে হবে নিরপেক্ষ ভাবে। অর্থাৎ কোন্ নমুনাটি আপনি বাছাই করবেন তা আপনার মতামত/চিন্তা/ইচ্ছা/ভাবনা দ্বারা নির্ধারিত হবে না। নমুনা বেছে নিতে হবে নিরপক্ষভাবে—পরিসংখ্যানের ভাষায় যাকে বলে unbiased ভাবে। সেটি সম্ভব হতে পারে যদি নমুনা সংগ্রহ করা হয় দৈব চয়নের মাধ্যমে। ইংরেজিতে দৈব চয়নকে বলে বলে – random sampling বা random selection.

দৈব চয়ন না করলে সমস্যা কি?

সমস্যা তো অনেক। প্রথম সমস্যা হলো নমুনাতে আপনার ইচ্ছার প্রতিফলন ঘটবে। আপনি না চাইলেও আপনার অজান্তেই  ঘটবে।সংক্ষেপে একটা উদাহরণ দিয়ে বোঝার চেষ্টা করি —

ধরা যাক একটা বড় বয়াম ভর্তি প্রায় হাজার খানেক মার্বেল আছে; লাল মার্বেল আর নীল মার্বেল। আপনি ঠিক করলেন এখান থেকে নিরপেক্ষভাবে ১০০টি মার্বেল বেছে নেবেন। তারপর সেগুলো দিয়ে কী করবো তা অন্য একটি উদাহরণের মাধ্যমে অন্য কোন লেকচারে আমারা জানার চেষ্টা করবো।

সমস্যা হলো, মার্বেলগুলো সব এক সাইজের না। কোনটার আকার প্রায় টেবিল-টেনিস বলের সমান, কোনটি আবার একেবারে পুঁথির মালার পুঁথির মতো ছোট। আপনি নিরপেক্ষভাবে বাছাই করতে চাইলেও যা হবে—

১) বড় মার্বেলগুলো সহজেই আপনার হাতে চলে আসবে।
২) কয়েকটা বড় মার্বেল নমুনাতে চলে আসলে আপনি ভাববেন এবার একটা ‘বড় নয়’ এমন মার্বেল  বাছাই করি।
৩) পরপর কয়েকটা লাল মার্বেল বাছাই করলে আপনার মন বলবে এবার একটা নীল বাছাই করি।

এভাবে আপনি ১০০টি মার্বেল বাছাই করলেন ঠিকই কিন্তু বাছাইকৃত মার্বেলগুলো এরকম নানা ভাবে পক্ষপাতদুষ্ট হয়ে পড়লো।

তাহলে বুঝতে পারছি আমাদের এমন একটা উপায় বের করতে হবে যাতে কোন্ মার্বেলগুলো বাছাই করা হবে তা কোন ভাবেই কোন কিছুর দ্বারা যেন প্রভাবিত না হয়।

সাধারণ দৈব চয়ন (Simple random sampling)

সিম্পল ড়্যান্ডম স্যমপ্লিং বা সাধারণ দৈব চয়ন এমন একটি নমুনা বাছাই করার পদ্ধতি যেখানে প্রত্যেকটি নমুনাকে বাছাই করার সম্ভাবনা সমান। অর্থাৎ জনগোষ্ঠীর যেকোন সদস্যই আপানার নমুনায় আসতে পারে এবং প্রত্যেক সদস্যের আপনার নমুনায় আসার সম্ভাবনা সমান।

নমুনা চয়নের এই পদ্ধতি খুবই সহজ ও সর্বাধিক ব্যবহৃত, কারণ এরকম নমুনা থেকে প্রাপ্ত উপাত্ত সহজে বিশ্লেষণ করা যায়। এধরনের নমুনা চয়ন পদ্ধতি সমাজ বিজ্ঞানের নানা শাখায় এবং দৈনন্দিন জীবনের নানা ক্ষেত্রে আমরা প্রায়ই ব্যবহার করি। উন্নত বিশ্বে নির্বাচনের আগে এবং পরে টেলিফোনের মাধ্যমে এধরনের জরিপ করা হয়ে থাকে। সম্প্রতি মার্কিন যুক্তরাষ্ট্রে নির্বাচনে অনেক প্রতিষ্ঠান ও নিউজ টিভি গুলো এরকম জরিপ পরিচালনা করেছে। আমাদের দেশে যদিও এর ব্যবহার এখনো তেমন দেখা যায়নি, ভবিষ্যতে হয়তো অনেকেই গবেষণার কাজে টেলিফোনের মাধ্যমে নমুনা সংগ্রহ করবেন।

এই কোর্সে আমরা একটা জরিপ পরিচালনা করবো। যদিও এই জরিপটি সাধারণ দৈব চয়নের সংজ্ঞায় পড়বে না, আমরা একটি প্রশ্নমালার মাধ্যমে কিছু উপাত্ত সংগ্রহ করবো এবং এর দ্বারা নিচের প্রশ্নগুলোর উত্তর খোঁজার চেষ্টা করবো।

ডামি গবেষক

ধরা যাক মতলব একজন সমাজ বিজ্ঞানী। তিনি ঠিক করলেন তার কিছু প্রশ্নের উত্তর জানা দরকার। প্রশ্নগুলো নিম্বরূপ:

প্রশ্নমালা (Research questions)

  •  কত শতাংশ ইন্টারনেট ব্যবহারকারী পত্রিকার অনলাইন ভার্সনে প্রচারিত বিজ্ঞাপনে ক্লিক করে?
  • বাংলাদেশের ইন্টারনেট ব্যবহারকারীদের মধ্যে পুরুষের সংখ্যা বেশী না মহিলার সংখ্যা বেশী?
  • বিজ্ঞাপনের মাধ্যম হিসেবে ফেইসবুক কেমন হতে পারে?
  • বাংলাদেশের অর্থনৈতিক উন্নয়নে প্রধান বাধা কোনটি এ বিষয়ে শিক্ষক ডট কমের শিক্ষার্থীদের মতামত কী?

প্রম্নগুলোর পাশাপাশি তার কিছু হাইপোথিসিস বা প্রকল্পও আছে। সেগুলো পরীক্ষা করতে হবে। প্রকল্পগুলো এরকম।

প্রকল্পসমূহ (Hypotheses)

  • বাংলা পত্রিকার অনলাইন সংষ্করণে প্রকাশিত বিজ্ঞাপনে কদাচিত কেউ ক্লিক করে। সেটা ১০% এর বেশী হবে না।
  • বাংলাদেশে ইন্টারনেট ব্যবহারকারীদের মধ্যে পুরুষের শতকরা সংখ্যা মহিলাদের শতকরা সংখ্যার চেয়ে বেশী।
  • ৮০% এর বেশী শিক্ষার্থী মনে করে অর্থনৈতিক উন্নয়নের প্রধান বাধা দুর্নীতি।

আসুন উপাত্ত সংগ্রহ করি 

আর্থার কোনোন ডয়েল -এর The Adventure of the Copper Beeches এর সেই বিখ্যাত ডায়ালগ–

Data, data, data, I cannot make bricks without clay.

এবার তাহলে ঝটপট নীচের জরিপে অংশ নিন। উপাত্ত না হলে তো মতলব তার প্রশ্নের উত্তর খুঁজে পাবে না। তার প্রকল্পগুলোরই বা কী হবে তখন!  তাই আপনাকে অনুরোধ করছি জরিপে অংশ নিয়ে উপাত্ত সংগ্রহে গবেষক মতলবকে সহায়তা করুন। জরিপটিতে ১ মিনিটের কম সময় লাগবে। সবাইকে আগাম ধন্যবাদ।

জরিপে অংশ নিতে এখানে ক্লিক করুন

Comments

comments

About the author

এনায়েতুর রহীম

পরিসংখ্যান নিয়ে আছি প্রায় দুই দশক -- এখনো শিখছি--পড়ে এবং পড়ানোর মাধ্যমে। ঢাকা বিশ্ববিদ্যালয় থেকে ফলিত পরিসংখ্যানে ব্যাচেলরস, মাস্টার্স। গবেষণা মূলত গাণিতিক পরিসংখ্যান নিয়ে। বিশেষভাবে কাজ করি রিগ্রেশন মডেলে Shrinkage and Absolute Penalty Estimation নিয়ে। আরো কাজ করি পরিসংখ্যান বিষয়ক সফটওয়্যার, মন্টি কারলো, রিস্যাম্পলিং, জনস্বাস্থ্য ও এপিডেমিওলজি, এবং পরিবেশ বিষয়ক পরিসংখ্যানে। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে ইউনিভার্সিটি অব নর্দার্ন কলোরাডো তে ফলিত পরিসংখ্যানের সহকারী অধ্যাপক হিসেবে কর্মরত। ব্যক্তিগত সাইট

Leave a Reply