«

»

জানু. 21

পরিসংখ্যান পরিচিতি – লেকচার ৭ – তুলনামূলক অবস্থান ও z-score

[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]

তুলনামূলক অবস্থান ও z-score (Relative standing and z-score)

এনায়েতুর রহীম

এ পর্বে যা থাকছে

আজকের আলোচনার বিষয় z-score. এর মাধ্যমে ড্যাটার কোন একটি সংখ্যার তুলনামুলক অবস্থান নির্ণয় করা যায়। z-score বের করে ড্যাটাকে স্ট্যান্ডারডাইজ করা হয়।

পূর্বালোচনা

গত পর্বে আমরা ভ্যারিয়েশন ও তার পরিমাপ সম্পর্কে জেনেছিলাম। ভেদের পরিমাপ হিসেবে আমরা ভ্যারিয়্যান্স, স্ট্যান্ডার্ড ডেভিয়েশন ও রেঞ্জ সম্পর্কে  আলোচনা করেছিলাম।

তুলনামূলক অবস্থান কী?

কেন্দ্রীয় প্রবণতার পরিমাপ হিসেবে আমরা গড় কি তা জানি। আবার ভেদের পরিমাপ হিসেবে ভ্যারিয়্যান্স এবং পরিমিত ব্যবধান বা Standard deviation সম্পর্কেও জানি। গড় কোন ড্যাটার কেন্দ্র কোথায় তা নির্দেশ করে। পরিমিত ব্যবধানের মাধ্যমে কোন ড্যাটায় সংখ্যাগুলো কেন্দ্রীয় সংখ্যা (গড়) থেক গড়ে কত দূরে অবস্থান করছে সেটা আমরা জানতে পারি। এই দুটি পরিমাপ জানা থাকলে কোন ড্যাটা সম্পর্কে আমরা আরো বেশি তথ্য বের করে আনতে পারি। কিভাবে সেটা করা যায় এ পর্বে সেটা নিয়ে আলোচনা করবো।

প্রথমেই একটি উদাহরণ চিন্তা করি।

ধরা যাক একজন ছাত্রের ফাইনাল পরীক্ষায় দুটি বিষয়ের প্রাপ্ত নম্বর এরকম।

গণিত ৮০
ইংরেজী ৭০

প্রতিটি বিষয়ের মোট নম্বর ১০০. আমরা যদি জানতে চাই ছাত্রটি কোন বিষয়ে তুলনামূলকভাবে ভালো করেছে তাহলে সেটা কিভাবে আমরা জানতে পারবো? সাধারণত আমরা এ ক্ষেত্রে যেটা করি তা হলো ছাত্রটির প্রাপ্ত নম্বরকে প্রতিটি বিষয়ের সর্বোচ্চ নাম্বারের সাথে তুলনা করি। অর্থাৎ ছাত্রটি সর্বোচ্চ নম্বরের কত কাছে বা দূরে আছে তার ভিত্তিতে বলতে পারি সে প্রতিটি বিষয়ে কেমন করেছে।

আরেকটি ভাবে আমরা তুলনাটি করতে পারি। সেটি হলো ছাত্রটি প্রতিটি বিষয়ের গড় নম্বর থেকে কত উপরে বা নিচে আছে সেটা বের করতে পারি। অর্থাৎ বিষয়ভিত্তিক গড় নম্বরের সাথে তার প্রাপ্ত নম্বরের একটা তুলনার মাধ্যমে তার পারফরমেন্স আমরা নির্ণয় করতে পারি। নিচের সারণি দেখুন।

 

প্রাপ্ত নম্বরগড় নম্বরসিদ্ধান্ত
গণিত ৮০৮৫গড় থেকে ৫ নম্বর কম (ভালো করেছে)
ইংরেজী ৭০৭৬গড় থেকে ৬ নম্বর কম

 

এভাবে তুলনা করে আমরা ছাত্রটির পারফরমেন্সের তুলনামূলক একটা চিত্র পাই, কিন্তু পুরোপুরি ধারণা পাই না। কেননা প্রতিটি বিষয়ের প্রাপ্ত নম্বরের মধ্যে ভ্যারিয়েশন কেমন সেটা একটা গুরুত্বপূর্ণ বিষয় (এ বিষয়ে আমরা গত পর্বে জেনেছি). লক্ষ্য করলে দেখতে পাই তিনটি বিষয়ের প্রতিটির মোট নম্বর ১০০ হলেও তাদের গড় কিন্তু এক নয়। তাই এভাবে গড়ের সাথে তুলনা করে ছাত্রটি গণিতে বেশী ভালো করেছে নাকি ইংরেজীতে বেশী ভালো করেছে তা সঠিকভাবে বলা যাবে না।

গড়ের সাথে তুলনার এই সমস্যা থেকে পরিত্রাণের জন্য আমরা তুলনার সময় পরিমিত ব্যবধানকেও ব্যবহার করব। আমরা প্রতিটি নম্বর সেই বিষয়ের গড় থেকে কত দূরে আছে তা বের করে পরিমিত ব্যবধান দিয়ে ভাগ করব। এর ফলে আমরা যে দূরত্ব পাবো তার একক হবে পরিমিত ব্যবধান। অর্থাৎ প্রতি পরিমিত ব্যবধানে ছাত্রটি গড় থেকে কত দূরে অবস্থান করছে সেটা অনেক ভালো একটি পরিমাপ। ব্যাপারটা ভালোভাবে বোঝার জন্য নিচের উদাহরণটি লক্ষ্য করি।

ধরি গণিতের গড় ৮৫ এবং পরিমিত ব্যবধান (standard deviation) ২.৫. তাহলে ছাত্রটি গড় থেকে (৮০-৮৫= -৫) পাঁচ নম্বর নিচে অবস্থান করছে। এটিকে যদি পরিমিত ব্যবধান (২.৫) দিয়ে ভাগ দেই তাহলে আমরা দেখি যে ছাত্রটি গড় থেকে ২ পরিমিত ব্যবধান নিচে অবস্থান করছে। গড়ের সাথে তুলনা করে পরিমিত ব্যবধানের ইউনিটে প্রকাশ করার এই প্রক্রিয়াকে তুলনামূলক অবস্থান বা relative standing বলে। আর এভাবে প্রাপ্ত তুলনামূলক অবস্থানকে জেড-স্কোর (z-score) (আমেরিকায় জি-স্কোর) বলে।

z-score বের করার সূত্রটি হলো:

z-score বের করার সূত্র

z-score বের করার সূত্র

অর্থাৎ ছাত্রাটির গণিতের z-score হলো

(৮০-৮৫)/২.৫ = -৫/২.৫ = -২ (নেগেটিভ ২)

অর্থাৎ ছাত্রটি গড় থেকে ২ পরিমিত ব্যবধান নিচে অবস্থান করছে।

এখন আমরা নিচের সারণিতে পরিমিত ব্যবধান বিবেচনা করে দুটি বিষয়ের প্রাপ্ত নম্বরের z-score বের করে দেখবো ছাত্রটি আসলে কোনটিতে কেমন করেছে।

 

প্রাপ্ত নম্বর

গড় নম্বর

পরিমিত ব্যবধান

(Standard deviation)

জেড-স্কোর

(z-score)

আগের সিদ্ধান্ত

নতুন সিদ্ধান্ত

গণিত

৮০

৮৫

২.৫

-২

গড় থেকে ৫ নম্বর কম

(ভালো করেছে)

গড় থেকে ২ পরিমিত ব্যবধান নিচে

ইংরেজী ৭০

৭৬

-১

গড় থেকে ৬ নম্বর কম

গড় থেকে ১ পরিমিত ব্যবধান নিচে

(ভালো করেছে)

 

তাহলে আমরা দেখলাম গণিতে গড় থেকে ৫ নম্বর কম এবং ইংরেজীতে গড় থেকে ৬ নম্বর কম পেলেও ছাত্রটি তুলনামুলক ভাবে ইংরেজীতে বেশী ভালো করেছে। কারণ পরিমিত ব্যবধানের বিবেচনায় ছাত্রটি ইংরেজীতে মাত্র ১ ইউনিট নিচে আছে। অন্যদিকে গণিতের ক্ষেত্রে সে ২ ইউনিট নিচে অবস্থান করছে।

তাহলে আমরা দেখলাম ছাত্রটি তুলনামূলকভাবে গণিতের তুলনায় ইংরেজীতে বেশি ভালো করেছে।

z-score ও standardization

z-score বের করার এই পদ্ধতি যখন ড্যাটার সবগুলো সংখ্যার উপর প্রয়োগ করা হয় তখন আমরা একটা নতুন ড্যাটা পাই। এই নতুন ড্যাটাকে স্ট্যান্ডারডাইজড (standardized) ড্যাটা বলে। স্ট্যান্ডারডাইজেশনের মাধ্যমে প্রাপ্ত ড্যাটাকে অন্য আরেকটি স্ট্যান্ডারডাইজড ড্যাটার সাথে তুলনা করা যায়। নিচের উদাহরণের মাধ্যমে আমরা তুলনার ব্যাপারটা বোঝার চেষ্টা করি।

ধরা যাক আপনি বাংলাদেশের একটি খ্যাতনামা বিশ্ববিদ্যালয়ের ‘ঞ’ বিষয় থেকে পড়াশুনা শেষ করেছেন। আপনার বন্ধুটি আরেকটি খ্যাতনামা বিশ্ববিদ্যালয়ের ‘ঙ’ বিষয় থেকে পড়াশুনা শেষ করেছেন। এরপর কর্মক্ষেত্রে দুজনই বেশ সাফল্য অর্জন করেছেন। দুজনের পড়াশুনার বিষয় ভিন্ন ভিন্ন। বাৎসরিক আয়ের পরিমানও ভিন্ন। নিচের সারণিতে আপনাদের দুজনের বাৎসরিক আয়ের পরিমান, প্রতিটি ফিল্ডের পেশার গড় বাৎসরিক আয় ও স্ট্যান্ডার্ড ডেভিয়েশন দেয়া হল।

 

বিষয়

বাৎসরিক আয়

গড়

স্ট্যান্ডার্ড ডেভিয়েশন

ঞ (আপনি)

২৪ লাখ

২০ লাখ

৫.০ লাখ

ঙ (বন্ধু)

২০ লাখ

১৮ লাখ

১.৫ লাখ

 

আমাদের উদ্দেশ্য হলো আপনাদের দুজনের আয়ের তুলনা করা।

প্রথমেই লক্ষ্য করুন যে দুজনের বিষয় আলাদা আর তাই সরাসরি তুলনা করাটা সঠিক হবে না। আমরা যেহেতু দুধরনের পেশার জন্য  বাৎসরিক গড় আয় ও তার স্ট্যান্ডার্ড ডেভিয়েশন জানি, সেজন্য দুজনের আয়ের তুলনা করতে আমরা z-score ব্যবহার করতে পারি।

নিচের সারণিতে আমরা দুজনের আয়ের তুলনামূলক অবস্থান দেখি।

 

বিষয়

বাৎসরিক আয়

পেশায় গড় আয়

স্ট্যান্ডার্ড ডেভিয়েশন

z-score

ঞ (আপনি)

২৪ লাখ

২০ লাখ

৫.০ লাখ

(২৪-২০)/৫ = ০.৮

ঙ (বন্ধু)

২০ লাখ

১৮ লাখ

১.৫ লাখ

(২০-১৮)/১.৫ = ১.৩

 

আমরা দেখতে পেলাম আপনি বন্ধুর চেয়ে বছরে ৪ লাখ বেশি আয় করলেও তুলনামুলক বিচারে আপনি তার থেকে নিচে অবস্থান করছেন। অর্থাৎ আপনার ফিল্ডে আপনি অন্যদের তুলনায় অনেক কম আয় করছেন। অপরদিকে আপনার বন্ধু তার ফিল্ডে তুলনামুলকভাবে অনেক বেশী আয় করছেন।

z-score ও বালির ঢিবি

পরিসংখ্যানে এই z-score এর গুরুত্ব অপরিসীম। সেটা আমরা আস্তে আস্তে বুঝতে পারবো। বিশেষ করে যখন হাইপোথিসিস টেস্ট করব তখন।

z-score  প্রায় সব ধরনের ড্যাটার ক্ষেত্রেই ব্যবহার করা যায়। তবে বালির ঢিবির আকৃতির ড্যাটা যেটি প্রায় প্রতিসম (symmetric) সেরকম ড্যাটার জন্য এটি সবচেয়ে কার্যকর। z-score  এর মান নেগেটিভ অসীম থেকে পজিটিভ অসীম পর্যন্ত হতে পারে। অর্থাৎ z-score   = – ১০ হতে পারে  আবার  z-score = ৫ হতে পারে। কোন ড্যাটা ডিস্ট্রিবিউশনের শেইপ যদি প্রতিসম এবং বালির ঢিবির আকৃতির হয় তাহলে সেই ড্যাটার প্রায় ৬৮% সংখ্যার z-score  -১ থেকে +১ এর মধ্যে হয়, ৯৫% সংখ্যার z-score -২ থেকে +২ এর মধ্যে হয়,  আর প্রায় ৯৯% সংখ্যার z-score  হয় -৩ থেকে + ৩ এর মধ্যে।

 

এমপিরিক্যাল নিয়ম

z-score ও Empirical Rule

z-score  এর ধারণা ব্যবহার করে আমরা কোন ড্যাটার সংখ্যাগুলো সম্পর্কে একটা ধারণা করতে পারি। ড্যাটার শেইপ যদি বালির ঢিবি আকৃতির এবং প্রতিসম হয় তাহলে সেই ড্যাটার গড় এবং স্ট্যান্ডার্ড ডেভিয়েশন ব্যবহার করে আমরা Empirical Rule ব্যবহার করে এটা করতে পারি। Empirical Rule হল:

ড্যাটার শেইপ যদি বালির ঢিবির মত হয় আর সেটি যদি প্রায় প্রতিসম হয় (প্রতিসম হলে খুবই ভাল) তাহলে—

১) প্রায় ৬৮% সংখ্যা (গড়  – ১ স্ট্যান্ডার্ড ডেভিয়েশন) থেকে (গড় + ১ স্ট্যান্ডার্ড ডেভিয়েশন) এই ইন্টারভালের মধ্যে থাকে।

২) প্রায় ৯৫% সংখ্যা (গড়  – ২ স্ট্যান্ডার্ড ডেভিয়েশন) থেকে (গড় + ২ স্ট্যান্ডার্ড ডেভিয়েশন) এই ইন্টারভালের মধ্যে থাকে।

১) প্রায় ৯৯.৭% সংখ্যা (গড়  – ৩ স্ট্যান্ডার্ড ডেভিয়েশন) থেকে (গড় + ৩ স্ট্যান্ডার্ড ডেভিয়েশন) এই ইন্টারভালের মধ্যে থাকে।

উদাহরণ

বাংলাদেশের ২৫-৪৯ বছর বয়সি মেয়েদের গড় উচ্চতা প্রায় ৫৯ ইঞ্চি[1]। ধরা যাক এই উচ্চতার স্ট্যান্ডার্ড ডেভিয়েশন ২ ইঞ্চি। তাহলে এমপিরিক্যাল নিয়ম ব্যবহার করে আমরা বলতে পারি—

 

যত স্ট্যান্ডার্ড ডেভিয়েশন

ইন্টারভাল

এই উচ্চাতার মেয়েদের

শতকরা সংখ্যা

(৫৯ – ১×২, ৫৯ + ১×২) = (৫৭, ৬১)

৬৮%

(৫৯ – ২×২, ৫৯ + ২×২) = (৫৫, ৬৩)

৯৫%

(৫৯ – ৩×২, ৫৯ + ৩×২) = (৫৩, ৬৫)

৯৯.৭%

 

২৫-৪৯ বছর বয়সী প্রায় ৬৮% মেয়েদের উচ্চতা ৫৭ ইঞ্চি থেকে ৬১ ইঞ্চির মধ্যে; প্রায় ৯৫% মেয়েদের উচ্চতা ৫৫ থেকে ৬৩ ইঞ্চির মধ্যে; আর প্রায় ৯৯.৭% মেয়েদের উচ্চতা ৫৩ থেকে ৬৫ ইঞ্চির মধ্যে।

আগের লেকচার-এর লিংক

ভূমিকা

লেকচার ১ – উপাত্ত সংগ্রহ

লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা

লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)

লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ

লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ

লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ 

কোর্সের সূচনা পাতা

Comments

comments

About the author

এনায়েতুর রহীম

পরিসংখ্যান নিয়ে আছি প্রায় দুই দশক -- এখনো শিখছি--পড়ে এবং পড়ানোর মাধ্যমে। ঢাকা বিশ্ববিদ্যালয় থেকে ফলিত পরিসংখ্যানে ব্যাচেলরস, মাস্টার্স। গবেষণা মূলত গাণিতিক পরিসংখ্যান নিয়ে। বিশেষভাবে কাজ করি রিগ্রেশন মডেলে Shrinkage and Absolute Penalty Estimation নিয়ে। আরো কাজ করি পরিসংখ্যান বিষয়ক সফটওয়্যার, মন্টি কারলো, রিস্যাম্পলিং, জনস্বাস্থ্য ও এপিডেমিওলজি, এবং পরিবেশ বিষয়ক পরিসংখ্যানে। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে ইউনিভার্সিটি অব নর্দার্ন কলোরাডো তে ফলিত পরিসংখ্যানের সহকারী অধ্যাপক হিসেবে কর্মরত। ব্যক্তিগত সাইট

1 ping

  1. পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events

    […] লেকচার ৭ – তুলনামূলক অবস্থান ও z-score […]

Leave a Reply