একটা ধাঁধার মত ছোট্ট অঙ্ক দিচ্ছি, মন দিয়ে শুনুন।
ধরা যাক, আপনার পাড়ায় দুটো ইস্কুল, আদর্শ বিদ্যানিকেতন আর হরিপুর মেমোরিয়াল। দুই স্কুলের খুব রেষারেষি, কে কার থেকে বেশী ভালো সেই নিয়ে বিতণ্ডার শেষ নেই। আপনি আবার এই পাড়ার মোড়ল, ঠিক করলেন, একটু খতিয়ে দেখবেন কোথায় কত নম্বর উঠেছে বোর্ডের পরীক্ষায়। দেখতে গিয়ে যা পেলেন, তা হচ্ছে এই – হরিপুরের ছেলেরাও আদর্শের থেকে গড় নম্বর পেয়েছে বেশী, আবার মেয়েরাও বেশী… ধরা যাক, তাদের গড় নম্বর এই রকম (সব-ই মনগড়া)।
আপনি এই অব্দি দেখে লিখতে যাচ্ছেন ছেলে-মেয়ে দুই বিভাগেই আদর্শ একটু এগিয়ে, এমন সময় হরিপুরের হেডমাস্টার জিগ্যেস করে বসলেন, আলাদা-আলাদা করে নয়, সব মিলিয়ে কার কত? কী আশ্চর্য কাণ্ড, সব মিলিয়ে দেখলে হরিপুরের গড়ঃ ৮৩.২ আর আদর্শের গড়ঃ ৮১.৮ !
মানে সোজা কথায়, ছেলে-মেয়ে মিশিয়ে দেখলে হরিপুর এগিয়ে, অথচ আলাদা-আলাদা করে আদর্শ? এ কী করে সম্ভব?
মনগড়া আর-ও একটা উদাহরণ দিই? তবে এটা আমার বানানো নয়, বেকার ও ক্রেমার-বাবুর পেপার৪,৫ থেকে তোলা রীতিমত।
টেবিল-টা মন দিয়ে দেখুন। দুটি ট্রিটমেন্ট, এবং আগের মতন দুটিই গ্রূপ – পুরুষ-নারী। প্রথম সারিতে বলছে, শুধু পুরুষদের চিকিৎসায় ট্রিটমেন্ট ‘এ’-র সার্ভাইভাল রেট ৬০%, আর ‘বি’ এর কম (৫০%), আবার শুধু নারীদের চিকিৎসায়, ‘এ’ এবং ‘বি’ এর সার্ভাইভাল রেট যথাক্রমে ৯৫% ও ৮৫%, অর্থাৎ এই বেলাতেও ‘বি’-এর থেকে ‘এ’ ভালো?
এইবার একদম শেষ সারি-টি দেখুন – কম্বাইন করে দেখলে, উলটে গেছে হিসেবনিকেশ – সব মিলিয়ে ‘বি’ ৮০% আর ‘এ’ মাত্র ‘৭২%’। পেপারের টাইটেল ধার করে বললে, “গুড ফর উইমেন, গুড ফর মেন, ব্যাড ফর পিপল”?
এইবারে ধরুন আপনি ডাক্তার অথবা পেশেণ্ট, যদি বেছে নিতেই হয় দুটোর মধ্যে একটা, কোনটা বাছবেন আপনি, ‘এ’ না ‘বি’?
২.
আদর্শ আর হরিপুর তো মনগড়া, যেমন মনগড়া বেকার-ক্রেমারের টেবিল, কিন্তু এর পরের উদাহরণ-টা আসল, মানে এক্কেবারে সাক্ষাৎ জর্নলের পাতা থেকে।
Charig et al. (1986) এর একটি বিখ্যাত পেপার২ থেকে কিডনি স্টোনের চিকিৎসার যে ডেটা পাওয়া যায়, সেও একদম এক ছাঁচ। দুটো সার্জিক্যাল চিকিৎসার একটি (“বি”) বড়ো পাথরের জন্যেও ভালো, ছোটোর জন্যেও, অথচ সব মিলিয়ে এগ্রিগেট করলে হিসেব উলটে যায়, দেখা যায় – ‘এ’-র সাফল্যের শতাংশ একটু হলেও বেশী।
এই যে ডিগবাজি খাওয়ার প্যাটার্ণ-টা দেখলেন তিনটে উদাহরণে, রাশিবিজ্ঞানের ভাষায় এর-ই নাম “সিম্পসন’স প্যারাডক্স”১,৩। সহজে বললে, যেখানেই দেখা যায় যে অনেকগুলো গ্রূপে আলাদা করে একটি “ট্রেন্ড” দিব্যি স্পষ্ট (ট্রেণ্ডের বাংলা কি? ধারা?) কিন্তু গ্রূপটুপ জুড়ে দিলেই সে বেমালুম হাওয়া, সেইখানেই গ্রূপের আড়ালে উঁকি মারছেন সিম্পসন।
আসলে হচ্ছেটা কী তাহলে?
প্রোবাবিলিটির আঁক কষলে, বা আরও একধাপ এগিয়ে কজাল (causal) ইনফারেন্সের কায়দায় ডায়াগ্রাম ছবি এঁকে একটা ভীষ্মের শরশয্যার কার্টুন খাড়া করলে লোকে তেড়ে আসবেন তাই একটা সহজ ছবি দিয়েই একটু ব্যাখ্যা দিই নীচে।
উপরের ছবিটা দেখুন। যদি শুধু নীল রঙের পয়েন্টগুলোকে সরলরেখায় জোড়েন, মনে হবে রেখার অভিমুখ উর্ধ্বে, মানে পজিটিভ ট্রেণ্ড, X বাড়লে Y-ও বাড়বে, আবার লাল রঙের বেলায়-ও তাই। কিন্তু কেউ যদি এসে লাল-নীল সব রঙ মুছে দেন – তাহলে যে সরল-রেখাটি এইবারে আঁকবেন (কালো ডট-ড্যাশ রেখাটি) সেইটি কিন্তু নিম্নগামী।
অর্থাৎ, সিম্পসনের ভাষায়, the trend reverses when groups are combined.
তাহলে কি সব-সময়েই এইরকম গ্রূপ জুড়ে দিলেই ট্রেন্ড পালটে যায়? অবশ্যই না।
হরিপুর আর আদর্শের টেবিল-টা আরেকবার দেখুন। হরিপুরে ২০% ছেলে, ৮০% মেয়ে, আর আদর্শে ঠিক তার উল্টো ! ওই এক-ই টেবিলে যদি হরিপুর আর আদর্শে ছেলে-মেয়ের পারসেন্টেজ না পাল্টাতো, তাহলেই আর অঙ্ক ওল্টাতো না। বিশ্বাস না হলে দুইদিকের পাল্লা সমান করে দেখুন, অঙ্ক মেলে কি না।
বেকারবাবুদের উদাহরণ, আর কিডনি-স্টোনের গল্প-ও তাই। বড়ো পাথরের জন্যে, যেগুলো হয়তো আরও জটিলতর সমস্যা, ডাক্তার-বাবুরা ট্রিটমেন্ট ‘এ’ বেশী ব্যবহার করেছেন, আর ছোটোর জন্যে ‘বি’। কাজেই ট্রিটমেন্ট ‘বি’ নিকৃষ্টতর হলেও, বেশী কঠিন কেসে কম ব্যবহৃত হওয়ার জন্যেই শতকরা হিসেবে এগিয়ে। আবার ‘এ’ হয়তো আসলেতে উন্নততর পদ্ধতি, কিন্তু তাকেও বেশীবার দিতে হচ্ছে কঠিন পরীক্ষা।
প্রথম উদাহরণে জেণ্ডার (লিঙ্গ) আর দ্বিতীয় উদাহরণে রোগের জটিলতা (সিভিয়ারিটি) – এদের রাশিবিজ্ঞানের ভাষায় বলা হয় “লার্কিং ভেরিয়েবল”, অর্থাৎ ঘাপটি মেরে বসে থাকা চলরাশি। এদের না ধরলেই হিসেব উলটে সে এক বিচ্ছিরি কাণ্ড !
৩.
শেষ করবো আরও দুটো উদাহরণ দিয়ে, যদিও আগের পর্বের মতন এইবারেও বলাটা অন্যায় হবে না যে চোখ মেলে চাইলে চাদ্দিকে বিস্তর প্রাঞ্জল উদাঃ দেখতে পাবেন।
প্রথমটা বার্কলি বিশ্ববিদ্যালয়ের – ১৯৭৩ সালে যাদের বিরুদ্ধে লিঙ্গবৈষম্যের অভিযোগ ওঠে। সেই বছরের গ্র্যাজুয়েট স্কুলে ভর্তির তথ্যে দেখা যায়, পুরুষ আবেদনকারীদের ৪৪% আর মহিলা আবেদনকারীদের ৩৫% উত্তীর্ণ, এবং ৪৪-৩৫ এর ব্যবধান নামমাত্র নয়। এই অভিযোগের ঠিক পরেপরেই ৭৫ সালে পিটার বিকেল ও তাঁর সহকর্মীরা একটি পেপারে৭ বার্কলির সবকটি ডিপার্টমেন্টের ভর্তির পরিসংখ্যান খতিয়ে দেখেন। আবার-ও সেই সিম্পসন’স প্যারাডক্স। দেখা যায় ৮৫-র মধ্যে ৬টি ডিপার্টমেন্টের বায়াস পুরুষদের বিপক্ষে, আর ৪টিতে মহিলাদের বিপক্ষে … এবং “examination of the disaggregated data reveals … about as many units appear to favor women as to favor men”. বিকেল-দের বক্তব্য ছিলো, এই উদাহরণটির লার্কিং ভেরিয়েবল ডিপার্ট্মেন্টগুলি কতোটা কম্পিটিটিভ সেই তথ্য। ওঁদের-ই অ্যাবস্ট্রাক্ট থেকেই সোজা চোতা করে দিই দুই লাইন, “The bias in the aggregated data stems not from any pattern of discrimination on the part of admissions committees, which seem quite fair on the whole, but apparently from prior screening at earlier levels of the educational system. Women are shunted by their socialization and education toward fields of graduate study that are generally more crowded, less productive of completed degrees, and less well funded, and that frequently offer poorer professional employment prospects.” (এইখানে বলে রাখা উচিত যে, শিক্ষা-ক্ষেত্রে লিঙ্গবৈষম্য আছে এবং ভয়ানকভাবেই আছে বলে মনে করি, বার্কলির এই উদাহরণ সেটাকে ডিস্প্রুভ করে না। এই বিষয় নিয়ে বলার অনেক কিছু থাকলেও এই পরিসরে সেই প্রসঙ্গ তুললাম না।)
শেষ করবো এমন একটা উদাহরণ দিয়ে যেটা আমাদের এই দুহাজার কুড়ি সালে এসে কান ধরে শিখিয়ে গেলো যে সিম্পসনের প্যারাডক্স যতোই বইয়ের পাতায় পড়ি, আসলে কিছুই মাথায় ঢোকেনি।
আর টেবিল নয়, বরং একটা ছবি দেখাবো। Kügelgen et al. দের পেপার৮ থেকে (মাপ করবেন বাংলা উচ্চারণ পারলাম না)।
নিচের ছবিটি খেয়াল করে দেখুন। ইটালি আর চীনের, বয়েস অনুযায়ী, কেস ফেটালিটি রেট, অর্থাৎ কনফার্মড কেসের যত ভগ্নাংশ মারা গেছেন। পুরো প্লটে দেখা যাচ্ছে একদম ছোটো ০-৯ থেকে শুরু করে “৮০+” অব্দি প্রত্যেকটি এজ-গ্রূপেই চীনের CFR বেশি, অথচ যেই pool করলেন, উলটে গেলো - একদম ডানদিকে “টোটাল” ক্যাটেগরির দিকে তাকান, নীল বারের উচ্চতা কমলা-র থেকে কম।
কী করে হলো এরকম? আবার সেই হরিপুর-আদর্শ ইস্কুলে ফিরে যান। সেখানে যেমন দুটো ইস্কুলের ছেলেমেয়ের অনুপাত সমান ছিলো না। এইখানেও ইটালি ও চীনের বয়স-অনুসারে কোভিড-আক্রান্ত বিন্যাস আলাদা, সত্যি বলতে বেশ অনেকটাই আলাদা। চীনের বেশীর ভাগ আক্রান্ত ৩০-৬০ এর মধ্যে আর ইটালীর আক্রান্ত-দের সবাই প্রায় ৬০+। এই ছবিতে সেইটিই “লার্কিং ভেরিয়েবল”।
এক পাতা লিখবো ভেবে আপাততঃ চার-পাঁচ পাতার নামিয়ে দিয়েছি কাজেই এইখানেই ইতি টানলাম। সিম্পসন’স প্যারাডক্স এর গল্পের যদিও ইতি নেই, আদি আছে কি না সে-ও বলা শক্ত। এই লেখাটায় টেকনিক্যাল খুঁটিনাটি সব বাদ দিলাম, তবে নীচে রেফারেন্সের তিন-নম্বরে জুডিয়া পার্লের একটা আর্টিকেল পাবেন, ইচ্ছে হলে ওইটি পড়ে দেখতে পারেন।
সিম্পসন’স প্যারাডক্স ‘অমনিপ্রেজেন্ট’, কাজেই মোলাকাত তার সাথে হবেই, জানতে বা অজান্তে … তবে আশা এই যে, একবার গল্পের মত করে ব্যাপার-টা বুঝে নিলে তাকে দেখলে আঁতকে উঠবেন না। বরং একটা উদাহরণ মনে মনে গেঁতে নিন, কখন কোথায় চক-ডাস্টার হাতে জ্ঞানের গোঁসাই হয়ে ট্যান দিতে হবে কেউ বলতে পেরেছে?
আরিব্বাস এ তো দারুণ জিনিষ দিলে গো অভ্যুদা ! থেঙ্কু থেঙ্কু ! (আমার ক্লাসে এখান থেকে টপাটপ কোশ্চেন দেবো।)
গবা বললেই মনে পড়ে তোমার-ই সেই বিখ্যাত উক্তিঃ 'স্বামীজির পরে সবথেকে বিখ্যাত বাঙালি সন্নিসী কিন্তু গবা'। এই গেলো বছরেই (নাকি তার আগের বছর?) নরেন্দ্রপুরের একটা ম্যাগাজিনের (উত্তর-ফাল্গুনী) লেখায় হুবহু সেই কোট এবং আরও গুচ্ছ গল্প ঝেড়ে দিয়েছিলাম। পড়েছো?
রঞ্জন-দা, আটকে গেলেই অভ্যুদার উপরে বলা সেই গল্পটা ইয়াদে করিয়ে লিয়েন, যে কোনো ঘটনার প্রোবাবিলিটি কিন্তু আসলে হাফ, আইদার ইট উইল হ্যাপেন, অর নট !
পড়িনি তো রে, শিগ্গির দে।
লেখার লিঙ্কঃ https://jyotishkadatta.files.wordpress.com/2021/04/amar-norendrapur.pdf (টইতে করা তোমাদের-ই গল্পের রিসাইক্লিং দেখতে পাবে।)
(পুরো ম্যাগাজিন-টা চাই? আমাকে ঠিকানা-টা পাঠিয়ে দিও, jyotishka@vt.edu - আমি এক কপি স্নেল মেইলে পাঠিয়ে দেবো। আমার কাছে এক্সট্রা কপি আছে।)
----
আমাদের আগের বা তারও আগের প্রজন্মে বেইযিয়ান-রা খুব-ই হ্যাটা খেয়েছেন শোনা যায়, এখন তো আবার দিকেদিকে তাঁদের জয়জয়কার। এক বন্ধু র্যান্ডম ফরেস্টে কাজ করে, সে বললো বক্তিমে দিতে উঠে যাই বলছে একজন হাত তুলে বলছে 'সব-ই আসলে হায়ারার্কিকাল বেইজ"। শেষমেশ সে রেগেমেগে বললে তুমি পাঁচটা নম্বরের গড় নাও, সেও একরকমের হায়ারার্কিকাল বেইজ।
তবে যা বুঝলাম এখন ডিপ লার্নিং এসে সবার হুঁকো কেড়ে নেওয়ার তাল করছে। আমি সম্প্রতি একটা কনফারেন্সে গিয়ে দেখলাম, এক বছর আগে যাঁরা গুছিয়ে নিউরাল নেটওয়ার্ক-কে গাল পাড়ছিলেন তাঁরাই এখন গাহে তব জয়গাথা করছেন।
অবশ্য কবি বলেই গেছেন, "এ কথা জানিতে তুমি ভারতেশ্বর শাজাহান, কালস্রোতে ভেসে যাবে ফ্রিকুয়েণ্টিস্ট ও বেইজিয়ান"।
লিঙ্কটার শেষে একটু এক্সট্রা স্পেস পড়ে গেছে। তাই আবার দিলাম।
কলকাতা - ১০৩
ফিফটি চ্যালেঞ্জিং প্রবলেম এবং ডার্টমাউথ নেমেছে।
এখন কালকে নামানো তভারস্কি-কাইনম্যান পড়ছি। তার সঙ্গে একটা সাইট থেকে প্রসিকিউটরস বায়াস ও কেস স্টাডিজ --এলিমেন্টারি লেভেলে। মনে হচ্ছে রোজ গোটা দশেক সুডোকু করার নেশাটা এবার ছেড়ে যাবে।
ড্যানিয়েল কাহ্নেম্যান-এর একটা বই আছে, Thinking fast and slow. খুব ভালো বইটা। আর ওদের দুজনের আশ্চর্য জীবন ও কাজ নিয়ে আরেকটা বই আছে - The Undoing Project, সে-ও এক চমৎকার বই।
(আমি প্রসিকিউটর'স বায়াস / বেইজ থিয়রেম নিয়েই এর পরের কিস্তির লেখাটা লিখছি। :) আশা করি এক্কেবারে ধ্যাড়াবো না।)
Thinking fast and slow পড়েছিলাম গত বছরে, নভিসের চোখে ,একটা ভাল বই পড়ার আনন্দে মেতে। ইউনির এক্সপেরিমেন্টগুলো দারুণ। তভারস্কির সঙ্গে লেখা প্রবন্ধ এবং তোমার লেসনের পর আবার পড়ব, একটু খুঁটিয়়ে।
আজ ইন্ডিয়ান এক্সপ্রেসে ইকনমিস্ট সুরজিত ভাল্লা ডেটা এনালিসিস করে দেখাতে চাইছেন নির্বাচনী জনসভার ফলে কোভিড ছড়িয়েছে বলার মত যথেষ্ট এভিডেন্স নেই।
আমার নন-অ্যানালিটিক্যাল ফিলিং --উনিও কন্ডিশনাল p নিয়ে কোথাও ভুল করেছেন।
উনি একজন নামকরা ইকোনমিস্ট, আমি একজন হরিদাস পাল তাই বলা শোভা পায় না, কিন্তু এতোরকমের ভুল করেছেন যে কোন ভুলটা আসল ভুল সেটাই ধরা সম্ভব নয়। সবথেকে বড়ো ভুল যে এইসব মডেল ফোরকাস্টে যে ভয়ানক আনসার্টেনটি থাকে সেইটাই চেপে একটা ফলস কনফিডেন্স দেখানোর। আসলে এনারা আগে কনক্লুশন-টা টেনে ফ্যালেন, তারপর বাকি সব কিছু মিলিয়ে দেওয়ার একটা বাজে প্রচেষ্টা।
আর আমার সীমিত এক্সপিরিয়েন্স থেকে জানি, যা অবস্থা এই মুহুর্তে কোনো মডেল-ই কিছুই কাজে লাগবার নয়।
ফোরকাস্ট ইগনোর করে এই কোভিডের ওয়েবসাইটের মেট্রিক-এর ট্যাবটায় গিয়ে দেখুন, কেস ফেটালিটি রেট, এফেক্টিভ রিপ্রোডাকশন রেট, টেস্ট পজিটিভ রেট, কোনোটাতেই পশ্চিমবঙ্গ বা আসাম সুবিধেজনক জায়গায় নেই। থাকবে কী করে, বলুন? এই নিয়ে কিছু বলতে ইচ্ছে করে না, ভয়ানক ক্লান্ত/বিরক্ত লাগে। নামকরা লোকেদের একটুও যদি epistemic humility থাকতো মন্দ হতো না।
এই লেখাটা বারে বারে পড়তে ফিরছি যদুবাবু, লেখাটার টানে তো বটেই, কমেন্টগুলোর টানেও।
উড়োজাহাজ দুর্ঘটনায় নিরুদ্দেশ হয়ে যাওয়া বিজ্ঞানীদের নিয়ে লেখাটার অপেক্ষায় আছি কিন্তু যদুবাবু। সময় করে নামিয়ে ফেলুন। ঃ-)
আপনি বড়োই kind ! আর আসল মণিমুক্তো টইতে/কমেন্টেই থাকে, সবসময়।
অবশ্যই লিখবো। যদিও আমি খুব ল্যাদাড়ুশ। তার উপরে লিখতে বসলেই চাদ্দিক থেকে বিভিন্ন ইমেল আসে, রীতিমত পাওনাদারদের তাগাদা। আর অ্যাকাডেমিক লোকেরা অকারণে ইমেল চালাচালি করতে বড়ো ভালোবাসে। তাও, আশা করছি সামনের হপ্তার মধ্যে পরের কিস্তি নেমে যাবে। :) চেষ্টা করছি প্রসিকিউটর'স ফ্যালাসি ও বেইজ থিয়রেম নিয়ে একটু লেখার।
আর অ্যাকাডেমিক লোকেরা অকারণে ইমেল চালাচালি করতে বড়ো ভালোবাসে।
যদুবাবুর লেখার বিষয়বৈচিত্র্য আর উপস্থাপন- খুব ভালো লাগে। পড়ি, বলা হয় না।
ইন্দ্রাণীঃ গত কয়েকদিনের দুঃস্বপ্নের মধ্যে আর গুরুতে আসা হয়নি, আজকে খেয়াল করলাম আপনার কমেন্ট-টা। একজন প্রিয় লেখিকা আমার লেখা পড়েছেন এইটাই প্রচন্ড খুশির ব্যাপার!
আর প্রশংসা তো ন্যাপথালিনে মুড়ে আলমারিতে তুলে রাখলাম। হয়তো ভাববেন অতিশয়োক্তি করছি কিন্তু বছর দশেক আগে আমার আরেকজন প্রিয় লেখিকা, নবনীতা দেবসেন, একটি চিঠির (একেবারে নিপাট নির্লজ্জ ফ্যান-মেইল) উত্তর দিয়েছিলেন। বলেছিলেন, চিঠিটি পেয়ে ভালো লাগলো, আরও লিখো - সেইদিন এমন আনন্দ হয়েছিলো। (ইশ যদি একটুও আনন্দ করার উপায় থাকতো।)
ভালো থাকবেন। আর অজস্র ধন্যবাদ।
নবনীতা দেবসেন! আমাদের একটা অনুষ্ঠানে একবার উনি এসেছিলেন, প্রমিতা মল্লিক গান গেয়েছিলেন। কি দুঃখ যে আমি যেতে পারি নি। তবে অবশ্য ওনার লেখাটা অনেক বেশি উপভোগ্য বক্তৃতা শোনার চেয়ে। আই এস আইতে একবার এসে কিঞ্চিৎ ছড়িয়েছিলেন। সেটা যদুবাবু সময়ের আগের কথা :)
বলতে মনে হল, একবার ইন্টিগ্রেশনে প্রমিতা মল্লিককে আনার প্রস্তাব দিয়েছিলাম, পত্রপাঠ ওনাকে সাবস্টিটিউট করে দেওয়া হয়।
অভ্যু-দাঃ ওনার সেই চিঠিটা এই সুযোগে আরেকবার পড়লাম জানো? কী যে সুন্দর ভাষা ! সেই চিঠির পুনশ্চ-টার একটা স্ক্রিনশট নিয়ে দিলাম। আশা করি নবনীতাদি জাগতিক রাগ-আপত্তির উর্দ্ধেই আছেন, না হলে আমার কান মুলতে এই নিশুত রাত্রে ভার্জিনিয়ার পাহাড়ে বেড়াতে এলেও অবশ্য মন্দ হবে না।
বাঃ