الأخطاء الكارثية الممكنة عن سوء الفهم الإحصائي و استنتاج علاقات سببية من بيانات تجريبية
- مايكل نيلسن – ترجمة :سيف البصري
- 21. März 2016
- 5 Min. Lesezeit

ملاحظة: البحث قام به الدكتور Michael Nielsen، عالِم فيزائي و مبرمج استرالي، له أبحاث عديدة و خصوصاً في مجال الحوسبة الكمّية و البرمجة. البحث هذا عميق بعض الشيء و للمتخصصين، عن مفهوم السببية و الأخطاء الناتجة عن سوء الفهم الإحصائي. لكن، أنا ترجمت الجزء البسيط للغير متخصصين لأنه مثير للاهتمام، و سأكمل الجزء الثاني الذي سيتعمّق ببعض الحسابات الرياضية لاحقاً.
إن كانت علاقة الارتباط لا تعني بالضرورة وجود علاقة سببية، إذن مالذي يشترط ذلك؟
من الشائع ضمن المناقشات العلمية أن وجود علاقة ارتباط لا تعني بالضرورة وجود علاقة سببية. مجلّة Business Week بيزنس ويك نشرت مؤخراً مقالاً يحاكي الفكرة بسخرية مشيراً إلى بعض الأمثلة عن مخاطر استنتاج علاقة سببية من أنماط تشير إلى وجود علاقة ارتباط.
على سبيل المثال، يشير المقال إلى أن النمو في الفيسبوك ارتبط بقوّة مع العائد المالي على سندات الحكومة اليونانية: على الرغم من هذا الترابط القوي، فإنه لن يكون من الحكمة أن نستنتج أن نجاح الفيسبوك تسبب بطريقة أو بأخرى (من عام 2009-2012) بأزمة الديون اليونانية الحالية، و لا أن أزمة الديون اليونانية قد سبّبت نمط نمو الفيسبوك! بطبيعة الحال، فالبداية السليمة تستلزم أن نسلّم بأن الترابط لا يعني السببية بالضرورة، مع ذلك، هذا التسليم يتركنا أمام لغز: تحت أي ظروف بالضبط، يمكننا استخدام البيانات التجريبية للاستدلال على وجود علاقة سببية بين اثنين أو أكثر من المتغيرات؟ الجواب العلمي لهذا السؤال هو (مع بعض المحاذير) أنه يمكننا أن نستنتج السببية من تجربة عشوائية و مصممة بشكل جيد.
لكن للأسف، و رغم أن هذا الجواب مُرضي من حيث المبدأ و مفيد في بعض الأحيان من الناحية العملية، فإنه غالباً ما يكون غير عملي أو يستحيل القيام بتجربة محكومة بشكل عشوائي. و بالتالي نبقى عالقين مع مسألة ما إذا كانت هناك إجراءات أخرى يمكن أن نستخدمها لاستنتاج السببية من البيانات التجريبية. و بالنظر إلى أننا يمكن أن نجد إجراءات عمومية لاستنتاج العلاقات السببية، دعنا نعود للسؤال: ماذا تعني السببية في سياق التفكير و تعقّل النظام نفسه؟
قد يبدو أن الإجابات على مثل هذه الأسئلة الأساسية قد تمت تسويتها منذ فترة طويلة. لكن في الواقع، تبيّن أن هذه الأسئلة دقيقة بشكل مدهش. على مدى العقود القليلة الماضية، وضعت مجموعة من العلماء نظرية استدلال سببي تهدف إلى التصدّي لهذه الأسئلة و غيرها ذات صلة. و يمكن اعتبار هذه النظرية بمثابة الجبر أو لغة منطقية للتفكير حول السبب و النتيجة. و قد شُرِحت العديد من مرتكزات هذه النظرية في كتاب مشهور لواحد من المساهمين الرئيسيين في هذه النظرية، جوديا بيرل.
على الرغم من أن نظرية الاستدلال السببي غير مكتملة الهيكلية و مازالت تمر بمرحلة التنمية، فإن ما تم إنجازه بالفعل حتى الآن مثير للاهتمام و يستحق الفهم.
في هذا المقال سوف أصف جزء صغير و لكن مهم من نظرية الاستدلال السببي، حساب التفاضل و التكامل السببي الذي وضعه جوديا بيرل. هذا الحساب هو مجموعة من ثلاث قواعد جبرية بسيطة و لكنها رصينة و يمكن استخدامها لتكوين استنتاجات حول العلاقات السببية. على وجه الخصوص، سأوضّح كيف أنه يمكن في بعض الأحيان (ليس دائماً!) استخدام حساب التفاضل و التكامل السببي لاستنتاج علاقة سببية من مجموعة من البيانات، حتى عندما تكون التجربة المُحكمة بصورة عشوائية غير ممكنة. سأحاول أيضاً أن أصف محدودية حساب التفاضل و التكامل السببي، و أبدي بعض تكهّناتي و تساؤلاتي الخاصة.
سأبدأ بشرح مشكلتين لتوضيح بعض الصعوبات التي نواجهها عند تكوين استنتاجات حول العلاقة السببية. المشكلة الأولى تُعرف بإسم مفارقة سمبسون. لشرح المفارقة سأستخدم مثالاً يتعلّق بإقرار قانون الحقوق المدنية في الولايات المتحدة في عام 1964.
في مجلس النواب الأمريكي، صوّت 61 % من الديمقراطيين لقانون الحقوق المدنية، في حين أن نسبة أعلى من ذلك بكثير، 80 % من الجمهوريين صوّتوا لصالح القانون. قد تعتقد أننا يمكن أن نستنتج من هذا أن كون النائب جمهورياً، بدلاً من كونه ديمقراطياً، كان عاملاً مهماً في حث الشخص على التصويت لصالح قانون الحقوق المدنية. مع ذلك، الصورة تتغيّر لو شملنا عاملاً إضافياً في التحليل، و هو ما إذا كان المشرّع قد جاء من الولاية الشمالية أو الجنوبية. إذا كان لنا أن نشمل هذا العامل الإضافي، فالوضع سينعكس تماماً، في كل من الشمال و الجنوب.
و هنا كيف ينهار: الشمال: ديمقراطي (94 %)، جمهوري (85 %) الجنوب: ديمقراطي (7 في المئة)، جمهوري (0 في المئة) نعم، ما قرأته صحيح: في كلا من الشمال و الجنوب، جزء كبير من الديمقراطيين (أكبر من الجمهوريين) صوّت لهذا القانون، رغم أنه بصورة عامة*، جزء أكبر من الجمهوريين صوّت لصالح القانون. لربما تساءل الآن كيف يمكن أن يكون ذلك صحيحاً؟ سأذكر بسرعة أرقام التصويت الأوّلية، حتى تتمكن من التحقّق من أن الحساب الرياضي سليم، و بعد ذلك سوف أشرح لماذا هذا صحيح. يمكنك تخطّي الأرقام الحسابية إذا كنت تثق بي.
الشمال: الديمقراطيون ( 145/154 صوّتوا للقانون، أي 94 %)، الجمهوريون (138/162، أي 85 %)
الجنوب: الديمقراطيون (7/94، أي 7٪)، و الجمهوريون (0/10، أي 0 %)
*عموماً: الديمقراطي (152/248، 61٪)، و الجمهوري (138/172، 80 %)
لفهم ما يحدث هو أن نلاحظ أن نسبة أكبر بكثير من المشرّعين الديمقراطيين (على العكس من الجمهوريين) كانوا من الجنوب. في الواقع، في الوقت ذلك كان المجلس فيه 94% ديمقراطيون، و من الجمهوريين 10 فقط. بسبب هذا الفارق الهائل، الجزء القليل جداً (7٪) من ديمقراطيي الجنوب الذين صوّتوا لصالح القانون، أسقط نسبة الديمقراطيين عموماً أكثر بكثير من حتى جزء الجمهوريين الجنوبيين (0٪) الذين صوّتوا لصالح القانون. [الأرقام المذكورة أعلاه هي للكونغرس. الأرقام مختلفة في مجلس الشيوخ، لكن نفس الظاهرة حدثت بشكل عام]
إذا نظرنا للأمر من وجهة نظر سببية ساذجة، ستبدو هذه النتيجة و كأنها مفارقة. كما ذكرت أعلاه، يشير نمط الاقتراع العام إلى أن كون النائب جمهورياً، بدلاً من كونه ديمقراطياً، كان عاملاً مسبّباً و هاماً في التصويت لقانون الحقوق المدنية. لكن بعد ما نظرنا إلى الإحصاءات الفردية في كل من الشمال و الجنوب، توصّلنا الى استنتاج معاكس تماماً.
بطريقة تجريدية أكثر، مفارقة سمبسون هي حقيقة أن العلاقة بين متغيريّن يمكن في الواقع أن تنعكس عندما يتم مراعاة عوامل إضافية. بالتالي أي متغيران يظهران بصورة مترابطة يمكن أن يصبحا غير مترابطين عندما يؤخذ عامل آخر في الاعتبار.
كنت أتساءل عما إذا كنت تظن أن نتائج مثل تلك التي شهدناها في التصويت على قانون الحقوق المدنية هي مجرد صدفة غير عادية. لكن في الواقع الأمر مختلف. صفحة ويكيبيديا عن مفارقة سمبسون تسرد العديد من الأمثلة الهامة و المماثلة في العالم الحقيقي بدءاً من فهم ما إذا كان هناك تحيّز بين الجنسين عند القبول في الجامعات التي ينجح فيها العلاج لحصى الكلى بشكل أفضل. في كل حالة، محاولة فهم العلاقات السببية تبين أنها أكثر تعقيداً مما يظن البعض.
الآن سأتناول المثال الثاني من مفارقة سمبسون، عن علاج حصوات الكلى الذي ذكرته للتو، لأنه سيوضّح أكثر مدى ضعف حدسنا حول الإحصاءات و السببية.
تخيل أنك تعاني من حصى الكلى، و الطبيب يقدّم لك خيارين: العلاج A أو B. طبيبك يخبرك بأن العلاجين قد تم اختبارهما، و العلاج A كان فعّالاً بنسبة أعلى عند المرضى من العلاج B، إذا كنت مثل معظم الناس، في هذه الحالة لربما ستقول: "حسناً، سأبدأ مع العلاج A".
و هنا تكمن الخدعة. ضع في اعتبارك أن هذا الاختبار قد حدث فعلاً. افترض أنك تقسّم المرضى في التجربة إلى أولئك الذين لديهم حصى كلى كبيرة، و الذين يعانون من حصى كلى صغيرة. و رغم أن العلاج A كان فعّالاً "بصورة نسبية إجمالية" أعلى عند المرضى من العلاج B، ألا أن العلاج B كان فعّالاً بنسبة مئوية أعلى عند المرضى في كلا المجموعتين. أي لو أجاب الطبيب بصراحة سيقول: "حسناً، أنت لديك حصى كبيرة [أو صغيرة]، و العلاج B نجح مع نسبة أعلى من المرضى الذين يعانون من حصى كبيرة [أو صغيرة] مقارنةً بالعلاج A".
إذن في حالة لو ذكر طبيبك هذين الرأيين، سيكون قرارك، مثل معظم الناس، أن تختار العلاج B، أي العلاج العكس تماماً.
يعتمد مثال حصى الكلى على نفس النوع من الحساب الرياضي كما هو الحال في التصويت على قانون الحقوق المدنية [هنا الرابط للتحقق من الأرقام]
في الواقع، على الرغم من أنني قضيت قدراً كبيراَ من الوقت في التفكير حول مفارقة سمبسون، إلا أني لست متأكداً تماماً أنني لن أرتكب بعض الأحيان نفس الخطأ مجدداً.
أجده مدوّياً للذهن أن أجد قدراتي الاستدلالية حول كيفية التصرّف وفق الأدلّة الإحصائية ليست ضعيفة فقط، بل أحياناً خاطئة بشكل كارثي.
و بصراحة لن أتفاجأ إذا كان معظم الناس يشاطرونني ارتباكي. فكثيراً ما كنت أتساءل عن كم الناس الذين يملكون سلطة صنع القرار الحقيقي كالسياسيين و القضاة الذين يتّخذون القرارات بناءً على دراسات إحصائية، لكنهم لا يفهمون حتى الأشياء الأساسية كمفارقة سمبسون. أو بعبارة أخرى، أشخاص لايملكون قاعدة علمية و لا فهم رصين حول الإحصاءات.
الأدلّة الجزئية قد تكون أحياناً أسوأ من أي دليل إذا كانت تؤدي إلى الوهم بدل المعرفة، و بالتالي إلى الثقة المفرطة و اليقين الغير مبررين. فمن الأفضل أن تعرف أنك لا تعرف.
[يتبع]
Comments