بقلم الدكتور المهندس قاسم محمد دنش
تعتبر إشكالية خصوصية المواطن في لبنان، وماهية المعلومات التي يمكن لأجهزة الأمن الاطلاع عليها، من أكثر المواضيع سجالاً بين الساسة اليوم، خصوصًا مع ربط الأجهزة الأمنية بالفرق السياسية. هذه الإشكالية التي اودت إلى سجالات واسعة بين اللبنانين، خصوصاً بعد العام 2005، على خلفية كشف او حجب داتا الاتصالات لفرع المعلومات، أدت بالبعض إلى التصريح العلني "انه اذا كان هناك خيار في كشف خصوصية المواطنين ومنع الجريمة، نحن حتماً ننحاز الى منع حصول الجرائم ولو ادى الى كشف بعض خصوصيات المواطنين". بين هذه الإشكالية وبين قدرات السلطات الأمنية والقضائية التي تستخدم وسائل باتت تقليدية؛ لا بد من تطوير آليات التحقيقات القضائية، وكذلك الترتيبات الأمنية بما يتناسب مع هذا الزمان الذي تحسب فيه التكنولوجيا محوراً لا يتجزأ، إن بالأعمال الإرهابية والجرائم المنظمة، وإن بآليات الكشف عن هذه الجرائم وتتبعها والكشف عنها قبل حصولها أيضاً.
فهل من الممكن الاستفادة من مزايا عصر ثورة المعلوماتية لتحقيق نتائج مرجوة من تحليل لمعلومات وبيانات من داتا الاتصالات وغيرها، مع تحقيق حماية المواطنين وخصوصياتهم؟
من تحليل للبيانات إلى التنقيب فيها
أدى الانتشار الواسع لتقنية المعلومات وسهولة إتاحتها إلى تضخم حجم المعلومات بصورة استباقية لم يشهدها التاريخ من قبل، مما جعل من قضية البيانات الضخمة على الانترنت وشركات الاتصالات شاهدًا مثيراً للجدل، من حيث جدوى وجودها بهذه الصورة العشوائية. من هنا ظهر ما يسمى باستخراج البيانات أو تنقيب البيانات Data Mining كتقنية تهدف إلى استنتاج المعرفة من كميات هائلة من البيانات، تعتمد على الخوارزميات الرياضية، والتي تعتبر أساس التنقيب عن البيانات، وهي مستمدة من العديد من العلوم، مثل علم الإحصاء والرياضيات والمنطق وعلم التعلم، والذكاء الاصطناعي والنظم الخبيرة، وعلم التعرف على الأنماط، وعلم الآلة، وغيرها من العلوم، التي تعتبر من العلوم الذكية وغير التقليدية. تهدف هذه الدراسة العلمية الى وضعها بين يدي السلطات الأمنية والقضائية اللبنانية لبيان كيفية الاستفادة من الأنظمة والتقنيات الأوتوماتيكية لاستخلاص المعلومات وتحليلها، وذلك لتسهيل التحقيق والكشف عن مشبوهين في عمليات إرهابية في البلاد.
يكمن التحدي في هذه الدراسة في الوصول الى أشخاص مشتبه بهم، في جريمة ارهابية محددة، مع تقليل نسبة الوقوع في التشخيص الخطأ، مع الأخذ بعين الاعتبار خصوصية المواطنين واحترامها.
لأننا نعلم بأنّ الإشكالية المتناولة دقيقة جداً، ولأنّ حجم البيانات كلما زاد، زادت كمية المعرفة المتوقعة، ولانّ زيادة حجم البيانات عشوائيا يؤدي ايضاً الى التشخيص الخاطئ، عمدنا الى انشاء استبيان، يقودنا الى استنتاج ماهية العوامل والمتغيرات المهمة التي تقود عادة المحققين الى "طرف الخيط" في تحقيقاتهم. الاستبيان المذكور ملأته مجموعة كبيرة من قضاة ومحامين ومحققين ومساعدين قضائيين وغيرهم من الأشخاص المعنيين في السلكين الامني والقضائي. التحليل الإحصائي للاستبيانات خلص الى تسمية عدد من المتغيرات المساعدة في عملية استخلاص البيانات المخطط لها. نذكر من هذه المتغيرات: عدد مرات الدخول والخروج من البلاد، وجود سوابق جرمية لمستخدمي الخطوط الخلوية، حركة استخدام الخطوط الخلوية قبل وبعد حصول الجريمة، اقفال الخط الخلوي بعد تاريخ ارتكاب الجريمة.
بات الان واضحاً أنّ مصدرالبيانات حسب المتغيرات المذكورة هو: الشركات المشغلة لشبكات الاتصالات الخلوية في لبنان والأمن العام اللبناني. إن الحصول على بيانات من المصادر المذكورة مهمة شبه مستحيلة وإن كانت من اجل البحث العلمي. لذلك، عمدنا الى انتاج بيانات وهمية تحاكي واقع البيانات الحالي وذلك بعد حصول جريمة معينة، بهدف بناء الدراسة عليها.
تحضير البيانات Data preparation:
تعتبر هذه المرحلة مرحلة تمهيدية لتحليل البيانات، وتسمى هذه المرحلة مرحلة المعالجة التمهيدية Pre-processing أو مرحلة تنظيف البيانات Data cleaning. تهدف هذه المرحلة الى تحضير البيانات للمعالجة. عدة طرق وتقنيات استخدمت في هذه المرحلة: جدولة البيانات وازالة النواقص والاخطاء، وفحص جودتها ونزع غير الملائم منها او تصحيحه. لذلك، قمنا بإعطاء قيم جديدة لكل متغير، فعلى سبيل المثال، تصنيف بيانات المتغير "حركة استخدام الخطوط الخلوية بعد حصول الجريمة" الى فئات ثلاث:
الفئة الاولى: (القيمة =١): خارج البلاد.
الفئة الثانية: (القيمة =٢): منطقة تأوي ارهابيين – معروفة مسبقاً.
الفئة الثالثة: (القيمة =٣ ): منطقة داخل البلاد غير مشبوهة.
تجميع البيانات Data clustering
تجميع البيانات هو عملية وضع البيانات في تجمعات متشابهة. تسعى هذه الطريقةالى تصنيف البيانات الى كتل متشابهة في خصائصها.
تعد خوارزمية K-means clustering من ابرز الخوارزميات المستخدمة في تجميع البيانات، لذلك استخدمناها في هذا البحث مع تحديد (K=2) عدد المجموعات التي نود ان نقسم البيانات اليها الى مجموعتين اثنتين.
وبعد تطبيق هذه الخوارزمية، خلصنا الى مجموعتين من البيانات التي عرضناها على خبراء في مجال التحقيق الأمني فأكدوا لنا انه من الواضح جداً ان التقسيم أظهر أن المجموعة الاولى التي تحوي حوالي 87% من البيانات، تعد المجموعة التي تمثل بيانات الاشخاص غير المشبوهين في حين انّ الاخرى تمثل الاشخاص المشبوهين. لذلك، أضفنا متغيرًا جديدًا يمثل ما اذا كانت البيانات مصنفة ضمن المجموعة الاولى او المجموعة الثانية.
خوارزميات التصنيف Data classification
في المرحلة السابقة، أضفنا متغيرًا جديدًا يمثل ما يُسمى بـ "class" لكل شخص، وعليه يصنف ما اذا كان هذا الشخص مشبوهاً ام لا.
هنا في هذه المرحلة، نعرف ما يسمى بـ "خوارزميات التصنيف" أي الخوارزميات التي من شأنها أنْ تحدد الانتماء للشخص لأي مجوعة من المجموعتين ينتمي. ومن أجل تحقيق الهدف المرجو، قمنا بتطبيق عدة خوارزميات على البيانات التي بين ايدينا.
الاختبار كان بأخذ البيانات السابقة، وابقينا منها 66% منها كما هي، وذلك من اجل ان تكون قاعدة انطلاق وقياس لهذه الخوارزميات، في حين أنّ البيانات المتبقية استخدمت لاختبار الخوارزميات المذكور من اجل اعادة تصنيفها ومقارنتها بالأصل إذا ما كان التصنيف صحيحاً أم لا. وقد حصلنا على اداء الخوارزميات حسب الجدول التالي:
إذاً، كما هو واضح يمكننا تصنيف البيانات بـ 0% اخطاء. ولكن كيف لنا ان نحمي خصوصية المواطنين في هذا الأسلوب؟
الطرح البديل لهذه الطريقة، بأخذ بيانات الشركات المشغلة للهاتف الخلوي في لبنان وتتبع ما هو مثير وملفت. ولكن طرحنا اليوم، هو أن تأخذ الجهة الأمنية المكلفة بالتحقيق بجريمة اهابية ما، فقط البيانات التي يصنفها هذا الطرح كبيانات مشبوهة والتي لن تزيد عن 20-25% من مجموع البيانات.
الخلاصية والتوصيات
اننا من خلال هذه الدراسة، نحاول ان نقدم إلى الأجهزة الأمنية والقضائية شيئاً بسيطاً مما يمكننا فعله من أجل محاربة الإرهاب واجتثاث المدبرين. انّ هذا الطرح الذي خَلُصَ إلى إمكانية تصنيف الأشخاص كضالعين في جريمة إرهابية، محددة مسبقاً، بـ 0% خطأ ولو على بيانات وهمية، يمكن استخدامه على بيانات واقعية مصدرها الشركات المشغلة للهاتف الخلوي في لبنان والأمن العام اللبناني.
المقالات الواردة في الموقع تعبر عن آراء أصحابها ولا تعبر عن رأي إدارة الموقع