لجنة التربية و التعليم العالي و البحث العلمي
مراحل تنظيف البيانات في مستودعات البيانات
أ. د. مرتضى محمد حمد / اختصاص علوم حاسبات
رئيس لجنة التربية والتعليم العالي والبحث العلمي
المنتدى العراقي للنخب والكفاءات
بشكل عام، يتضمن تنظيف البيانات عدة مراحل:
- تحليل البيانات : من أجل الكشف عن أنواع الأخطاء والتناقضات التي يجب إزالتها ، يلزم إجراء تحليل مفصل للبيانات. بالإضافة إلى الفحص اليدوي للبيانات أو عينات البيانات ، يجب استخدام برامج التحليل للحصول على بيانات وصفية حول خصائص البيانات واكتشاف مشاكل جودة البيانات .
- تعريف مسار عمل التحويل وقواعد رسم الخرائط : اعتمادًا على عدد مصادر البيانات ودرجة عدم تجانسها و “قذارة” البيانات ، قد يلزم تنفيذ عدد كبير من خطوات تحويل البيانات وتنظيفها. في وقت ما ، يتم استخدام ترجمة المخطط لتعيين المصادر إلى نموذج بيانات مشترك ؛ بالنسبة لمخازن البيانات ، عادةً ما يتم استخدام التمثيل العلائقي. يمكن لخطوات تنظيف البيانات المبكرة تصحيح مشاكل المثيل أحادي المصدر وإعداد البيانات للتكامل. تتعامل الخطوات اللاحقة مع تكامل المخطط / البيانات وتنظيف مشكلات المثيل متعدد المصادر ، على سبيل المثال ، التكرارات .
- التحقق : يجب اختبار وتقييم صحة وفعالية سير عمل التحويل وتعريفات التحويل ، على سبيل المثال ، على عينة أو نسخة من بيانات المصدر ، لتحسين التعريفات إذا لزم الأمر. قد تكون هناك حاجة لتكرار خطوات التحليل والتصميم والتحقق ، على سبيل المثال ، نظرًا لأن بعض الأخطاء لا تظهر إلا بعد تطبيق بعض التحويلات.
- التحول : يعني تنفيذ خطوات التحويل إما عن طريق تشغيل سير عمل ETL لتحميل وتحديث مستودع البيانات أو أثناء الرد على الاستفسارات على مصادر متعددة.
- التدفق العكسي للبيانات التي تم تنظيفها : بعد إزالة الأخطاء (من مصدر واحد) ، يجب أيضًا أن تحل البيانات النظيفة محل البيانات القذرة في المصادر الأصلية من أجل إعطاء التطبيقات القديمة للبيانات المحسنة أيضًا ولتجنب إعادة أعمال التنظيف لاستخراج البيانات في المستقبل . لتخزين البيانات ، تتوفر البيانات التي تم تنظيفها من منطقة تخزين البيانات. من الواضح أن عملية التحويل تتطلب قدرًا كبيرًا من البيانات الوصفية ، مثل المخططات ، وخصائص البيانات على مستوى المثيل ، وتعيينات التحويل ، وتعريفات سير العمل ، وما إلى ذلك من أجل الاتساق والمرونة وسهولة إعادة الاستخدام ، يجب الحفاظ على هذه البيانات الوصفية في مستودع يستند إلى نظام إدارة قواعد البيانات. لدعم جودة البيانات ، يجب تسجيل معلومات مفصلة حول عملية التحويل ، في كل من المستودع وفي الحالات المحولة ، ولا سيما المعلومات حول اكتمال وحداثة بيانات المصدر ومعلومات النسب حول أصل الكائنات المحولة والتغييرات المطبقة لهم .