المقالات العامة

مقدمة في تحليل البيانات

مقدمة في تحليل البيانات

مقدمة في تحليل البيانات

مقدمة في تحليل البيانات

في تحليل البيانات
في تحليل البيانات

قبل أن نبدأ مقدمتنا العملية لتحليل البيانات نحتاج إلى التعرف على أساسيات تحليل البيانات أولئك الذين ألقوا نظرة على الوثائق الخاصة بمكتبات البرمجة واللغات المستخدمة يعرفون كيف يمكن أن يكون الأمر مربكًا إذا لم يكن لديك أدنى فكرة عما تبحث عنه لذلك ، من الضروري أن نتقن ليس فقط جانب الترميز والكود ، ولكن أيضًا عملية التفكير وسير العمل المطلوبين لتحليل البيانات ، والتي ستثبت أنها الأكثر فائدة في زيادة مجموعة مهاراتنا في المستقبل.

يشبه إلى حد كبير الطريقة العلمية ، يحتوي علم البيانات على بعض مهام سير العمل الشائعة التي يمكننا اتباعها عندما نريد إجراء تحليل وتقديم النتائج العمود الفقري لهذه العملية هو الإحصائيات ، والتي تعطينا طرقًا لوصف بياناتنا ، وعمل تنبؤات ، وأيضًا استخلاص استنتاجات حولها نظرًا لأن المعرفة المسبقة بالإحصاءات ليست شرطًا أساسيًا ، فسوف يمنحنا هذا المقال التعرف على المفاهيم الإحصائية التي سنعرفها ، بالإضافة إلى مجالات لمزيد من الاستكشاف.


أساسيات تحليل البيانات.

تحليل البيانات هو عملية تكرارية للغاية تتضمن الجمع والتحضير (الجدل wrangling) وتحليل البيانات الاستكشافية (EDA) واستخلاص النتائج أثناء التحليل ، سنعيد النظر في كل خطوة من هذه الخطوات بشكل متكرر يوضح الرسم التخطيطي التالي سير العمل :

1 2
1 2

جمع البيانات Data collection.

جمع البيانات هو الخطوة الأولى الطبيعية لأي تحليل للبيانات – لا يمكننا تحليل البيانات التي لا نملكها في الواقع ، يمكن أن يبدأ تحليلنا حتى قبل أن نحصل على البيانات: عندما نقرر ما نريد التحقيق فيه أو تحليله ، علينا التفكير في نوع البيانات التي يمكننا جمعها والتي ستكون مفيدة لتحليلنا بينما يمكن أن تأتي البيانات من أي مكان مثل المصادر التالية .

  • Web Scraping -من أشهر الطرق لاستخراج البيانات من HTML لموقع الويب (غالبًا مع حزم Python مثل selenium requests و scrapy و beautifulsoup)
  • واجهات برمجة التطبيقات (APIs) لخدمات الويب التي يمكننا من خلالها جمع البيانات مع حزمة الطلبات
  • قواعد البيانات (يمكن استخراج البيانات باستخدام لغة SQL أو لغة استعلام أخرى عن قواعد البيانات)
  • موارد الإنترنت التي توفر بيانات للتنزيل ، مثل مواقع الويب الحكومية أو Yahoo! وجوجل وغيرهم.

نحن محاطون بالبيانات ، لذا فإن الاحتمالات لا حدود لها ومع ذلك ، من المهم التأكد من أننا نجمع البيانات التي ستساعدنا في استخلاص النتائج على سبيل المثال ، إذا كنا نحاول تحديد ما إذا كانت مبيعات الشوكولاتة الساخنة أعلى عندما تكون درجة الحرارة أقل ، فيجب أن نجمع بيانات عن كمية الشوكولاتة الساخنة المباعة ودرجات الحرارة كل يوم في حين أنه قد يكون من المثير للاهتمام معرفة المسافة التي سافرها الناس للحصول على الشوكولاتة الساخنة ، إلا أنها ليست ذات صلة بتحليلنا.


معالجة البيانات Data wrangling .

الخلاف على البيانات هو عملية إعداد البيانات وإدخالها في تنسيق يمكن استخدامه للتحليل الحقيقة المؤسفة للبيانات هي أنها غالبًا ما تكون غير نظيفة ، مما يعني أنها تتطلب التنظيف (التحضير) قبل استخدامها فيما يلي بعض المشكلات التي قد نواجهها مع بياناتنا:

  • الأخطاء البشرية: يتم تسجيل البيانات (أو حتى جمعها) بشكل غير صحيح ، مثل وضع 100 بدلاً من 1000 ، أو الأخطاء المطبعية.
  • بالإضافة إلى ذلك ، قد تكون هناك إصدارات متعددة لنفس الإدخال المسجل ، مثل مدينة نيويورك ونيويورك ونيويورك
  • خطأ في الكمبيوتر: ربما لم نسجل إدخالات لفترة (بيانات مفقودة)
  • قيم غير متوقعة: ربما قرر الشخص الذي كان يسجل البيانات استخدامها؟ لقيمة مفقودة في عمود رقمي ، لذا ستتم معاملة جميع الإدخالات في العمود الآن كنص بدلاً من القيم الرقمية
  • معلومات غير كاملة: فكر في استطلاع بأسئلة اختيارية ؛ لن يجيب عليها الجميع ، لذلك لدينا بيانات مفقودة ، ولكن ليس بسبب خطأ كمبيوتر أو بشري
  • قد يتم تسجيل البيانات بتنسيق لا يفضي إلى التحليل ، مما يتطلب إعادة تشكيلها
  • تكوينات خاطئة في عملية تسجيل البيانات: قد تكون البيانات الواردة من مصادر مثل أجهزة التتبع و / أو webhooks على الويب مفقودة أو تمررها بترتيب خاطئ

يمكن معالجة معظم مشكلات جودة البيانات هذه ، ولكن لا يمكن معالجة بعضها ، على سبيل المثال عندما يتم جمع البيانات يوميًا ونحتاجها بدقة كل ساعة تقع على عاتقنا مسؤولية فحص بياناتنا بعناية والتعامل مع أي مشكلات ، حتى لا يتم تشويه تحليلنا.


تحليل البيانات استكشافية خلال EDA – Exploratory data analysis.

نستخدم التصورات والإحصائيات الموجزة للحصول على فهم أفضل للبيانات نظرًا لأن الدماغ البشري يتفوق في اختيار الأنماط المرئية ، فإن تصور البيانات ضروري لأي تحليل .

في الواقع ، لا يمكن ملاحظة بعض خصائص البيانات إلا في المخطط اعتمادًا على بياناتنا ، قد نقوم بإنشاء مخططات لنرى كيف تطور متغير الاهتمام بمرور الوقت ، ومقارنة عدد الملاحظات التي تنتمي إلى كل فئة ، والعثور على القيم المتطرفة ، وإلقاء نظرة على توزيعات المتغيرات المستمرة والمنفصلة.

يجب إعداد البيانات قبل EDA.

  • قد تشير التمثيلات المرئية التي تم إنشاؤها أثناء EDA إلى الحاجة إلى تنظيف إضافي للبيانات.
  • تستخدم عمليات الخلاف على البيانات إحصاءات موجزة للبحث عن مشكلات البيانات المحتملة
  • سيؤدي التنظيف غير السليم إلى تشويه النتائج عندما نجري EDA بالإضافة إلى ذلك ، ستكون مهارات مناقشة البيانات مطلوبة للحصول على إحصاءات موجزة عبر مجموعات فرعية من البيانات.

عند حساب ملخص الإحصائيات ، يجب أن نأخذ في الاعتبار نوع البيانات التي جمعناها يمكن أن تكون البيانات كمية (كميات قابلة للقياس) أو فئوية (أوصاف أو مجموعات أو فئات) ضمن هذه الفئات من البيانات ، لدينا المزيد من التقسيمات الفرعية التي تتيح لنا معرفة أنواع العمليات التي يمكننا إجراؤها عليها.

على سبيل المثال ، يمكن أن تكون البيانات الفئوية اسمية ، حيث نقوم بتعيين قيمة رقمية لكل مستوى من مستويات الفئة ، مثل on = 1 / off = 0 ، لكن لا يمكننا القول أن أحدهما أكبر من الآخر لأن هذا التمييز لا معنى له .

لا معنى لحقيقة أن التشغيل أكبر من إيقاف التشغيل لأننا اخترنا هذه الأرقام بشكل تعسفي لتمثيل الحالات داخل وخارج. لاحظ أنه في هذه الحالة ، يمكننا تمثيل البيانات باستخدام قيمة منطقية (قيمة صواب / خطأ): is_on.

يمكن أيضًا أن تكون البيانات الفئوية ترتيبية ، مما يعني أنه يمكننا ترتيب المستويات (على سبيل المثال ، يمكن أن يكون لدينا منخفض <متوسط ​​<مرتفع).

باستخدام البيانات الكمية ، يمكننا أن نكون على مقياس فاصل أو مقياس نسبة مقياس الفاصل يشمل أشياء مثل درجة الحرارة.

يمكننا قياس درجات الحرارة بالدرجة المئوية ومقارنة درجات الحرارة في مدينتين ، لكن هذا لا يعني أي شيء يمكن قوله أن إحدى المدن أعلى مرتين من حرارة الأخرى.

لذلك ، يمكن مقارنة قيم مقياس الفاصل بشكل مفيد باستخدام الجمع / الطرح ، ولكن ليس الضرب / القسمة , مقياس النسبة ، إذن ، هو تلك القيم التي يمكن مقارنتها بشكل مفيد بالنسب (باستخدام الضرب والقسمة). تتضمن أمثلة مقياس النسبة الأسعار والأحجام .


استخلاص النتائج Drawing conclusions.

بعد أن قمنا بجمع البيانات لتحليلنا ، وتنظيفها ، وإجراء بعض EDA الشامل ، حان الوقت لاستخلاص النتائج, هذا هو المكان الذي نلخص فيه النتائج التي توصلنا إليها ونقرر الخطوات التالية:

  • هل لاحظنا أي أنماط أو علاقات عند تصور البيانات؟
  • هل يبدو أننا نستطيع عمل تنبؤات دقيقة من بياناتنا؟
  • هل يعقل الانتقال إلى نمذجة البيانات؟
  • هل نحتاج إلى جمع نقاط بيانات جديدة؟
  • كيف يتم توزيع البيانات؟
  • هل تساعدنا البيانات في الإجابة على الأسئلة التي لدينا أو تعطي نظرة ثاقبة للمشكلة التي نتحرى عنها؟
  • هل نحتاج إلى جمع بيانات جديدة أم إضافية؟

الأسس الإحصائية Statistical foundations.

عندما نريد عمل ملاحظات حول البيانات التي نقوم بتحليلها ، فإننا غالبًا ، إن لم يكن دائمًا ، نلجأ إلى الإحصائيات بطريقة ما يشار إلى البيانات التي لدينا على أنها العينة ، والتي تمت ملاحظتها من (وهي مجموعة فرعية من) السكان

هناك فئتان عريضتان من الإحصاء هما الإحصاء الوصفي descriptive statistics – والاستنتاجي Inferential statistics باستخدام الإحصاء الوصفي ، كما يوحي الاسم ، نتطلع إلى وصف العينة , تتضمن الإحصائيات الاستنتاجية استخدام إحصائيات العينة لاستنتاج أو استنتاج شيء عن السكان ، مثل التوزيع الأساسي.

تُستخدم إحصائيات العينة كمقدرات للمعلمات السكانية ، مما يعني أنه يتعين علينا تحديد تحيزها وتباينها

غالبًا ما يكون الهدف من التحليل هو إنشاء قصة للبيانات .


أخذ العينات Sampling.

هناك شيء مهم يجب تذكره قبل أن نحاول إجراء أي تحليل: يجب أن تكون عينتنا عينة عشوائية تمثل السكان هذا يعني أنه يجب أخذ عينات من البيانات دون تحيز (على سبيل المثال ، إذا سألنا الأشخاص عما إذا كانوا يحبون فريقًا رياضيًا معينًا ، فلا يمكننا أن نطلب فقط من مشجعي الفريق) وأنه يجب أن يكون لدينا (من الناحية المثالية) أعضاء من الجميع. مجموعات من السكان في عينتنا (في مثال الفريق الرياضي ، لا يمكننا سؤال الرجال فقط).

هناك طرق عديدة لأخذ العينات. يمكنك أن تقرأ عنها ، جنبًا إلى جنب مع نقاط قوتها وضعفها ، هنا:

https://www.khanacademy.org/math/statistics-probability/designing-studies/sampling-methods-stats/a/sampling-methods-review

الإحصاء الوصفي Descriptive statistics.

سنبدأ مناقشتنا للإحصاء الوصفي بالإحصاءات أحادية المتغير ؛ يعني المتغير الأحادي ببساطة أن هذه الإحصائيات يتم حسابها من متغير واحد (أحادي).

يمكن توسيع كل شيء في هذا القسم ليشمل مجموعة البيانات بأكملها ، ولكن سيتم حساب الإحصائيات لكل متغير نسجله (بمعنى أنه إذا كان لدينا 100 ملاحظة لأزواج السرعة والمسافة ، فيمكننا حساب المتوسطات عبر مجموعة البيانات ، وهو ما سيعطينا متوسط ​​السرعة ومتوسط ​​إحصاءات المسافة).

تُستخدم الإحصائيات الوصفية لوصف / أو تلخيص البيانات التي نعمل معها يمكننا أن نبدأ تلخيص البيانات بمقياس الاتجاه المركزي ، والذي يصف المكان الذي تتمركز فيه معظم البيانات ، وقياس الانتشار أو التشتت ، مما يشير إلى مدى تباعد القيم.


مقاييس النزعة المركزية Measures of central tendency.

تصف مقاييس الاتجاه المركزي مركز توزيعنا للبيانات هناك ثلاثة إحصائيات شائعة تُستخدم كمقاييس للمركز: المتوسط ​​والوسيط – والوضع. لكل منها نقاط قوتها ، اعتمادًا على البيانات التي نعمل معها.


المتوسط Mean .

ربما يكون الإحصاء الأكثر شيوعًا لتلخيص البيانات هو المتوسط ​​ يُشار إلى متوسط ​​المحتوى بالرمز اليوناني mu (μ) ، ويتم كتابة متوسط ​​العينة على أنه ( X-bar). يتم حساب متوسط ​​العينة بجمع جميع القيم والقسمة على عدد القيم ؛ على سبيل المثال .

((1 + 1 + 1 + 2 + 9)/5) 

حد الأشياء المهمة التي يجب ملاحظتها حول المتوسط ​​هو أنه حساس للغاية للقيم المتطرفة (القيم التي تم إنشاؤها بواسطة عملية توليدية مختلفة عن توزيعنا) كنا نتعامل مع خمس قيم فقط ومع ذلك ، فإن الرقم 9 أكبر بكثير من الأرقام الأخرى وسحب المتوسط ​​أعلى من الكل ماعدا 9.

الوسيط Median.

في الحالات التي نشك فيها في وجود القيم المتطرفة في بياناتنا ، قد نرغب في استخدام الوسيط كمقياس للميل المركزي. على عكس المتوسط ​​، فإن الوسيط قوي بالنسبة للقيم المتطرفة .

يمثل الوسيط النسبة المئوية الخمسين لبياناتنا ؛ هذا يعني أن 50٪ من القيم أكبر من الوسيط و 50٪ أقل من المتوسط. يتم حسابها بأخذ القيمة الوسطى من قائمة القيم المرتبة ؛ في الحالات التي يكون لدينا فيها عدد زوجي من القيم ، نأخذ متوسط ​​القيمتين الأوسطتين إذا أخذنا الأرقام [0 ، 1 ، 1 ، 2 ، 9] مرة أخرى ، فإن الوسيط هو 1.


الوضع Mode .

الوضع هو القيمة الأكثر شيوعًا في البيانات (إذا كان لدينا [0 ، 1 ، 1 ، 2 ، 9] ، إذن 1 هو الوضع). من الناحية العملية ، هذا ليس مفيدًا كما قد يبدو ، لكننا غالبًا ما نسمع أشياء مثل التوزيع ثنائي الوسائط أو متعدد الوسائط (على عكس أحادي الوسائط) في الحالات التي يكون للتوزيع فيها قيمتان أو أكثر من القيم الأكثر شيوعًا.

هذا لا يعني بالضرورة أن كل واحد منهم قد حدث بنفس المقدار من المرات ، ولكنه ، بدلاً من ذلك ، أكثر شيوعًا من القيم الأخرى بمقدار كبير. كما هو موضح في المخططات التالية ، يحتوي التوزيع أحادي الوسائط على وضع واحد فقط (عند 0) ، وللتوزيع ثنائي الوسائط وضعان (عند -2 و 3) ، وللتوزيع متعدد الوسائط العديد (عند -2 و 0.4 و 3):

2
2

يكون فهم مفهوم الوضع مفيدًا عند وصف التوزيعات المستمرة ؛ ومع ذلك ، في معظم الأوقات عندما نصف بياناتنا ، سنستخدم إما المتوسط ​​أو الوسيط كمقياس للميل المركزي.


مقاييس الانتشار Measures of spread.

إن معرفة مكان مركز التوزيع يجعلنا جزئيًا قادرين على تلخيص توزيع بياناتنا – نحتاج إلى معرفة كيف تقع القيم حول المركز ومدى تباعدها تخبرنا مقاييس الانتشار عن كيفية تشتت البيانات ؛ سيشير هذا إلى مدى رقة توزيعنا (تشتت منخفض) أو واسع (منتشر للغاية). كما هو الحال مع مقاييس الاتجاه المركزي ، لدينا عدة طرق لوصف انتشار التوزيع ، وسيعتمد أي منها على الموقف والبيانات.


النطاق Range.

النطاق هو المسافة بين أصغر قيمة (أدنى) وأكبر قيمة (الحد الأقصى): ستكون وحدات النطاق هي نفس وحدات بياناتنا. لذلك ، ما لم يكن توزيعان للبيانات في نفس الوحدات وقياس الشيء نفسه ، لا يمكننا مقارنة نطاقاتهما ونقول إن أحدهما أكثر تشتتًا من الآخر.


الإختلاف Variance.

فقط من تعريف النطاق ، يمكننا أن نرى لماذا لا يكون ذلك دائمًا أفضل طريقة لقياس انتشار بياناتنا إنه يعطينا الحدود العليا والسفلى لما لدينا في البيانات ، ومع ذلك ، إذا كان لدينا أي قيم متطرفة في بياناتنا ، فسيصبح النطاق عديم الفائدة. مشكلة أخرى في النطاق هو أنه لا يخبرنا كيف تشتت البيانات حول مركزه ؛ إنه يخبرنا فقط عن مدى تشتت مجموعة البيانات بأكملها.


الانحراف المعياري Standard deviation.

يعطينا التباين إحصائية بوحدات مربعة هذا يعني أننا إذا بدأنا ببيانات حول الناتج المحلي الإجمالي بالدولار ، فسيكون الفرق لدينا بالدولار المربع (2 دولار). هذا ليس مفيدًا حقًا عندما نحاول أن نرى كيف يصف هذا البيانات ؛ يمكننا استخدام الحجم نفسه لمعرفة مدى انتشار شيء ما (القيم الكبيرة = انتشار كبير) ، ولكن بعد ذلك ، نحتاج إلى قياس الانتشار بوحدات مماثلة لبياناتنا لهذا الغرض ، نستخدم الانحراف المعياري ، وهو ببساطة الجذر التربيعي للتباين من خلال إجراء هذه العملية ، نحصل على إحصائية بالوحدات التي يمكننا فهمها مرة أخرى.


يمكننا استخدام الانحراف المعياري لمعرفة مدى البعد عن متوسط ​​نقاط البيانات في المتوسط , الانحراف المعياري الصغير يعني أن القيم قريبة من المتوسط ​​؛ يعني الانحراف المعياري الكبير أن القيم مشتتة على نطاق أوسع يمكن ربط هذا بكيفية تخيلنا لمنحنى التوزيع: فكلما كان الانحراف المعياري أصغر ، كانت قمة المنحنى أكثر نحافة ؛ كلما زاد الانحراف المعياري ، كانت ذروة المنحنى أسمن. المخطط التالي عبارة عن مقارنة بين الانحراف المعياري من 0.5 إلى 2:

3
3

معامل الاختلاف Coefficient of variation.

عندما انتقلنا من التباين إلى الانحراف المعياري ، كنا نتطلع إلى الوصول إلى وحدات منطقية ؛ ومع ذلك ، إذا أردنا بعد ذلك مقارنة مستوى تشتت مجموعة بيانات واحدة بأخرى ، فسنحتاج إلى الحصول على نفس الوحدات مرة أخرى إحدى الطرق للتغلب على ذلك هي حساب معامل التباين (CV) ، وهو نسبة الانحراف المعياري إلى المتوسط يخبرنا مدى حجم الانحراف المعياري بالنسبة للمتوسط:


الإنحراف الربيعي Interquartile range.

الانحراف الربيعي في الإحصاء الوصفي ويسمى الانحراف الربيعي أيضاً نصف المدى الربيعي ، ويسمى كذلك الربيع الثاني أسوة بالربيع الأول والثالث وهو أفضل من المدى لأنه لا يتأثر بالقيم المتطرفة مستبعد القيم المتطرفة من الأعلى والأسفل


معامل التشتت الربعي Quartile coefficient of dispersion.

تمامًا كما حصلنا على معامل التباين عند استخدام المتوسط ​​كمقياس للاتجاه المركزي ، لدينا معامل التشتت الربيعي عند استخدام الوسيط كمقياس للمركز هذا الإحصاء أيضًا بدون وحدة ، لذا يمكن استخدامه لمقارنة مجموعات البيانات.


الإحصاء الاستدلالي Inferential statistics.

كما ذكرنا سابقًا ، تتعامل الإحصاءات الاستدلالية مع استنتاج أو استنتاج أشياء من بيانات العينة التي لدينا من أجل إصدار بيانات حول السكان ككل عندما نتطلع إلى ذكر استنتاجاتنا ، علينا أن ننتبه إلى ما إذا كنا قد أجرينا دراسة قائمة على الملاحظة أو تجربة.

الدراسة القائمة على الملاحظة حيث لا يكون المتغير المستقل تحت سيطرة الباحثين ، ولذا فإننا نراقب أولئك المشاركين في دراستنا (فكر في الدراسات حول التدخين – لا يمكننا إجبار الناس على التدخين). حقيقة أننا لا نستطيع التحكم في المتغير المستقل تعني أنه لا يمكننا استنتاج السببية.

التجربة هي المكان الذي يمكننا فيه التأثير بشكل مباشر على المتغير المستقل وتخصيص الموضوعات بشكل عشوائي لمجموعات التحكم والاختبار ، مثل اختبارات A / B (لأي شيء من إعادة تصميم موقع الويب إلى نسخ الإعلان). لاحظ أن المجموعة الضابطة لا تتلقى العلاج ؛ يمكن إعطاؤهم دواءً وهميًا (اعتمادًا على ماهية الدراسة). الإعداد المثالي لهذا ستكون مزدوجة التعمية ، حيث لا يعرف الباحثون الذين يديرون العلاج ما هو الدواء الوهمي ولا يعرفون أيضًا أي موضوع ينتمي إلى أي مجموعة.

تعطينا الإحصائيات الاستدلالية أدوات لترجمة فهمنا لبيانات العينة إلى بيان حول السكان تذكر أن إحصائيات العينة التي ناقشناها سابقًا هي تقديرات لمعلمات المجتمع يحتاج مقدرونا إلى فترات ثقة توفر تقديرًا نقطيًا وهامشًا للخطأ حولها هذا هو النطاق الذي سيكون فيه معلمة السكان الحقيقية عند مستوى ثقة معين.

زر الذهاب إلى الأعلى