السير الذاتية صفات تحليل

طرق الإحصاء الرياضي في VK. للطلاب وأطفال المدارس - كتب وإحصاءات رياضية

"يعتقد بعض الناس أنهم على حق دائمًا. لا يمكن لمثل هؤلاء الأشخاص أن يكونوا علماء جيدين ولا أي اهتمام بالإحصاءات ... تم إحضار القضية من السماء إلى الأرض ، حيث أصبحت جزءًا من عالم العلم. " (ديمند س.)

"الفرصة ليست سوى مقياس لجهلنا. الظواهر العشوائية ، إذا حددناها ، ستكون تلك التي لا نعرف قوانينها. (A. Poincare "Science and Hypothesis")

”المجد لهذه المناسبة. أليس كذلك
دائما على قدم المساواة مع غير القابل للتغيير ...
غالبًا ما يحكم الحظ الحدث ،
يولد الفرح والألم.
والحياة تضع أمامنا مهمة:
كيفية فهم دور الصدفة "
(من كتاب B.A. Kordemsky "الرياضيات تدرس العشوائية")

العالم نفسه منتظم - هذه هي الطريقة التي نفكر بها في كثير من الأحيان وندرس قوانين الفيزياء والكيمياء وما إلى ذلك ، ومع ذلك لا يحدث شيء دون تدخل الصدفة ، الذي ينشأ تحت تأثير العلاقات السببية غير الثابتة والثانوية التي تغير مسار الظاهرة أو التجربة عند تكرارها. يتم إنشاء "التأثير العشوائي" مع الانتظام المتأصل في "القدر الخفي" ، أي فرصة لها حاجة للحصول على نتيجة منتظمة.

ينظر علماء الرياضيات إلى الأحداث العشوائية فقط في معضلة "أن تكون أو لا تكون" - تأتي أو لا تأتي.

تعريف.يسمى فرع الرياضيات التطبيقية الذي يدرس الخصائص الكمية للأحداث أو الظواهر العشوائية الجماعية الإحصاء الرياضي.

تعريف.يسمى الجمع بين عناصر نظرية الاحتمالات والإحصاء الرياضي العشوائية.

تعريف. العشوائية- هذا هو فرع الرياضيات الذي نشأ ويتطور بشكل وثيق مع الأنشطة العملية للإنسان. اليوم ، يتم تضمين عناصر الاستوكاستك في الرياضيات للجميع ، لتصبح جانبًا جديدًا ومهمًا في التربية الرياضية والعامة.

تعريف. إحصائيات الرياضيات- علم الأساليب الرياضية لتنظيم ومعالجة واستخدام البيانات الإحصائية للاستنتاجات العلمية والعملية.

دعنا نتحدث عن هذا بمزيد من التفصيل.

وجهة النظر حول الإحصاء الرياضي كعلم للطرق العامة لمعالجة نتائج التجربة مقبولة بشكل عام الآن. في حل هذه المشكلات ، ما الذي يجب أن تحتويه التجربة حتى تكون الأحكام الصادرة على أساسها صحيحة. أصبحت الإحصائيات الرياضية جزئيًا علم التصميم التجريبي.

لقد خضع معنى كلمة "إحصاء" على مدى القرنين الماضيين لتغييرات كبيرة ، كما كتب العلماء المعاصرون المشهورون هودجز وليمان ، فكلمة "إحصاء" لها نفس جذر كلمة "حالة" (دولة) وتعني في الأصل فن وعلم الإدارة: يُطلق اليوم على أول معلمي الإحصاء الجامعي في ألمانيا في القرن الثامن عشر اسم علماء الاجتماع. لأن القرارات الحكومية تعتمد إلى حد ما على بيانات عن السكان والصناعة وما إلى ذلك. أصبح الإحصائيون بالطبع مهتمين بمثل هذه البيانات ، وبدأت كلمة "إحصاء" تدريجيًا تعني جمع البيانات عن السكان ، والدولة ، ثم بشكل عام جمع البيانات ومعالجتها. لا جدوى من استخراج البيانات إذا لم تكن هناك فائدة يمكن الحصول عليها ، ومن الطبيعي أن يشارك الإحصائيون في تفسير البيانات.

يدرس الإحصائي الحديث الأساليب التي يمكن من خلالها إجراء استنتاجات حول السكان من البيانات التي يتم الحصول عليها عادةً من عينة من "السكان".

تعريف. إحصائي- الشخص الذي يتعامل مع علم الأساليب الرياضية لتنظيم ومعالجة واستخدام البيانات الإحصائية لاستنتاجات علمية وعملية.

نشأت الإحصاءات الرياضية في القرن السابع عشر وتطورت بالتوازي مع نظرية الاحتمالات. يرجع التطور الإضافي للإحصاءات الرياضية (النصف الثاني من القرن التاسع عشر وأوائل القرن العشرين) في المقام الأول إلى P.L. تشيبيشيف ، أ. ماركوف ، أ. Lyapunov ، K. Gauss ، A. Quetelet ، F. Galton ، K Pearson ، وآخرون.في القرن العشرين ، قدم A.N. كولموغوروف ، ف. رومانوفسكي ، إي. سلوتسكي ، ن. سميرنوف ، ب. Gnedenko ، وكذلك طالب اللغة الإنجليزية R. Fisher و E. Purson والعلماء الأمريكيون (Yu. Neumann ، A Wald).

مشاكل الإحصاء الرياضي ومعنى الخطأ في عالم العلوم

يعتمد إنشاء الأنماط التي تخضع لها الظواهر العشوائية الجماعية على دراسة البيانات الإحصائية لنتائج الملاحظة بواسطة طرق نظرية الاحتمالات.

تتمثل المهمة الأولى للإحصاء الرياضي في الإشارة إلى طرق جمع وتجميع المعلومات الإحصائية التي تم الحصول عليها نتيجة للملاحظات أو نتيجة لتجارب مصممة خصيصًا.

المهمة الثانية للإحصاء الرياضي هي تطوير طرق لتحليل البيانات الإحصائية اعتمادًا على أهداف الدراسة.

تعمل الإحصائيات الرياضية الحديثة على تطوير طرق لتحديد عدد الاختبارات المطلوبة قبل بدء الدراسة (تخطيط التجربة) ، أثناء الدراسة (التحليل المتسلسل). يمكن تعريفه على أنه علم اتخاذ القرار في ظل عدم اليقين.

باختصار ، يمكننا القول أن مهمة الإحصاء الرياضي هي إنشاء طرق لجمع البيانات الإحصائية ومعالجتها.

عند دراسة ظاهرة عشوائية جماعية ، يُفترض أن جميع الاختبارات يتم إجراؤها في نفس الظروف ، أي مجموعة العوامل الرئيسية التي يمكن أخذها في الاعتبار (قياسها) ولها تأثير كبير على نتيجة الاختبار ، تحتفظ بنفس القيم قدر الإمكان.

العوامل العشوائية تشوه النتيجة التي كان من الممكن الحصول عليها في حالة وجود العوامل الرئيسية فقط ، مما يجعلها عشوائية. يسمى انحراف نتيجة كل اختبار عن الاختبار الصحيح خطأ الملاحظة ، وهو متغير عشوائي. من الضروري التمييز بين الأخطاء المنهجية والعشوائية.

تجربة علمية لا يمكن تصورها بدون خطأ ، مثل المحيط بدون ملح. أي تيار من الحقائق التي تضيف إلى معرفتنا يجلب نوعًا من الخطأ. وبحسب قول مشهور في حياة معظم الناس ، لا شيء مؤكد إلا الموت والضرائب ، ويضيف العالم: "وأخطاء التجربة".

الإحصائي هو "كلب صيد" يبحث عن حشرة. أداة إحصائية لاكتشاف الأخطاء.

كلمة "خطأ" لا تعني ببساطة "سوء تقدير". تعتبر عواقب سوء التقدير مصدرًا صغيرًا وغير مهم نسبيًا للخطأ التجريبي.

في الواقع ، أدواتنا تنكسر ؛ يمكن لأعيننا وآذاننا أن تخدعنا. قياساتنا ليست دقيقة تمامًا أبدًا ، وأحيانًا تكون حساباتنا الحسابية خاطئة. الخطأ التجريبي هو شيء أكثر أهمية من شريط القياس غير الدقيق أو الوهم البصري. وبما أن أهم وظيفة للإحصاء هي مساعدة العلماء على تحليل الخطأ التجريبي ، يجب أن نحاول فهم ماهية الخطأ حقًا.

مهما كانت المشكلة التي يعمل عليها العالم ، فمن المؤكد أنها ستكون أكثر تعقيدًا مما يريد. افترض أنه يقيس التساقط الإشعاعي عند خطوط العرض المختلفة. ستعتمد النتائج على ارتفاع الأماكن التي تم فيها جمع العينات ، وكمية هطول الأمطار المحلية والأعاصير على ارتفاعات عالية فوق منطقة أوسع.

يعد الخطأ التجريبي جزءًا لا يتجزأ من أي تجربة علمية حقًا.

يمكن أن تكون النتيجة نفسها خطأ ومعلومات حسب المشكلة ووجهة النظر. إذا رغب عالم أحياء في التحقيق في كيفية تأثير التغيير في النظام الغذائي على النمو ، فإن وجود دستور مرتبط به يكون مصدرًا للخطأ ؛ إذا درس العلاقة بين الوراثة والنمو ، فسيكون مصدر الخطأ هو الاختلافات في التغذية. إذا أراد الفيزيائي التحقيق في العلاقة بين التوصيل الكهربائي ودرجة الحرارة ، فإن الاختلافات في كثافة المادة الموصلة تعتبر مصدرًا للخطأ ؛ إذا درس العلاقة بين هذه الكثافة والتوصيل الكهربائي ، فإن التغيرات في درجات الحرارة ستكون مصدرًا للخطأ.

قد يبدو هذا الاستخدام لخطأ الكلمة مشكوكًا فيه ، وربما يكون من الأفضل القول إن التأثيرات الناتجة مشوهة بتأثيرات "غير مقصودة" أو "غير مرغوب فيها". نحن نخطط لتجربة لدراسة التأثيرات المعروفة ، لكن العوامل العشوائية التي لا نستطيع توقعها أو تحليلها تشوه النتائج بإضافة آثارها الخاصة إليها.

الفرق بين التأثيرات المخطط لها والآثار الناتجة عن أسباب عرضية هو مثل الفرق بين تحركات السفينة في البحر والإبحار في مسار معين والسفينة التي تنجرف بلا هدف بناءً على الرياح والتيارات المتغيرة. يمكن تسمية حركة السفينة الثانية بالحركة العشوائية. من الممكن أن تصل هذه السفينة إلى أي ميناء ، ولكن من الأرجح أنها لن تصل إلى أي مكان معين.

يستخدم الإحصائيون كلمة "عشوائي" للإشارة إلى ظاهرة يكون من المستحيل تمامًا التنبؤ بنتائجها في وقت لاحق.

الخطأ الناتج عن التأثيرات المتوخاة في التجربة يكون في بعض الأحيان أكثر منهجية من العشوائية.

الخطأ المنهجي أكثر تضليلًا من الخطأ العشوائي. يمكن أن يؤدي التداخل من محطة راديو أخرى إلى إنشاء مرافقة موسيقية منتظمة يمكنك أحيانًا التنبؤ بها إذا كنت تعرف اللحن. لكن هذه "المصاحبة" يمكن أن تجعلنا نصدر أحكامًا خاطئة حول كلمات أو موسيقى البرنامج التي نحاول سماعها.

ومع ذلك ، غالبًا ما يقودنا اكتشاف خطأ منهجي إلى مسار اكتشاف جديد. تساعدنا معرفة كيفية حدوث الأخطاء العشوائية في اكتشاف الأخطاء المنهجية وبالتالي التخلص منها.

نفس طبيعة التفكير شائعة في شؤوننا الدنيوية. كم مرة نلاحظ: "هذه ليست مصادفة!". كلما أمكننا قول ذلك ، فإننا نسير على طريق الاكتشاف.

على سبيل المثال ، A.L. Chizhevsky ، تحليل العمليات التاريخية: زيادة معدل الوفيات ، والأوبئة ، واندلاع الحروب ، والهجرات الكبيرة للشعوب ، والتغيرات المناخية المفاجئة ، إلخ. اكتشف العلاقة بين هذه العمليات غير المرتبطة وفترات النشاط الشمسي ، والتي لها دورات: 11 سنة ، 33 سنة.

تعريف. تحت خطأ منهجييُفهم على أنه خطأ يتكرر ونفس الشيء بالنسبة لجميع الاختبارات. عادة ما يرتبط بالسلوك الخاطئ للتجربة.

تعريف. تحت أخطاء عشوائيةيشير إلى الأخطاء التي تنشأ تحت تأثير العوامل العشوائية وتتغير عشوائيًا من تجربة إلى أخرى.

عادةً ما يكون توزيع الأخطاء العشوائية متماثلًا حول الصفر ، مما يؤدي إلى نتيجة مهمة: في حالة عدم وجود أخطاء منهجية ، تكون نتيجة الاختبار الحقيقية هي التوقع الرياضي لمتغير عشوائي ، يتم تحديد قيمته المحددة في كل اختبار.

يمكن أن تكون كائنات الدراسة في الإحصاء الرياضي سمات نوعية أو كمية للظاهرة أو العملية قيد الدراسة.

في حالة السمة النوعية ، يتم حساب عدد تكرارات هذه السمة في سلسلة التجارب المعتبرة ؛ هذا الرقم هو المتغير العشوائي (المنفصل) قيد الدراسة. ومن أمثلة سمات الجودة العيوب في الجزء النهائي ، والتركيبة السكانية ، وما إلى ذلك. إذا كانت العلامة كمية ، فيتم إجراء قياس مباشر أو غير مباشر في التجربة بالمقارنة مع معيار معين - وحدة قياس - باستخدام أدوات قياس مختلفة. على سبيل المثال ، إذا كانت هناك مجموعة من الأجزاء ، فيمكن أن يكون معيار الجزء بمثابة علامة نوعية ، ويمكن أن يكون الحجم المتحكم به للجزء بمثابة علامة كمية.

التعاريف الأساسية

يرتبط جزء كبير من الإحصاء الرياضي بالحاجة إلى وصف مجموعة كبيرة من الكائنات.

تعريف.تسمى المجموعة الكاملة للأشياء المراد دراستها عامة السكان.

يمكن أن يكون إجمالي عدد السكان هو إجمالي عدد سكان الدولة ، والإنتاج الشهري للمصنع ، وعدد الأسماك التي تعيش في خزان معين ، وما إلى ذلك.

لكن عامة السكان ليسوا مجرد مجموعة. إذا كانت مجموعة الأشياء التي تهمنا كثيرة جدًا ، أو كان من الصعب الوصول إلى الأشياء ، أو كانت هناك أسباب أخرى لا تسمح بدراسة جميع الكائنات ، فإنهم يلجأون إلى دراسة جزء من الأشياء.

تعريف.يسمى هذا الجزء من الأشياء التي يجب فحصها ودراستها وما إلى ذلك عينة من السكانأو ببساطة عينة.

تعريف.يسمى عدد العناصر في عموم السكان والعينة بهم أحجام.

كيفية التأكد من أن العينة تمثل الكل بشكل أفضل ، أي سيكون ممثل؟

إذا كان عدد صحيح ، أي إذا كان عامة السكان قليلًا أو غير معروفين تمامًا بالنسبة لنا ، فلا شيء أفضل من الاختيار العشوائي البحت. يسمح لك الوعي الأكبر بالتصرف بشكل أفضل ، ولكن لا يزال الجهل في مرحلة ما يندرج ضمن الاختيار العشوائي ، ونتيجة لذلك.

ولكن كيف يتم اختيار عشوائي بحت؟ كقاعدة عامة ، يعتمد الاختيار على سمات يمكن ملاحظتها بسهولة ، لدراسة البحث الذي يتم إجراؤه.

أدى انتهاك مبادئ الاختيار العشوائي إلى أخطاء جسيمة. اشتهر بفشل استطلاع أجرته المجلة الأمريكية Literaturnoye Obozrenie حول نتائج الانتخابات الرئاسية عام 1936. المرشحون في هذه الانتخابات هم ف.د. روزفلت وأ. على الأرض.

من ربح؟

بصفة عامة ، استخدم المحررون دفاتر الهاتف. بعد اختيار 4 ملايين عنوان بشكل عشوائي ، أرسلت بطاقات بريدية بأسئلة حول الموقف تجاه المرشحين للرئاسة في جميع أنحاء البلاد. بعد إنفاق مبلغ كبير على إرسال البطاقات البريدية ومعالجتها ، أعلنت المجلة أن لاندون سيفوز في الانتخابات الرئاسية المقبلة بأغلبية ساحقة. تبين أن نتيجة الانتخابات جاءت عكس هذه التوقعات.

كان هناك خطأان هنا. أولاً ، لا تقدم دفاتر الهاتف عينة تمثيلية لسكان الولايات المتحدة - معظمهم من أرباب الأسر الأثرياء. ثانيًا ، لم يرسل جميع الأشخاص إجابات ، ولكن جزءًا مهمًا من ممثلي عالم الأعمال ، الذين دعموا لاندون.

في الوقت نفسه ، تنبأ عالما الاجتماع جي جالان وإي. وارنر بشكل صحيح بانتصار ف.د. روزفلت ، بناءً على أربعة آلاف استبيان فقط. لم يكن سبب هذا النجاح مجرد الاختيار الصحيح للعينة. لقد أخذوا في الاعتبار أن المجتمع ينقسم إلى مجموعات اجتماعية أكثر تجانسًا فيما يتعلق بالمرشحين للرئاسة. لذلك ، يمكن أن تكون العينة من الطبقة صغيرة نسبيًا بنفس نتيجة الدقة. في النهاية ، فاز روزفلت ، الذي كان مؤيدًا للإصلاحات لشرائح السكان الأقل ثراءً.

بعد الحصول على نتائج المسح حسب الطبقات ، من الممكن وصف المجتمع ككل.

ما هي العينات؟

هذه صفوف من الأرقام.

دعونا نتناول المزيد من التفاصيل حول المفاهيم الأساسية التي تميز سلسلة العينات.

تم أخذ عينة من الحجم n من عامة السكان > n 1 ، حيث n 1 هو عدد المرات التي لوحظ فيها ظهور x 1 ، n 2 - x 2 ، إلخ.

تسمى القيم المرصودة لـ x i خيارات ، ويسمى تسلسل الخيارات المكتوبة بترتيب تصاعدي سلسلة التباين. يُطلق على عدد المشاهدات n i الترددات و n i / n - الترددات النسبية (أو الترددات).

تعريف.يتم استدعاء القيم المختلفة للمتغير العشوائي خيارات.

تعريف. سلسلة الاختلافتسمى سلسلة مرتبة بترتيب تصاعدي (أو تنازلي) للخيارات مع الترددات المقابلة لها (الترددات).

عند دراسة السلاسل المتغيرة ، جنبًا إلى جنب مع مفاهيم التردد ، يتم استخدام مفهوم التردد المتراكم. تم العثور على الترددات المتراكمة (الترددات) لكل فاصل من خلال الجمع المتتالي لترددات جميع الفترات السابقة.

تعريف.يسمى تراكم الترددات أو الترددات تراكم. يمكنك تجميع خيارات التردد والفترات الزمنية.

يمكن أن تكون خصائص السلسلة كمية ونوعية.

الخصائص الكمية (المتغيرة)هي الخصائص التي يمكن التعبير عنها بالأرقام. وهي مقسمة إلى منفصلة ومستمرة.

الخصائص النوعية (السمة)هي الخصائص التي لا يتم التعبير عنها بالأرقام.

المتغيرات المستمرةهي المتغيرات التي يتم التعبير عنها كأرقام حقيقية.

المتغيرات المنفصلةهي المتغيرات التي يتم التعبير عنها فقط كأعداد صحيحة.

تتميز العينات الاتجاهات المركزية: متوسط ​​، وضع ومتوسط. القيمة المتوسطة للعينة هي المتوسط ​​الحسابي لجميع قيمها. وضع العينة هو القيم التي تحدث بشكل متكرر. وسيط العينة هو الرقم الذي "يقسم" المجموعة المرتبة لجميع قيم العينة إلى النصف.

يمكن أن تكون سلسلة التباين منفصلة أو مستمرة.

مهمة

العينة المعطاة: 1.3 ؛ 1.8 ؛ 1.2 ؛ 3.0 ؛ 2.1 ؛ 5 ؛ 2.4 ؛ 1.2 ؛ 3.2 ؛ 1.2 ؛ 4 ؛ 2.4

إنها مجموعة من الخيارات. بترتيب هذه الخيارات بترتيب تصاعدي ، نحصل على سلسلة متباينة: 1.2 ؛ 1.2 ؛ 1.2 ؛ 1.3 ؛ 1.8 ؛ 2.1 ؛ 2.4 ؛ 2.4 ؛ 3.0 ؛ 3.2 ؛ 4 ؛ 5.

متوسط ​​قيمة هذه السلسلة هو 2.4.

متوسط ​​السلسلة 2.25.

وضع السلسلة هو -1،2.

دعنا نحدد هذه المفاهيم.

تعريف. وسيط سلسلة التباينتسمى قيمة المتغير العشوائي ، والتي تقع في منتصف السلسلة المتغيرة (Me).

وسيط سلسلة أرقام مرتبة مع عدد فردي من الأعضاء هو الرقم المكتوب في المنتصف ، والوسيط لسلسلة أرقام مرتبة مع عدد زوجي من الأعضاء هو المتوسط ​​الحسابي للرقمين المكتوبين في المنتصف. إن وسيط سلسلة عشوائية من الأرقام هو متوسط ​​السلسلة المرتبة المقابلة.

تعريف. سلسلة فوغقم بتسمية المتغير (قيمة المتغير العشوائي) ، والذي يتوافق مع أعلى تردد (Mo) ، أي وهو أكثر شيوعًا من غيره.

تعريف. المتوسط ​​الحسابي لسلسلة التبايناتيتم استدعاء نتيجة قسمة مجموع قيم المتغير الإحصائي على عدد هذه القيم ، أي بعدد المصطلحات.

قاعدة إيجاد المتوسط ​​الحسابي للعينة:

  1. اضرب كل خيار بتردده (تعدده) ؛
  2. اجمع كل الأعمال الناتجة ؛
  3. قسّم المجموع الذي تم العثور عليه على مجموع كل الترددات.

تعريف. صف الاجتياحهو الفرق بين R = x max -x min ، أي أكبر وأصغر قيم لهذه الخيارات.

دعنا نتحقق مما إذا كنا قد وجدنا القيمة المتوسطة لهذه السلسلة والوسيط والوضع بشكل صحيح ، بناءً على التعريفات.

قمنا بحساب عدد الأعضاء ، هناك 12 منهم - عدد زوجي من الأعضاء ، لذلك تحتاج إلى إيجاد المتوسط ​​الحسابي للعددين المكتوبين في المنتصف ، أي الخياران السادس والسابع. (2.1 + 2.4) \ u003d 2.25 - متوسط.

موضة. المود هو 1.2 لأن فقط هذا الرقم يحدث 3 مرات ، والباقي يحدث أقل من 3 مرات.

نجد المتوسط ​​الحسابي على النحو التالي:

(1,2*3+1,3+1,8+2,1+2,4*2+3,0+3,2 +4+5)\12=2,4

دعونا نصنع طاولة

تسمى هذه الجداول جداول التردد. في نفوسهم ، أرقام السطر الثاني هي الترددات ؛ أنها تظهر عدد المرات التي تحدث فيها واحدة أو أخرى من قيمها في العينة.

تعريف. التردد النسبيقيم العينة هي نسبة ترددها إلى عدد جميع قيم العينة.

الترددات النسبية تسمى الترددات. الترددات والترددات تسمى أوزان. أوجد مدى السلسلة: R = 5-1.2 = 3.8 ؛ نطاق السلسلة 3.8.

معلومات للفكر

المتوسط ​​الحسابي هو قيمة شرطية. إنه غير موجود حقًا. في الواقع ، هناك مجموع. لذلك ، فإن المتوسط ​​الحسابي ليس من سمات ملاحظة واحدة ؛ يميز المسلسل ككل.

متوسط ​​القيمةيمكن تفسيره على أنه مركز تشتت قيم السمة المرصودة ، أي القيمة ، التي تتقلب حولها جميع القيم المرصودة ، ويكون مجموع الانحرافات الجبرية عن المتوسط ​​دائمًا يساوي صفرًا ، أي مجموع الانحرافات عن المتوسط ​​لأعلى أو لأسفل يساوي بعضها البعض.

متوسطهي كمية مجردة (معممة). حتى عند تحديد سلسلة من الأعداد الطبيعية فقط ، يمكن التعبير عن متوسط ​​القيمة كرقم كسري. مثال: متوسط ​​درجات الاختبار هو 3.81.

متوسط ​​القيمةتم العثور عليه ليس فقط للكميات المتجانسة. متوسط ​​غلة الحبوب في جميع أنحاء البلاد (الذرة - 50-60 سنتًا لكل هكتار والحنطة السوداء - 5-6 سنتات لكل هكتار ، والجاودار ، والقمح ، وما إلى ذلك) ، ومتوسط ​​استهلاك الغذاء ، ومتوسط ​​الدخل القومي للفرد ، ومتوسط ​​المعروض من المساكن ، والمتوسط ​​المرجح للإسكان التكلفة ، ومتوسط ​​كثافة العمالة في تشييد المباني ، وما إلى ذلك. - هذه هي خصائص الدولة كنظام اقتصادي واحد ، وهذه هي ما يسمى بمتوسطات النظام.

في الإحصاء ، يتم استخدام هذه الخصائص على نطاق واسع مثل الوضع والوسيط. يطلق عليهم المتوسطات الهيكلية ، لأن يتم تحديد قيم هذه الخصائص من خلال الهيكل العام لسلسلة البيانات.

في بعض الأحيان ، قد يكون للصف وضعان ، وأحيانًا قد لا يحتوي الصف على وضع.

موضةهو المؤشر الأكثر قبولًا في تحديد تغليف بعض المنتجات ، والذي يفضله المشترون ؛ أسعار السلع من هذا النوع الشائعة في السوق ؛ مثل مقاس الحذاء ، الملابس ، الأكثر طلبًا ؛ رياضة يفضلها غالبية سكان البلد أو المدينة أو قرية المدرسة ، إلخ.

في البناء ، هناك 8 خيارات لعرض الألواح ، وغالبًا ما يتم استخدام 3 أنواع: 1 متر 1.2 متر و 1.5 متر.هناك 33 خيارًا للبلاطة بطول الطول ، ولكن غالبًا ما يتم استخدام الألواح بطول 4.8 متر ؛ 5.7 م و 6.0 م ، فإن نمط الألواح هو الأكثر شيوعًا بين هذه الأحجام الثلاثة. يمكن قول الشيء نفسه عن العلامات التجارية للنوافذ.

يتم العثور على وضع سلسلة من البيانات عندما يريدون تحديد بعض المؤشرات النموذجية.

يمكن التعبير عن الوضع بالأرقام والكلمات ، من حيث الإحصائيات ، فإن الوضع هو التردد الأقصى.

الوسيطيسمح لك بأخذ المعلومات المتعلقة بسلسلة من البيانات بعين الاعتبار ، مما يعطي المتوسط ​​الحسابي والعكس صحيح.

طرق الإحصاء الرياضي


1 المقدمة

الإحصاء الرياضي هو علم يطور طرقًا للحصول على البيانات التجريبية ووصفها ومعالجتها من أجل دراسة أنماط ظواهر الكتلة العشوائية.

في الإحصاء الرياضي ، يمكن تمييز مجالين: الإحصاء الوصفي والإحصاء الاستقرائي (الاستدلال الإحصائي). يهتم الإحصاء الوصفي بتجميع البيانات التجريبية وتنظيمها وعرضها في شكل مناسب. تتيح لنا الإحصاءات الاستقرائية على أساس هذه البيانات استخلاص استنتاجات معينة حول الكائنات التي يتم جمع البيانات عنها ، أو تقديرات معلماتها.

المجالات النموذجية للإحصاء الرياضي هي:

1) نظرية أخذ العينات.

2) نظرية التقديرات.

3) اختبار الفرضيات الإحصائية.

4) تحليل الانحدار.

5) تحليل التباين.

يعتمد الإحصاء الرياضي على عدد من المفاهيم الأولية ، والتي بدونها يستحيل دراسة الأساليب الحديثة لمعالجة البيانات التجريبية. في عدد من أولها ، يمكننا وضع مفهوم عامة السكان والعينة.

في الإنتاج الصناعي الضخم ، غالبًا ما يكون من الضروري تحديد ما إذا كانت جودة المنتج تفي بالمعايير دون التحقق من كل منتج مُصنَّع. نظرًا لأن عدد المنتجات المصنعة كبير جدًا أو يرتبط التحقق من المنتجات بإدخالها في حالة سيئة ، يتم فحص عدد صغير من المنتجات. بناءً على هذا الفحص ، يجب التوصل إلى استنتاج بشأن سلسلة المنتجات بأكملها. بالطبع ، لا يمكن للمرء أن يقول أن جميع الترانزستورات من مجموعة من مليون قطعة جيدة أو سيئة عن طريق التحقق من إحداها. من ناحية أخرى ، نظرًا لأن عملية اختيار العينات للاختبار والاختبارات نفسها يمكن أن تستغرق وقتًا طويلاً وتؤدي إلى ارتفاع التكاليف ، يجب أن يكون نطاق التحقق من المنتج بحيث يمكن أن يعطي تمثيلًا موثوقًا لمجموعة المنتجات بأكملها ، من الحد الأدنى للحجم. تحقيقا لهذه الغاية ، نقدم عددا من المفاهيم.

المجموعة الكاملة للأشياء المدروسة أو البيانات التجريبية تسمى عامة السكان. سنشير بواسطة N إلى عدد الكائنات أو مقدار البيانات التي تشكل عموم السكان. تسمى قيمة N حجم السكان. إذا كانت N >> 1 ، أي N كبيرة جدًا ، فعادة ما يتم اعتبار N = ¥.

العينة العشوائية أو العينة ببساطة هي جزء من عامة السكان ، يتم اختيارها عشوائيًا منها. تعني كلمة "عشوائيًا" أن احتمال اختيار أي كائن من عامة السكان هو نفسه. هذا افتراض مهم ، ومع ذلك ، غالبًا ما يكون من الصعب اختباره في الممارسة العملية.

يُطلق على حجم العينة اسم عدد الكائنات أو مقدار البيانات التي تتكون منها العينة ، والإشارة إليها ن. في المستقبل ، سنفترض أنه يمكن تعيين عناصر العينة ، على التوالي ، القيم العددية x 1 ، x 2 ، ... x n. على سبيل المثال ، في عملية مراقبة جودة الترانزستورات ثنائية القطب المصنعة ، يمكن أن يكون هذا قياسات لمكاسب DC الخاصة بهم.


2. الخصائص العددية للعينة

2.1 متوسط ​​العينة

بالنسبة لعينة محددة من الحجم n ، فإن العينة تعني

يتحدد من خلال النسبة

حيث x i هي قيمة عناصر العينة. عادة ما يكون مطلوبًا وصف الخصائص الإحصائية للعينات العشوائية العشوائية ، وليس واحدة منها. هذا يعني أنه يتم النظر في نموذج رياضي ، والذي يفترض عددًا كبيرًا بدرجة كافية من العينات ذات الحجم n. في هذه الحالة ، تعتبر عناصر العينة متغيرات عشوائية X i ، مع أخذ القيم x i مع كثافة الاحتمال f (x) ، وهي كثافة الاحتمال لعامة السكان. ثم يكون متوسط ​​العينة أيضًا متغيرًا عشوائيًا

متساوي

كما في السابق ، سوف نشير إلى المتغيرات العشوائية بالأحرف الكبيرة ، وقيم المتغيرات العشوائية بأحرف صغيرة.

سيطلق على متوسط ​​قيمة السكان عامة التي تتكون منها العينة اسم العوارية العامة ويُشار إليها بالرمز m x. يمكن توقع أنه إذا كان حجم العينة كبيرًا ، فلن يختلف متوسط ​​العينة بشكل ملحوظ عن المتوسط ​​العام. نظرًا لأن متوسط ​​العينة متغير عشوائي ، يمكنك إيجاد التوقع الرياضي له:

وبالتالي ، فإن التوقع الرياضي لمتوسط ​​العينة يساوي المتوسط ​​العام. في هذه الحالة ، يُقال أن متوسط ​​العينة هو تقدير غير متحيز لمتوسط ​​المجتمع. سنعود إلى هذا المصطلح لاحقًا. نظرًا لأن متوسط ​​العينة هو متغير عشوائي يتقلب حول المتوسط ​​العام ، فمن المستحسن تقدير هذا التقلب باستخدام تباين متوسط ​​العينة. ضع في اعتبارك عينة حجمها n أصغر بكثير من حجم عموم السكان N (n<< N). Предположим, что при формировании выборки характеристики генеральной совокупности не меняются, что эквивалентно предположению N = ¥. Тогда

يمكن اعتبار المتغيرات العشوائية X i و X j (i¹j) مستقلين ، لذلك ،

استبدل النتيجة في صيغة التباين:

حيث s 2 هو تباين السكان.

ويترتب على هذه الصيغة أنه مع زيادة حجم العينة ، فإن تقلبات العينة تعني انخفاض متوسط ​​حول المتوسط ​​العام كـ s 2 / n. دعنا نوضح ما سبق بمثال. يجب أن تكون هناك إشارة عشوائية مع توقع وتباين رياضي ، على التوالي ، تساوي m x = 10 ، s 2 = 9.

تؤخذ عينات الإشارة في أوقات متباعدة بالتساوي t 1، t 2، ...،

X (ر)

x1

ر 1 ر 2. . . ر ن ر

نظرًا لأن القراءات عبارة عن متغيرات عشوائية ، فسنشير إليها على أنها X (t 1) ، X (t 2) ،. . . ، X (تينيسي).

دعونا نحدد عدد العينات بحيث لا يتجاوز الانحراف المعياري لتقدير التوقع الرياضي للإشارة 1٪ من توقعاتها الرياضية. بما أن م س = 10 ، فمن الضروري ذلك

من ناحية أخرى ، أو بالتالي ، نحصل على عدد n ³ 900.

2.2 تباين العينة

من بيانات العينة ، من المهم معرفة ليس فقط متوسط ​​العينة ، ولكن أيضًا مدى انتشار قيم العينة حول متوسط ​​العينة. إذا كان متوسط ​​العينة عبارة عن تقدير للمتوسط ​​العام ، فيجب أن يكون تباين العينة تقديرًا للتباين العام. تباين العينة

لعينة تتكون من متغيرات عشوائية يتم تحديدها على النحو التالي

باستخدام هذا التمثيل لتباين العينة ، نجد توقعه الرياضي

في إطار البرنامج التعليمي للجامعة ، من غير المحتمل أن تجد تخصصًا منفصلاً باسم "الإحصاء الرياضي" ، ومع ذلك ، غالبًا ما تتم دراسة عناصر الإحصاء الرياضي جنبًا إلى جنب مع نظرية الاحتمالات ، ولكن فقط بعد دراسة الدورة الرئيسية لـ نظرية الاحتمالات.

الإحصاء الرياضي: معلومات عامة

الإحصاء الرياضي هو فرع من فروع الرياضيات يطور طرقًا لتسجيل ووصف وتحليل بيانات أي ملاحظات وتجارب ، والغرض منها هو بناء نماذج احتمالية لظواهر عشوائية جماعية.

نشأ الإحصاء الرياضي كعلم في القرن السابع عشر. وتطورت بالتوازي مع نظرية الاحتمالات. تم تقديم مساهمة كبيرة في تطوير العلم في القرنين التاسع عشر والعشرين. تشيبيشيف ب.ل. ، جاوس ك. ، كولموغوروف أ. وإلخ.

تتمثل المهمة العامة للإحصاء الرياضي في إنشاء طرق لجمع البيانات الإحصائية ومعالجتها للحصول على استنتاجات علمية وعملية.

الأقسام الرئيسية للإحصاء الرياضي هي:

  • طريقة أخذ العينات (التعرف على مفهوم أخذ العينات وطرق جمع البيانات ومعالجتها ، وما إلى ذلك) ؛
  • التقييم الإحصائي لبارامترات العينة (التقديرات ، فترات الثقة ، إلخ) ؛
  • حساب الخصائص الموجزة للعينة (حساب المتغير ، اللحظات ، إلخ) ؛
  • نظرية الارتباط (معادلات الانحدار ، إلخ) ؛
  • الاختبار الإحصائي للفرضيات.
  • تحليل التباين أحادي الاتجاه.

ل الأكثر شيوعاتشمل مهام الإحصاء الرياضي التي تدرس في الجامعة والتي غالبًا ما تتم مواجهتها في الممارسة:

  • مهام تحديد تقديرات معلمات العينة ؛
  • مهام اختبار الفرضيات الإحصائية ؛
  • مشاكل تحديد نوع قانون التوزيع حسب البيانات الإحصائية.

مشاكل تحديد تقديرات معلمات العينة

تبدأ دراسة الإحصاء الرياضي بتعريف مفاهيم مثل "العينة" ، "التردد" ، "التردد النسبي" ، "الوظيفة التجريبية" ، "المضلع" ، "التراكمي" ، "المدرج التكراري" ، إلخ. بعد ذلك تأتي دراسة مفاهيم التقديرات (متحيزة وغير متحيزة): متوسط ​​العينة ، التباين ، التباين المصحح ، إلخ.

مهمة

يتم تمثيل قياس نمو الأطفال في المجموعة الأصغر من رياض الأطفال بعينة:
92, 96, 95, 96, 94, 97, 98, 94, 95, 96.
دعونا نجد بعض خصائص هذه العينة.

حل

حجم العينة (عدد القياسات ؛ ن): 10.
أصغر قيمة للعينة: 92. القيمة الأكبر للعينة: 98.
نطاق العينة: 98 - 92 = 6.
لنكتب سلسلة مرتبة (الخيارات بترتيب تصاعدي):
92, 94, 94, 95, 95, 96, 96, 96, 97, 98.
دعنا نجمع السلسلة ونكتبها في جدول (سيتم تعيين عدد تكرارات كل خيار):

س ط 92 94 95 96 97 98 ن
ن أنا 1 2 2 3 1 1 10

دعونا نحسب الترددات النسبية والترددات المتراكمة ، اكتب النتيجة في الجدول:

س ط 92 94 95 96 97 98 المجموع
ن أنا 1 2 2 3 1 1 10
0,1 0,2 0,2 0,3 0,1 0,1 1
الترددات المتراكمة 1 3 5 8 1 10

دعونا نبني مضلعًا لترددات أخذ العينات (حدد الخيارات على طول محور OX ، والترددات على طول محور OY على الرسم البياني ، وربط النقاط بخط).

يتم حساب متوسط ​​العينة والتباين بواسطة الصيغ (على التوالي):


يمكنك العثور على خصائص أخرى للعينة ، ولكن بالنسبة للفكرة العامة ، فإن الخصائص الموجودة كافية تمامًا.

مهام اختبار الفرضيات الإحصائية

المشكلات المتعلقة بهذا النوع أكثر صعوبة من مشكلات النوع السابق ، وغالبًا ما يكون حلها أكثر ضخامة ويستغرق وقتًا طويلاً. قبل البدء في حل المشكلات ، يتم أولاً دراسة مفاهيم الفرضيات الإحصائية والفرضيات الصفرية والمتنافسة وما إلى ذلك.

فكر في أبسط مشكلة من هذا النوع.

مهمة

بالنظر إلى عينتين مستقلتين بالحجم 11 و 14 ، مأخوذة من السكان العاديين X ، Y. من المعروف أيضًا أن الفروق المصححة معروفة ، تساوي 0.75 و 0.4 ، على التوالي. من الضروري اختبار الفرضية الصفرية حول مساواة الفروق العامة عند مستوى الأهمية γ = 0.05. حدد فرضية منافسة حسب الرغبة.

حل

تتم كتابة الفرضية الصفرية لمشكلتنا على النحو التالي:

ضع في اعتبارك ما يلي كفرضية منافسة:

دعونا نحسب نسبة التباين المصحح الأكبر إلى التباين الأصغر ونحصل على القيمة المرصودة للمعيار:

نظرًا لأن الفرضية المتنافسة التي اخترناها هي ، فإن المنطقة الحرجة هي اليد اليمنى.
وفقًا للجدول الخاص بمستوى دلالة 0.05 وعدد درجات الحرية يساوي 10 (11-1 = 10) و 13 (14-1 = 13) ، على التوالي ، نجد النقطة الحرجة:

حيث أن القيمة الملحوظة للمعيار أقل من القيمة الحرجة (1.875.875.2)<2,67), то нет оснований отвергнуть гипотезу о равенстве генеральных дисперсий. Таким образом, исправленные дисперсии различаются между собой незначимо.

المشكلة المدروسة ليست سهلة للوهلة الأولى ، لكنها قياسية تمامًا ويتم حلها وفقًا لقالب. هذه المشاكل تختلف عن بعضها البعض ، كقاعدة عامة ، في قيم المعايير والمنطقة الحرجة.

تعد المهام التي تستغرق وقتًا طويلاً (نظرًا لاحتوائها على الكثير من العمليات الحسابية ، بعضها مُجدول) بمثابة مهام لاختبار الفرضية حول نوع التوزيع لعامة السكان. عند حل مثل هذه المشكلات ، يتم استخدام معايير مختلفة ، على سبيل المثال ، معيار بيرسون.

مشاكل تحديد نوع قانون التوزيع حسب البيانات الإحصائية

ينتمي هذا النوع من المشاكل إلى القسم الذي يدرس عناصر نظرية الارتباط. إذا أخذنا في الاعتبار اعتماد Y على X ، فيمكننا أن نتذكر طريقة المربعات الصغرى لتحديد نوع الاعتماد. ومع ذلك ، في الإحصاء الرياضي ، كل شيء أكثر تعقيدًا بكثير ، وفي نظرية الارتباط ، يتم النظر في الكميات ثنائية الأبعاد ، والتي تُعطى قيمها ، كقاعدة عامة ، في شكل جداول.

× 1 × 1 x ن ن ذ
ص 1 ن 11 ن 21 ن ن 1
ص 1 ن 12 ن 22 ن ن 2
ذ م ن 1 م ن 2 م ن نانومتر
ن س ن

نقدم صياغة إحدى مشاكل هذا القسم.

مهمة

حدد المعادلة النموذجية لانحدار الخط المستقيم Y على X. البيانات معطاة في جدول الارتباط.

ص X ن ذ
10 20 30 40
5 1 3 4
6 2 1 3
7 3 2 5
8 1 1
ن س 1 5 4 3 ن=13

خاتمة

في الختام ، نلاحظ أن مستوى تعقيد المشكلات في الإحصاء الرياضي يختلف كثيرًا عند الانتقال من نوع إلى آخر. مشاكل النوع الأول بسيطة للغاية ولا تتطلب فهمًا خاصًا للنظرية ؛ يمكنك ببساطة كتابة الصيغ وحل أي مشكلة تقريبًا. تعتبر مهام النوعين الثاني والثالث أكثر تعقيدًا بعض الشيء ، ومن أجل حلها الناجح ، يلزم وجود "حقيبة معرفية" معينة في هذا التخصص.

فيما يلي قائمة بكتابين فقط ، لكن هذه الكتب هي التي أصبحت منذ فترة طويلة كتبًا لسطح المكتب لمؤلف المقال.

  1. غمرمان في. نظرية الاحتمالات والإحصاء الرياضي: كتاب مدرسي. - الطبعة الثانية عشرة ، المنقحة. - م: ID Yurait، 2010. - 479 ص.
  2. غمرمان في. دليل لحل المشكلات في نظرية الاحتمالات والإحصاء الرياضي. - م: المدرسة العليا 2005. - 404 ص.

حل الإحصاء الرياضي حسب الترتيب

نتمنى لك حظًا سعيدًا في إتقان الإحصاء الرياضي. ستكون هناك مشاكل - اتصل بنا. سنكون سعداء للمساعدة!

مقدمة

2. المفاهيم الأساسية للإحصاء الرياضي

2.1 المفاهيم الأساسية لأخذ العينات

2.2 أخذ العينات

2.3 دالة التوزيع التجريبية ، الرسم البياني

خاتمة

فهرس

مقدمة

الإحصاء الرياضي هو علم الأساليب الرياضية للتنظيم واستخدام البيانات الإحصائية للاستنتاجات العلمية والعملية. في العديد من فروعها ، تعتمد الإحصائيات الرياضية على نظرية الاحتمالية ، مما يجعل من الممكن تقييم موثوقية ودقة الاستنتاجات المستخلصة من المواد الإحصائية المحدودة (على سبيل المثال ، لتقدير حجم العينة المطلوب للحصول على نتائج الدقة المطلوبة في مسح عينة).

في نظرية الاحتمالات ، يتم النظر في المتغيرات العشوائية ذات التوزيع المعطى أو التجارب العشوائية ، والتي تكون خصائصها معروفة تمامًا. موضوع نظرية الاحتمالات هو خصائص وعلاقات هذه الكميات (التوزيعات).

لكن غالبًا ما تكون التجربة عبارة عن صندوق أسود ، يعطي بعض النتائج فقط ، والتي بموجبها يلزم استخلاص استنتاج حول خصائص التجربة نفسها. المراقب لديه مجموعة من النتائج العددية (أو يمكن جعلها رقمية) التي تم الحصول عليها من خلال تكرار نفس التجربة العشوائية تحت نفس الظروف.

في هذه الحالة ، على سبيل المثال ، تظهر الأسئلة التالية: إذا لاحظنا متغيرًا عشوائيًا واحدًا ، كيف يمكننا استخلاص النتيجة الأكثر دقة حول توزيعه من مجموعة من قيمه في عدة تجارب؟

مثال على هذه السلسلة من التجارب هو المسح الاجتماعي ، أو مجموعة من المؤشرات الاقتصادية ، أو ، أخيرًا ، سلسلة من معاطف الذراعين وذيول أثناء رمي عملة معدنية بألف ضعف.

كل العوامل المذكورة أعلاه تؤدي إلى ملاءمةوأهمية موضوع العمل في المرحلة الحالية بهدف دراسة عميقة وشاملة للمفاهيم الأساسية للإحصاء الرياضي.

في هذا الصدد ، فإن الغرض من هذا العمل هو تنظيم وتجميع وتوحيد المعرفة حول مفاهيم الإحصاء الرياضي.

1. موضوع وطرق الإحصاء الرياضي

الإحصاء الرياضي هو علم الأساليب الرياضية لتحليل البيانات التي تم الحصول عليها خلال الملاحظات الجماعية (القياسات والتجارب). اعتمادًا على الطبيعة الرياضية للنتائج المحددة للملاحظات ، يتم تقسيم الإحصائيات الرياضية إلى إحصاءات الأرقام والتحليل الإحصائي متعدد المتغيرات وتحليل الوظائف (العمليات) والسلاسل الزمنية وإحصاءات الكائنات غير العددية. يعتمد جزء كبير من الإحصاء الرياضي على النماذج الاحتمالية. تخصيص المهام المشتركة لوصف البيانات وتقدير واختبار الفرضيات. كما أنهم يفكرون في مهام أكثر تحديدًا تتعلق بإجراء استطلاعات العينة ، واستعادة التبعيات ، وبناء واستخدام التصنيفات (الأنماط) ، وما إلى ذلك.

لوصف البيانات ، يتم إنشاء الجداول والمخططات والتمثيلات المرئية الأخرى ، على سبيل المثال ، حقول الارتباط. عادة لا تستخدم النماذج الاحتمالية. تعتمد بعض طرق وصف البيانات على النظرية المتقدمة وإمكانيات أجهزة الكمبيوتر الحديثة. وتشمل هذه ، على وجه الخصوص ، تحليل الكتلة ، الذي يهدف إلى تحديد مجموعات الكائنات المتشابهة مع بعضها البعض ، والقياس متعدد الأبعاد ، مما يجعل من الممكن تصور الكائنات على مستوى ، وتشويه المسافات بينها إلى أدنى حد.

تعتمد طرق التقدير واختبار الفرضيات على نماذج توليد البيانات الاحتمالية. تنقسم هذه النماذج إلى حدودي وغير حدودي. في النماذج البارامترية ، يُفترض أن الكائنات قيد الدراسة موصوفة من خلال وظائف التوزيع التي تعتمد على عدد صغير (1-4) من المعلمات العددية. في النماذج اللامعلمية ، يُفترض أن تكون وظائف التوزيع عشوائية مستمرة. في الإحصاء الرياضي ، معلمات وخصائص التوزيع (التوقع الرياضي ، الوسيط ، التباين ، الكميات ، إلخ) ، الكثافات ووظائف التوزيع ، التبعيات بين المتغيرات (بناءً على معاملات الارتباط الخطية وغير البارامترية ، وكذلك البارامترية أو غير يتم تقييم التقديرات البارامترية للوظائف التي تعبر عن التبعيات) إلخ. استخدم تقديرات النقطة والفاصل (مع إعطاء حدود للقيم الحقيقية).

في الإحصاء الرياضي ، توجد نظرية عامة لاختبار الفرضيات وعدد كبير من الطرق المخصصة لاختبار فرضيات محددة. يتم أخذ الفرضيات في الاعتبار حول قيم المعلمات والخصائص ، حول التحقق من التجانس (أي حول تطابق الخصائص أو وظائف التوزيع في عينتين) ، حول توافق دالة التوزيع التجريبية مع دالة توزيع معينة أو مع معلمة عائلة هذه الوظائف ، حول تناظر التوزيع ، إلخ.

من الأهمية بمكان قسم الإحصاء الرياضي المرتبط بإجراء مسوحات العينة ، مع خصائص مخططات أخذ العينات المختلفة وبناء طرق مناسبة لتقدير واختبار الفرضيات.

تمت دراسة مشاكل استعادة التبعية بنشاط لأكثر من 200 عام ، منذ تطوير طريقة المربعات الصغرى بواسطة K.Gauss في 1794. حاليًا ، تعد طرق البحث عن مجموعة فرعية إعلامية من المتغيرات والطرق غير المعلمية هي الأكثر صلة.

بدأ تطوير طرق لتقريب البيانات وتقليل أبعاد الوصف منذ أكثر من 100 عام ، عندما أنشأ K.Pearson طريقة المكون الرئيسي. في وقت لاحق ، تم تطوير تحليل العوامل والعديد من التعميمات غير الخطية.

تسمى أيضًا الطرق المختلفة لبناء (تحليل الكتلة) والتحليل والاستخدام (التحليل التمييزي) للتصنيفات (الأنماط) طرق التعرف على الأنماط (مع أو بدون مدرس) ، والتصنيف التلقائي ، وما إلى ذلك.

تعتمد الطرق الرياضية في الإحصاء إما على استخدام المجاميع (بناءً على نظرية الحدود المركزية لنظرية الاحتمالات) أو مؤشرات الفرق (المسافات ، المقاييس) ، كما هو الحال في إحصائيات الكائنات غير العددية. عادة ما يتم إثبات النتائج المقاربة فقط بشكل صارم. تلعب أجهزة الكمبيوتر في الوقت الحاضر دورًا كبيرًا في الإحصاء الرياضي. يتم استخدامها لكل من الحسابات ونمذجة المحاكاة (على وجه الخصوص ، في طرق أخذ العينات ودراسة مدى ملاءمة النتائج المقاربة).

المفاهيم الأساسية للإحصاء الرياضي

2.1 المفاهيم الأساسية لطريقة أخذ العينات

اسمحوا أن يكون متغير عشوائي لوحظ في تجربة عشوائية. من المفترض أن يتم إعطاء مساحة الاحتمال (ولن تهمنا).

سنفترض أنه بعد إجراء هذه التجربة مرة واحدة في نفس الظروف ، حصلنا على الأرقام ، ، - قيم هذا المتغير العشوائي في الأول والثاني ، إلخ. التجارب. المتغير العشوائي له بعض التوزيع ، وهو أمر غير معروف لنا جزئيًا أو كليًا.

دعنا نلقي نظرة فاحصة على مجموعة تسمى العينة.

في سلسلة من التجارب التي تم إجراؤها بالفعل ، تكون العينة عبارة عن مجموعة من الأرقام. ولكن إذا تكررت هذه السلسلة من التجارب مرة أخرى ، فبدلاً من هذه المجموعة ، سنحصل على مجموعة جديدة من الأرقام. بدلاً من الرقم ، سيظهر رقم آخر - إحدى قيم المتغير العشوائي. وهذا يعني أن (و ، و ، وما إلى ذلك) متغير يمكن أن يأخذ نفس قيم المتغير العشوائي ، وكذلك في كثير من الأحيان (بنفس الاحتمالات). لذلك ، قبل التجربة - متغير عشوائي موزع بالتساوي مع وبعد التجربة - الرقم الذي نلاحظه في هذه التجربة الأولى ، أي إحدى القيم الممكنة للمتغير العشوائي.

عينة الحجم عبارة عن مجموعة من المتغيرات العشوائية المستقلة والمتساوية التوزيع ("نسخ") التي لها توزيع.

ماذا يعني "استخلاص استنتاج حول التوزيع من عينة"؟ يتميز التوزيع بدالة التوزيع ، الكثافة أو الجدول ، مجموعة من الخصائص العددية - ، إلخ. بناءً على العينة ، يجب أن يكون المرء قادرًا على بناء تقديرات تقريبية لجميع هذه الخصائص.

.2 أخذ العينات

ضع في اعتبارك تنفيذ عينة على نتيجة أولية واحدة - مجموعة من الأرقام , , . في مساحة احتمالية مناسبة ، نقدم متغيرًا عشوائيًا يأخذ القيم ، مع الاحتمالات في (إذا تزامنت بعض القيم ، نضيف الاحتمالات عدد المرات المقابلة). يبدو جدول توزيع الاحتمالات ودالة التوزيع لمتغير عشوائي كما يلي:

يسمى توزيع الكمية بالتوزيع التجريبي أو توزيع العينة. دعونا نحسب التوقع الرياضي والتباين للكمية ونقدم تدوين هذه الكميات:

بنفس الطريقة نحسب لحظة النظام

في الحالة العامة ، نشير إلى الكمية

إذا ، عند بناء جميع الخصائص التي قدمناها ، إذا أخذنا في الاعتبار العينة ، كمجموعة من المتغيرات العشوائية ، فإن هذه الخصائص نفسها - ، ، ، ، - ستصبح متغيرات عشوائية. تُستخدم خصائص توزيع العينة هذه لتقدير (تقريبي) الخصائص المجهولة المقابلة للتوزيع الحقيقي.

السبب في استخدام خصائص التوزيع لتقدير خصائص التوزيع الحقيقي (أو) هو قرب هذه التوزيعات بشكل كبير.

ضع في اعتبارك ، على سبيل المثال ، رمي نرد منتظم. يترك - عدد النقاط التي سقطت على رمية -th ،. افترض أن واحدًا في العينة يحدث مرة واحدة ، ويحدث اثنان مرة واحدة ، وهكذا. ثم يأخذ المتغير العشوائي القيم 1 , , 6 مع الاحتمالات ، على التوالي. لكن هذه النسب تقترب من النمو وفقًا لقانون الأعداد الكبيرة. بمعنى أن توزيع الحجم يقترب من التوزيع الحقيقي لعدد النقاط التي تسقط عند رمي القالب الصحيح.

لن نحدد المقصود بقرب العينة والتوزيعات الصحيحة. في الفقرات التالية ، سوف نلقي نظرة فاحصة على كل من الخصائص المذكورة أعلاه ونفحص خصائصها ، بما في ذلك سلوكها مع زيادة حجم العينة.

.3 دالة التوزيع التجريبية ، المدرج التكراري

نظرًا لأنه يمكن وصف التوزيع غير المعروف ، على سبيل المثال ، من خلال وظيفة التوزيع الخاصة به ، فسنقوم ببناء "تقدير" لهذه الوظيفة من العينة.

التعريف 1.

تسمى دالة التوزيع التجريبية المبنية على عينة من الحجم وظيفة عشوائية لكل منها يساوي

تذكير:وظيفة عشوائية

يسمى مؤشر الحدث. لكل منها ، هذا متغير عشوائي له توزيع برنولي مع معلمة. لماذا؟

بمعنى آخر ، لأي قيمة تساوي الاحتمال الحقيقي للمتغير العشوائي أقل من نسبة عناصر العينة الأقل من المقدرة.

إذا تم فرز عناصر العينة بترتيب تصاعدي (في كل نتيجة أولية) ، فسيتم الحصول على مجموعة جديدة من المتغيرات العشوائية ، تسمى سلسلة التباين:

يُطلق على العنصر ، اسم العضو العاشر في السلسلة المتغيرة أو إحصاء الترتيب رقم.

مثال 1

عينة:

سلسلة الاختلاف:

أرز. 1.مثال 1

تحتوي دالة التوزيع التجريبية على قفزات عند نقاط العينة ، وقيمة الانتقال عند هذه النقطة هي ، حيث يوجد عدد عناصر العينة التي تتطابق معها.

من الممكن إنشاء دالة توزيع تجريبية للسلسلة المتغيرة:

من الخصائص الأخرى للتوزيع الجدول (للتوزيعات المنفصلة) أو الكثافة (للتوزيعات المستمرة تمامًا). التناظرية التجريبية أو الانتقائية للجدول أو الكثافة هي ما يسمى الرسم البياني.

يعتمد المدرج التكراري على بيانات مجمعة. يتم تقسيم النطاق التقديري لقيم المتغير العشوائي (أو نطاق بيانات العينة) ، بغض النظر عن العينة ، إلى عدد معين من الفواصل الزمنية (ليست بالضرورة نفسها). اسمحوا ، أن تكون فترات على الخط ، تسمى فترات التجميع. دعنا نشير إلى عدد عناصر العينة التي تقع في الفاصل الزمني:

(1)

في كل فترة من الفواصل الزمنية ، يتم بناء مستطيل ، تتناسب مساحته مع. يجب أن تكون المساحة الإجمالية لجميع المستطيلات مساوية لواحد. اسمحوا ان يكون طول الفترة. ارتفاع المستطيل أعلاه

الشكل الناتج يسمى الرسم البياني.

مثال 2

هناك سلسلة متنوعة (انظر المثال 1):

هنا هو اللوغاريتم العشري ، أي عند مضاعفة العينة ، يزيد عدد فترات التجميع بمقدار 1. لاحظ أنه كلما زادت فترات التجميع ، كان ذلك أفضل. ولكن ، إذا أخذنا عدد الفواصل الزمنية ، على سبيل المثال ، بترتيب ، فعندئذٍ مع النمو لن يقترب المدرج التكراري من الكثافة.

البيان التالي هو الصحيح:

إذا كانت كثافة توزيع عناصر العينة دالة مستمرة ، إذن لذلك ، هناك تقارب نقطي في احتمالية الرسم البياني للكثافة.

لذا فإن اختيار اللوغاريتم معقول ، لكنه ليس الخيار الوحيد الممكن.

خاتمة

يعتمد الإحصاء الرياضي (أو النظري) على أساليب ومفاهيم نظرية الاحتمالات ، ولكنه بمعنى ما يحل المشكلات العكسية.

إذا لاحظنا المظهر المتزامن لعلامتين (أو أكثر) ، أي لدينا مجموعة من القيم لعدة متغيرات عشوائية - ماذا يمكن أن يقال عن اعتمادها؟ هل هي هناك أم لا؟ وإذا كان الأمر كذلك ، فما هو هذا الاعتماد؟

من الممكن غالبًا وضع بعض الافتراضات حول التوزيع المخفي في "الصندوق الأسود" أو حول خصائصه. في هذه الحالة ، وفقًا للبيانات التجريبية ، يلزم تأكيد أو دحض هذه الافتراضات ("الفرضيات"). في الوقت نفسه ، يجب أن نتذكر أنه لا يمكن إعطاء الإجابة بـ "نعم" أو "لا" إلا بدرجة معينة من اليقين ، وكلما طالت مدة استمرار التجربة ، زادت دقة الاستنتاجات. الموقف الأكثر ملاءمة للبحث هو عندما يمكن للمرء أن يؤكد بثقة بعض خصائص التجربة المرصودة - على سبيل المثال ، حول وجود اعتماد وظيفي بين الكميات المرصودة ، حول الحالة الطبيعية للتوزيع ، حول تناسقه ، حول وجود الكثافة في التوزيع أو حول طبيعتها المنفصلة ، إلخ.

لذلك ، من المنطقي أن نتذكر الإحصائيات (الرياضية) إذا

هناك تجربة عشوائية ، خصائصها غير معروفة كليًا أو جزئيًا ،

نحن قادرون على إعادة إنتاج هذه التجربة تحت نفس الظروف بعض (أو أفضل ، أي عدد) من المرات.

فهرس

1. بومول دبليو النظرية الاقتصادية وعمليات البحث. - م ؛ العلوم ، 1999.

2. Bolshev L.N.، Smirnov N.V. جداول الإحصاء الرياضي. موسكو: Nauka ، 1995.

3 - بوروفكوف أ. إحصائيات الرياضيات. موسكو: Nauka ، 1994.

4. كورن جي ، كورن ت. كتيب الرياضيات للعلماء والمهندسين. - سان بطرسبرج: دار نشر لان ، 2003.

5. Korshunov D.A.، Chernova N.I. مجموعة من المهام والتمارين في الإحصاء الرياضي. نوفوسيبيرسك: دار النشر التابعة لمعهد الرياضيات. S.L. Sobolev SB RAS ، 2001.

6. Peheletsky I.D. الرياضيات: كتاب مدرسي للطلاب. - م: الأكاديمية ، 2003.

7. Sukhodolsky V.G. محاضرات في الرياضيات العليا للعلوم الانسانية. - دار نشر سانت بطرسبرغ التابعة لجامعة ولاية سانت بطرسبرغ. 2003

8. Feller V. مقدمة لنظرية الاحتمال وتطبيقاتها. - م: مير ، ت 2 ، 1984.

9. هارمان ج. ، تحليل العوامل الحديثة. - م: الإحصاء ، 1972.


هارمان جي ، تحليل العامل الحديث. - م: الإحصاء ، 1972.