Biografi Spesifikasi Analisis

Siri pengedaran statistik. Taburan diskret statistik

Biarkan sampel diambil daripada populasi umum, dan X 1 diperhatikan P 1 kali, X 2 - P 2 kali, x k - p kepada kali dan ialah saiz sampel. Nilai yang diperhatikan X 1 dipanggil varian, dan urutan varian, ditulis dalam tertib menaik - siri variasi .

Bilangan cerapan varian dipanggil frekuensi, dan nisbahnya kepada saiz sampel dipanggil kekerapan relatif.

Definisi. Undang-undang statistik (empirikal) taburan sampel, atau secara ringkas taburan statistik sampel panggil varian jujukan dan frekuensi sepadannya n i atau frekuensi relatif.

Taburan statistik sampel diwakili dengan mudah dalam bentuk jadual taburan frekuensi yang dipanggil siri pengedaran diskret statistik:

(jumlah semua frekuensi relatif adalah sama dengan satu).

Contoh 1. Apabila mengukur dalam kumpulan subjek homogen, sampel berikut diperoleh: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72.74 (kadar jantung). Berdasarkan keputusan ini, susun satu siri statistik taburan frekuensi dan frekuensi relatif.

Keputusan. 1) Siri statistik taburan kekerapan:

Kawalan: 0.1 + 0.2 + 0.4 + 0.1 + 0.2 = 1.

Poligon kekerapan dipanggil garis putus-putus, segmen yang menyambungkan titik Untuk membina poligon frekuensi pada paksi absis, buang pilihan X 2 , dan pada paksi-y - frekuensi yang sepadan p i . Titik disambungkan oleh segmen dan menerima poligon frekuensi.

Poligon kekerapan relatif dipanggil garis putus-putus, segmen yang menghubungkan titik. Untuk membina poligon frekuensi relatif pada abscissa, buang pilihan X i , dan pada paksi-y frekuensi yang sepadan w i . Titik disambungkan oleh segmen dan mendapatkan poligon frekuensi relatif

Contoh 2 Bina poligon frekuensi dan poligon frekuensi relatif mengikut data dalam Contoh 1.

Keputusan: Menggunakan siri taburan statistik diskret yang disusun dalam contoh 1, kami membina poligon frekuensi dan poligon frekuensi relatif:


2. Siri taburan selang statistik. graf bar.

Siri diskret statistik (atau fungsi taburan empirikal) biasanya digunakan apabila tidak terdapat terlalu banyak pilihan berbeza dalam sampel, atau apabila diskret adalah penting bagi penyelidik untuk satu sebab atau yang lain. Jika ciri populasi umum X yang menarik minat kita diedarkan secara berterusan atau diskretnya tidak praktikal (atau mustahil) untuk diambil kira, maka pilihan itu dikumpulkan ke dalam selang waktu.


Taburan statistik juga boleh ditentukan sebagai jujukan selang dan frekuensi sepadannya (frekuensi yang sepadan dengan selang diambil sebagai jumlah frekuensi dalam selang ini).

1. R(julat) = X max -X ​​​​min

2. k- bilangan kumpulan

3. (formula Sturges)

4. a = x min, b = x maks

Adalah mudah untuk mewakili kumpulan yang terhasil dalam bentuk jadual kekerapan, yang dipanggil siri pengedaran selang statistik:

Selang waktu perkumpulan ...
Kekerapan ...

Jadual analog boleh dibentuk dengan menggantikan frekuensi n i frekuensi relatif.

Sampel yang diperoleh semasa kajian eksperimen adalah set nombor tidak tertib yang ditulis dalam urutan di mana pengukuran dibuat. Lazimnya, sampel disediakan dalam bentuk jadual, di baris pertama (atau lajur) yang merupakan bilangan pengalaman i, dan dalam kedua (kedua) - nilai tetap pembolehubah rawak ciri. Dalam bentuk ini, sampel adalah bentuk utama merekod bahan statistik yang boleh diproses dalam pelbagai cara. Sebagai contoh, mari kita pertimbangkan keputusan yang ditunjukkan dalam pertandingan olahraga oleh pemain pukulan dan diberikan dalam Jadual 1. Baris pertama jadual ini mengandungi bilangan ukuran, dan yang kedua - nilai berangka mereka dalam meter.

Jadual 1

Keputusan lontar peluru

x i 16,36 14,91 15,31 14,26 14,77 13,88 14,97 14,01 14,07 14,48
x i 14,44 14,81 13,81 15,15 15,23 15,69 14,29 14,15 14,57 13,92
x i 13,62 14,92 15,73 13,22 14,65 14,8 13,04 15,1 13,3

Seperti yang dapat dilihat daripada Jadual 1, populasi statistik mudah tidak lagi menjadi bentuk yang mudah untuk menyampaikan bahan statistik walaupun dengan saiz sampel yang agak kecil: ia agak rumit dan tidak begitu visual. Sangat sukar untuk menganalisis data eksperimen yang diperolehi dan lebih-lebih lagi untuk membuat sebarang kesimpulan berdasarkannya. Berdasarkan ini, bahan statistik yang diperolehi perlu diproses untuk kajian lanjut. Cara paling mudah untuk memproses sampel ialah pemeringkatan. Kedudukan ialah susunan pilihan dalam tertib menaik atau menurun nilainya. Jadual 2 di bawah menunjukkan sampel berperingkat, unsur-unsurnya disusun dalam tertib menaik.

jadual 2

Keputusan Pertandingan Lontar Peluru Kedudukan

x i 13,04 13,22 13,3 13,62 13,81 13,88 13,92 14,01 14,07 14,15
x i 14,26 14,29 14,44 14,48 14,57 14,65 14,77 14,8 14,81 14,91
x i 14,92 14,97 15,1 15,15 15,23 15,31 15,69 15,73 16,36

Tetapi walaupun dalam bentuk ini, data eksperimen yang diperolehi kurang kelihatan dan hampir tidak sesuai untuk analisis langsung. Itulah sebabnya, untuk menjadikan bahan statistik lebih padat dan jelas, ia mesti tertakluk kepada pemprosesan selanjutnya - siri statistik yang dipanggil dibina. Pembinaan siri statistik bermula dengan pengumpulan.

berkumpulan dipanggil proses memperkemas dan mensistemkan data yang diperoleh semasa eksperimen, bertujuan untuk mengekstrak maklumat yang terkandung di dalamnya. Dalam proses pengelompokan, pengedaran varian sampel ke dalam kumpulan atau selang pengelompokan dijalankan, setiap satunya mengandungi julat nilai tertentu atribut yang dikaji. Proses pengelompokan bermula dengan membahagikan keseluruhan julat variasi ciri kepada selang kumpulan.

Bagi setiap tujuan khusus kajian statistik, saiz sampel yang sedang dipertimbangkan dan tahap variasi ciri di dalamnya, terdapat nilai optimum untuk bilangan selang dan lebar setiap satu daripadanya. Nilai anggaran bilangan selang optimum k boleh ditentukan berdasarkan saiz sampel P sama ada menggunakan data yang diberikan dalam Jadual 3., atau menggunakan formula Sturgess:

k = 1 + 3.322 lg n.

Jadual 3

Menentukan bilangan selang kumpulan

Nilai yang diperoleh daripada formula k hampir selalu menjadi nilai pecahan, yang mesti dibundarkan kepada integer, kerana bilangan selang tidak boleh pecahan. Amalan menunjukkan bahawa, sebagai peraturan, adalah lebih baik untuk membundarkan ke bawah, kerana formula memberikan hasil yang baik untuk nilai yang besar n, dan pada kecilnya - agak terlalu tinggi.

Mari kita pertimbangkan pilihan pengumpulan persampelan pada contoh tertentu. Untuk melakukan ini, mari kita beralih kepada contoh dengan pukulan pukulan (lihat jadual 1, 2). Kami akan menentukan bilangan selang kumpulan berdasarkan data yang diberikan dalam Jadual 3. Dengan saiz sampel n=29 adalah dinasihatkan untuk memilih bilangan selang yang sama dengan k=5 (Formula Sturgess memberikan nilai k =5,9).

Marilah kita bersetuju untuk menggunakan selang lebar yang sama dalam contoh yang sedang dipertimbangkan. Dalam kes ini, selepas bilangan selang kumpulan ditentukan, lebar setiap daripadanya hendaklah dikira menggunakan hubungan:

Di sini h ialah lebar selang, dan X maks dan X min - masing-masing, nilai maksimum dan minimum ciri dalam sampel. Kuantiti X maks dan X min ditentukan terus daripada jadual data awal (lihat Jadual 2). Dalam kes ini:

(m).

Di sini adalah perlu untuk memikirkan ketepatan menentukan lebar selang. Dua situasi adalah mungkin: ketepatan nilai yang dikira h bertepatan dengan ketepatan eksperimen atau melebihinya. Dalam kes kedua, adalah mungkin untuk menggunakan dua pendekatan untuk menentukan sempadan selang. Dari sudut pandangan teori, adalah paling tepat untuk menggunakan nilai yang diperolehi h untuk membina selang. Pendekatan ini tidak akan memperkenalkan herotan tambahan yang berkaitan dengan pemprosesan data percubaan. Walau bagaimanapun, untuk tujuan praktikal dalam kajian statistik yang berkaitan dengan budaya fizikal dan sukan, adalah menjadi kebiasaan untuk membulatkan nilai yang diperolehi h kepada ketepatan pengukuran data. Ini disebabkan oleh fakta bahawa untuk perwakilan visual hasil yang diperoleh, adalah mudah bahawa sempadan selang adalah nilai kemungkinan atribut. Oleh itu, nilai lebar selang yang diperolehi hendaklah dibundarkan dengan mengambil kira ketepatan eksperimen. Kami terutamanya perhatikan bahawa pembundaran mesti dilakukan bukan dalam pengertian matematik yang diterima umum, tetapi ke atas, i.e. secara berlebihan, supaya tidak mengurangkan julat keseluruhan variasi atribut - jumlah lebar semua selang tidak boleh kurang daripada perbezaan antara nilai maksimum dan minimum atribut. Dalam contoh yang sedang dipertimbangkan, data eksperimen ditentukan kepada perseratus terdekat (0.01 m), jadi nilai lebar selang yang diperoleh di atas hendaklah dibundarkan kepada perseratus terdekat. Hasilnya, kami mendapat:

h= 0.67 (m).

Selepas menentukan lebar selang kumpulan, sempadannya harus ditentukan. Adalah dinasihatkan untuk mengambil had bawah selang pertama bersamaan dengan nilai minimum ciri dalam sampel x min:

x H1 = x min.

Dalam contoh ini x H1 = 13.04 (m).

Untuk mendapatkan sempadan atas selang pertama ( x B1) adalah perlu untuk menambah nilai lebar selang kepada nilai sempadan bawah selang pertama:

x B1 = X H1 + h.

Ambil perhatian bahawa had atas setiap selang (di sini, yang pertama) akan serentak dengan had bawah selang berikutnya (dalam kes ini, yang kedua): x H2 = x DALAM 1 .

Dengan cara yang sama, nilai had bawah dan atas semua selang selebihnya ditentukan:

x Dalam i = x H i +1 = x H i + h.

Dalam contoh ini:

x B1 = x H2 = x H1 + h=13.04+0.67=13.71 (m),

x B2 = x H3 = x H2 + h=13.71+0.67=14.38 (m),

x B3 = x H4 = x H3+ h=14.38+0.67=15.05 (m),

x B4 = x H5 = x H4+ h=15.05+0.67=15.72 (m),

x B5 = x H5+ h=15.72+0.67=16.39 (m).

Sebelum mengelompokkan varian, kami memperkenalkan konsep nilai tengah selang x i, sama dengan nilai atribut yang berjarak sama dari hujung selang ini. Memandangkan ia dipisahkan dari sempadan bawah dengan nilai yang sama dengan separuh lebar selang, adalah mudah untuk menggunakan hubungan untuk menentukannya:

x i=x H i+ h/2,

di mana xН i - had bawah i-ro selang, dan h- lebarnya. Nilai median selang akan digunakan kemudian dalam pemprosesan data terkumpul.

Selepas menentukan sempadan semua selang, adalah perlu untuk mengedarkan pilihan sampel ke atas selang ini. Tetapi pertama-tama adalah perlu untuk menyelesaikan persoalan selang mana untuk mengaitkan nilai, yang betul-betul di sempadan dua selang, iaitu, apabila nilai varian bertepatan dengan had atas satu dan had bawah selang bersebelahan dengannya. Dalam kes ini, varian boleh diberikan kepada mana-mana dua selang bersebelahan dan, untuk menghapuskan kekaburan semasa pengumpulan, kami akan bersetuju dalam kes sedemikian untuk merujuk varian kepada selang atas. Hujah berikut boleh dibuat memihak kepada pendekatan ini. Oleh kerana nilai minimum atribut bertepatan dengan had bawah selang pertama dan termasuk dalam selang ini, maka varian yang jatuh pada sempadan dua selang harus dikaitkan dengan salah satu daripadanya, nilai had bawah yang adalah sama dengan varian yang dipertimbangkan.

Mari kita beralih kepada pertimbangan jadual statistik - lihat jadual 4, yang terdiri daripada tujuh lajur.

Jadual 4

Persembahan jadual keputusan lontar peluru

Tiga lajur pertama jadual statistik mengandungi, masing-masing, nombor selang kumpulan i, sempadan mereka x H saya- x AT i dan nilai median bagi selang x i .

Lajur keempat mengandungi kekerapan selang. Kekerapan selang dipanggil nombor yang menunjukkan berapa banyak pilihan, i.e. keputusan pengukuran jatuh dalam selang ini. Untuk menunjukkan nilai ini, adalah kebiasaan untuk menggunakan simbol n i. Jumlah semua frekuensi semua selang sentiasa sama dengan saiz sampel P, yang boleh digunakan untuk menyemak ketepatan kumpulan.

Lajur kelima jadual 4 bertujuan untuk dimasukkan ke dalamnya kekerapan terkumpul selang - nombor yang diperoleh dengan menjumlahkan kekerapan selang semasa dengan frekuensi semua selang sebelumnya. Kekerapan terkumpul biasanya dilambangkan dengan huruf Latin N i. Kekerapan kumulatif menunjukkan bilangan pilihan yang mempunyai nilai tidak lebih besar daripada sempadan atas selang.

Lajur keenam jadual mengandungi kekerapan. Kekerapan dipanggil kekerapan, dibentangkan dalam istilah relatif, i.e. nisbah kekerapan kepada saiz sampel. Jumlah semua frekuensi sentiasa sama dengan 1. Simbol yang digunakan untuk menandakan kekerapan ialah fi:

fi=n i /n.

Kekerapan selang adalah berkaitan dengan kebarangkalian pembolehubah rawak jatuh ke dalam selang ini. Menurut teorem Bernoulli, dengan pertambahan tanpa had dalam bilangan eksperimen, kekerapan sesuatu peristiwa menumpu dalam kebarangkalian kepada kebarangkaliannya. Jika kita memahami dengan peristiwa bahawa nilai nilai yang dikaji jatuh ke dalam selang tertentu, maka menjadi jelas bahawa dengan sejumlah besar eksperimen, kekerapan selang menghampiri kebarangkalian bahawa pembolehubah rawak yang diukur jatuh ke dalam selang ini.

Kedua-dua kekerapan dan kekerapan mencirikan kebolehulangan keputusan dalam sampel. Membandingkan kepentingan statistik mereka, perlu diperhatikan bahawa kandungan maklumat frekuensi adalah jauh lebih tinggi daripada frekuensi. Sesungguhnya, jika, sebagai contoh, dalam Jadual 4, kekerapan selang kedua ialah 8, dan, oleh itu, 8 keputusan jatuh ke dalam selang ini, maka sukar untuk memahami sama ada ini sedikit atau banyak; jika terdapat varian dalam sampel 1000, maka frekuensi sedemikian adalah kecil, dan jika 20, maka ia adalah tinggi. Dalam kes ini, untuk penilaian objektif, adalah perlu untuk membandingkan nilai kekerapan dengan saiz sampel. Jika kita menggunakan kekerapan, maka kita boleh dengan serta-merta mengatakan berapa bahagian keputusan yang jatuh ke dalam selang yang sedang dipertimbangkan (kira-kira 28% dalam contoh di atas). Oleh itu, kekerapan memberikan gambaran yang lebih visual tentang kekerapan ciri dalam sampel. Nota tertentu ialah satu lagi kelebihan penting kekerapan. Penggunaannya membolehkan anda membandingkan sampel dengan saiz yang berbeza. Kekerapan untuk tujuan sedemikian tidak terpakai.

Lajur ketujuh jadual mengandungi kekerapan terkumpul. Kekerapan terkumpul ialah nisbah kekerapan terkumpul kepada saiz sampel. Kekerapan kumulatif dilambangkan dengan huruf F i:

Kekerapan kumulatif menunjukkan berapa bahagian varian sampel mempunyai nilai yang tidak melebihi nilai had atas selang.

Baris terakhir jadual statistik digunakan untuk mengawal kumpulan.

Selepas mengisi jadual, kita kembali kepada definisi siri statistik. Sebagai peraturan, siri statistik disediakan dalam bentuk jadual, di baris pertama yang mana selangnya disenaraikan, dan di kedua - frekuensi atau frekuensi yang sepadan dengannya. Oleh itu, siri statistik dipanggil siri nombor berganda yang mewujudkan hubungan antara nilai berangka sifat yang dikaji dan kekerapannya dalam sampel. Kelebihan penting siri statistik ialah, tidak seperti agregat statistik, ia memberikan gambaran visual ciri ciri variasi tanda.


©2015-2019 tapak
Semua hak milik pengarangnya. Laman web ini tidak menuntut pengarang, tetapi menyediakan penggunaan percuma.
Tarikh penciptaan halaman: 2016-08-20

Cara paling mudah untuk menyamaratakan bahan statistik ialah membina siri. Hasil ringkasan kajian statistik boleh menjadi siri pengedaran.

Selepas menentukan ciri pengelompokan, bilangan kumpulan dan selang kumpulan, rumusan dan data kumpulan dipersembahkan dalam bentuk siri taburan dan dibentangkan dalam bentuk jadual statistik.

Siri pengedaran ialah satu jenis pengelompokan.

Dekat pengedaran dalam statistik dipanggil taburan tertib unit populasi ke dalam kumpulan mengikut mana-mana satu atribut: kualitatif atau kuantitatif.

  1. Jenis siri pengedaran

Bergantung pada sifat yang mendasari pembentukan siri pengedaran, siri pengedaran atribut dan variasi dibezakan:

    atributif dipanggil siri pengedaran dibina atas alasan kualitatif;

    siri pengedaran dipanggil variasi, dibina dalam susunan menaik atau menurun bagi nilai-nilai sifat kuantitatif.

Siri variasi taburan terdiri daripada dua lajur. Lajur pertama mengandungi nilai kuantitatif ciri pembolehubah, yang dipanggil varian dan dilambangkan. Varian diskret - dinyatakan sebagai integer. Pilihan selang adalah dalam julat dari dan ke. Bergantung pada jenis varian, adalah mungkin untuk membina siri variasi diskret atau selang. Lajur kedua mengandungi bilangan varian khusus yang dinyatakan dari segi frekuensi atau frekuensi:

    frekuensi ialah nombor mutlak yang menunjukkan bilangan kali nilai ciri tertentu berlaku dalam agregat; jumlah semua frekuensi hendaklah sama dengan bilangan unit keseluruhan populasi;

    frekuensi ialah frekuensi yang dinyatakan sebagai peratusan daripada jumlah keseluruhan; jumlah semua frekuensi yang dinyatakan sebagai peratusan mestilah sama dengan 100% dalam pecahan satu.

Siri variasi dicirikan oleh dua elemen: varian (X) dan kekerapan (f). Varian ialah nilai berasingan bagi tanda unit atau kumpulan populasi yang berasingan. Nombor yang menunjukkan berapa kali nilai ciri tertentu berlaku dipanggil kekerapan. Jika frekuensi dinyatakan sebagai nombor relatif, maka ia dipanggil kekerapan.

Siri variasi boleh:

    selang, apabila sempadan "dari" dan "ke" ditakrifkan, siri taburan selang boleh diwakili secara grafik dalam bentuk histogram;

    diskret, apabila sifat yang dikaji dicirikan oleh nombor tertentu.

  1. Perwakilan grafik siri pengedaran

Siri pengedaran divisualisasikan menggunakan imej grafik.

Siri pengedaran dipaparkan sebagai:

    poligon;

    histogram;

    terkumpul;

Apabila membina tapak pelupusan sampah pada paksi mendatar (abscissa) nilai-nilai atribut yang berbeza-beza diplot, dan pada paksi menegak (paksi-y) - frekuensi atau frekuensi.

Untuk bangunan histogram paksi abscissa menunjukkan nilai sempadan selang dan, berdasarkannya, segi empat tepat dibina, ketinggiannya berkadar dengan frekuensi (atau frekuensi).

Taburan sifat dalam siri variasi mengikut frekuensi terkumpul (frekuensi) digambarkan menggunakan terkumpul.

terkumpul atau lengkung kumulatif, berbeza dengan poligon, dibina pada frekuensi atau frekuensi terkumpul. Dalam kes ini, nilai ciri diletakkan pada paksi absis, dan frekuensi atau frekuensi terkumpul diletakkan pada paksi ordinat.

Ogiva dibina sama dengan terkumpul dengan satu-satunya perbezaan bahawa frekuensi terkumpul diletakkan pada paksi absis, dan nilai ciri diletakkan pada paksi ordinat.

Variasi terkumpul ialah lengkung kepekatan atau plot Lorenz. Untuk memplot lengkung kepekatan, kedua-dua paksi sistem koordinat segi empat tepat diskalakan sebagai peratusan daripada 0 hingga 100. Dalam kes ini, paksi absis menunjukkan frekuensi terkumpul, dan paksi ordinat menunjukkan nilai terkumpul bahagian (dalam peratus) mengikut volum ciri.

Mari kita anggap bahawa sebagai hasil pengukuran parameter objek yang dikaji, terdapat set statistik, iaitu satu set nilai SV X yang diperoleh hasil daripada pengukuran (pemerhatian).

Histogram dibina mengikut susunan berikut.

1. Keseluruhan julat pengukuran SV () dibahagikan kepada selang dan bilangan nilai yang boleh diagihkan kepada setiap selang ke- dikira. Nombor ini dibahagikan dengan jumlah bilangan ukuran (produk) dan kekerapan yang sepadan dengan selang ini ditentukan.

Jumlah frekuensi semua bit jelas mestilah sama dengan satu.

2. Jadual 1.1 dibina, yang menunjukkan selang dalam susunan lokasinya di sepanjang paksi-x dan frekuensi yang sepadan. Jadual ini dipanggil siri statistik.

Jadual 1.1

Siri statistik nilai SW

selang waktu,
Bilangan nilai
Kekerapan,

Berikut ialah penetapan selang ke-i; - sempadannya; k ialah bilangan selang.

Apabila mengelompokkan nilai SW yang diperhatikan ke dalam selang, situasi mungkin timbul di mana nilai jatuh pada sempadan selang. Dalam kes ini, persoalan timbul tentang kategori mana untuk mengaitkan nilai ini. Adalah disyorkan untuk menganggap nilai ini sebagai milik sama rata kepada kedua-dua selang dan menambah 0.5 kepada nombor kedua-dua selang.

3. Menentukan bilangan selang.

Bilangan selang di mana siri statistik harus dikumpulkan tidak boleh terlalu besar, kerana dalam kes ini siri pengedaran menjadi tidak nyata, dan frekuensi di dalamnya menunjukkan turun naik yang tidak teratur. Sebaliknya, ia tidak boleh terlalu kecil, kerana untuk sebilangan kecil selang, sifat taburan diterangkan oleh siri statistik terlalu kasar.

Amalan menunjukkan bahawa dalam kebanyakan kes adalah rasional untuk memilih bilangan selang dalam 10–20. Lebih besar dan lebih homogen bahan statistik, lebih banyak selang yang anda boleh pilih semasa menyusun siri statistik.

Untuk menentukan bilangan selang, seseorang juga boleh menggunakan formula empirikal yang dicadangkan oleh pelbagai pengarang. Dalam kertas ini, dicadangkan untuk menggunakan ungkapan berikut sebagai formula tersebut

Ungkapan ini diperoleh untuk taburan yang paling biasa dalam amalan dengan kurtosis antara 1.8 hingga 6, iaitu, dari seragam kepada taburan Laplace.

Panjang selang boleh sama atau berbeza. Jelas sekali, lebih mudah untuk mengambilnya sama. Walau bagaimanapun, apabila menyusun data SW yang diagihkan terlalu tidak sekata, kadangkala mudah untuk memilih selang yang lebih sempit di kawasan ketumpatan pengedaran tertinggi berbanding di kawasan ketumpatan rendah.

4. Reka bentuk grafik histogram.

Siri statistik disediakan secara grafik dalam bentuk yang dipanggil histogram(rajah 1.1). Ia dibina seperti berikut. Selang diplot di sepanjang abscissa, dan pada setiap selang satu segi empat tepat dibina sebagai tapak, kawasan yang sama dengan kekerapan selang ini. Untuk membina histogram, anda perlu membahagikan kekerapan setiap selang dengan panjangnya dan mengambil nombor yang terhasil sebagai ketinggian segi empat tepat. Dalam kes selang yang sama panjang, ketinggian segi empat tepat adalah berkadar dengan frekuensi yang sepadan. Daripada kaedah membina histogram, ia menunjukkan bahawa jumlah luasnya adalah sama dengan satu.

Jelas sekali, dengan peningkatan dalam bilangan eksperimen, seseorang boleh memilih selang yang lebih kecil, dan dalam kes ini, bahagian atas histogram akan semakin menghampiri lengkung yang mengehadkan kawasan yang sama dengan perpaduan. Keluk ini ialah graf fungsi ketumpatan kebarangkalian f(x) (fungsi taburan pembezaan untuk MW berterusan ).

5. Fungsi taburan statistik .

Menggunakan data siri statistik, adalah mungkin untuk membina dan fungsi taburan statistik (empirikal). SV X. Untuk melakukan ini, titik x i sempadan selang dan jumlah sepadan frekuensi p i sepadan dengannya, jatuh pada segi empat tepat histogram di sebelah kiri titik ini, diambil daripada siri. Frekuensi ini dan jumlahnya dilambangkan sebagai F(x i). Kemudian kita mendapat sistem ungkapan yang menentukan titik-titik fungsi taburan statistik. Menghubungkannya dengan garis putus atau lengkung licin, kami memperoleh graf anggaran fungsi taburan statistik ( fungsi taburan integral untuk MW berterusan ) F(x) (Rajah 1.2).

Peringkat yang paling penting dalam kajian fenomena dan proses sosio-ekonomi ialah sistematisasi data primer dan, atas dasar ini, mendapatkan ciri ringkasan keseluruhan objek menggunakan penunjuk generalisasi, yang dicapai dengan meringkaskan dan mengumpulkan bahan statistik utama.

Ringkasan statistik - ini adalah kompleks operasi berurutan untuk menyamaratakan fakta tunggal khusus yang membentuk satu set, untuk mengenal pasti ciri dan corak tipikal yang wujud dalam fenomena yang dikaji secara keseluruhan. Menjalankan ringkasan statistik termasuk langkah-langkah berikut :

  • pilihan ciri kumpulan;
  • penentuan susunan pembentukan kumpulan;
  • pembangunan sistem penunjuk statistik untuk mencirikan kumpulan dan objek secara keseluruhan;
  • pembangunan susun atur jadual statistik untuk membentangkan hasil ringkasan.

Pengumpulan statistik dipanggil pembahagian unit populasi yang dikaji kepada kumpulan homogen mengikut ciri-ciri tertentu yang penting bagi mereka. Pengumpulan adalah kaedah statistik yang paling penting untuk meringkaskan data statistik, asas untuk pengiraan penunjuk statistik yang betul.

Terdapat jenis pengelompokan berikut: tipologi, struktur, analitik. Semua kumpulan ini disatukan oleh fakta bahawa unit objek dibahagikan kepada kumpulan mengikut beberapa atribut.

tanda kumpulan dipanggil tanda di mana unit populasi dibahagikan kepada kumpulan yang berasingan. Kesimpulan kajian statistik bergantung pada pilihan yang betul bagi atribut kumpulan. Sebagai asas untuk pengelompokan, adalah perlu untuk menggunakan ciri-ciri yang signifikan secara teori (kuantitatif atau kualitatif).

Tanda-tanda kuantitatif kumpulan mempunyai ungkapan berangka (jumlah dagangan, umur seseorang, pendapatan keluarga, dll.), dan ciri kualitatif kumpulan itu mencerminkan keadaan unit penduduk (jantina, status perkahwinan, gabungan industri perusahaan, bentuk pemilikannya, dsb.).

Selepas asas pengelompokan ditentukan, persoalan bilangan kumpulan yang perlu dibahagikan populasi kajian perlu diputuskan. Bilangan kumpulan bergantung kepada objektif kajian dan jenis penunjuk yang mendasari pengelompokan, jumlah populasi, tahap variasi sifat.

Sebagai contoh, pengelompokan perusahaan mengikut bentuk pemilikan mengambil kira perbandaran, persekutuan dan harta rakyat persekutuan. Sekiranya pengelompokan dijalankan mengikut atribut kuantitatif, maka perlu memberi perhatian khusus kepada bilangan unit objek yang dikaji dan tahap turun naik atribut kumpulan.

Apabila bilangan kumpulan ditentukan, maka selang kumpulan harus ditentukan. Selang waktu - ini adalah nilai ciri pembolehubah yang terletak dalam had tertentu. Setiap selang mempunyai nilai sendiri, had atas dan bawah, atau sekurang-kurangnya satu daripadanya.

Sempadan bawah selang dipanggil nilai terkecil atribut dalam selang, dan batas atas - nilai terbesar atribut dalam selang. Nilai selang ialah perbezaan antara had atas dan bawah.

Selang pengelompokan, bergantung pada saiznya, adalah: sama dan tidak sama. Jika variasi sifat itu memanifestasikan dirinya dalam sempadan yang agak sempit dan pengagihan adalah seragam, maka satu kumpulan dibina dengan selang yang sama. Nilai selang yang sama ditentukan oleh formula berikut :

di mana Xmax, Xmin - nilai maksimum dan minimum atribut dalam agregat; n ialah bilangan kumpulan.

Pengumpulan paling mudah, di mana setiap kumpulan yang dipilih dicirikan oleh satu penunjuk, ialah siri pengedaran.

Siri pengedaran statistik - ini ialah pengagihan tertib unit populasi ke dalam kumpulan mengikut atribut tertentu. Bergantung pada sifat yang mendasari pembentukan siri pengedaran, siri pengedaran atribut dan variasi dibezakan.

atributif mereka memanggil siri pengedaran yang dibina mengikut ciri kualitatif, iaitu tanda yang tidak mempunyai ungkapan berangka (pengedaran mengikut jenis buruh, mengikut jantina, mengikut profesion, dll.). Siri pengedaran atribut mencirikan komposisi populasi mengikut satu atau ciri penting yang lain. Diambil dalam beberapa tempoh, data ini membolehkan kami mengkaji perubahan dalam struktur.

Barisan variasi dipanggil siri pengedaran yang dibina secara kuantitatif. Mana-mana siri variasi terdiri daripada dua elemen: varian dan frekuensi. Pilihan nilai individu atribut yang diambilnya dalam siri variasi dipanggil, iaitu, nilai khusus atribut pembolehubah.

Kekerapan dipanggil bilangan varian individu atau setiap kumpulan siri variasi, iaitu nombor yang menunjukkan kekerapan variasi tertentu berlaku dalam siri pengedaran. Jumlah semua frekuensi menentukan saiz keseluruhan populasi, jumlahnya. Kekerapan frekuensi dipanggil, dinyatakan dalam pecahan unit atau sebagai peratusan daripada jumlah. Oleh itu, jumlah frekuensi adalah sama dengan 1 atau 100%.

Bergantung pada sifat variasi sifat, tiga bentuk siri variasi dibezakan: siri kedudukan, siri diskret dan siri selang.

Siri variasi kedudukan - ini ialah taburan unit individu populasi dalam susunan menaik atau menurun bagi sifat yang dikaji. Kedudukan memudahkan untuk membahagikan data kuantitatif ke dalam kumpulan, segera mengesan nilai terkecil dan terbesar bagi sesuatu ciri, menyerlahkan nilai yang paling kerap diulang.

Siri variasi diskret mencirikan taburan unit populasi mengikut atribut diskret yang hanya mengambil nilai integer. Contohnya, kategori tarif, bilangan anak dalam keluarga, bilangan pekerja dalam perusahaan, dsb.

Sekiranya tanda mempunyai perubahan berterusan, yang dalam had tertentu boleh mengambil sebarang nilai ("dari - ke"), maka untuk tanda ini anda perlu membina siri variasi selang . Contohnya, jumlah pendapatan, pengalaman kerja, kos aset tetap perusahaan, dsb.

Contoh penyelesaian masalah pada topik "Ringkasan statistik dan pengelompokan"

Tugasan 1 . Terdapat maklumat tentang bilangan buku yang diterima oleh pelajar secara langganan untuk tahun akademik yang lalu.

Bina siri pengedaran variasi berjulat dan diskret, yang menandakan unsur-unsur siri itu.

Keputusan

Set ini ialah set pilihan untuk bilangan buku yang diterima oleh pelajar. Marilah kita mengira bilangan varian tersebut dan menyusunnya dalam bentuk siri pengedaran diskret peringkat variasi dan variasi.

Tugasan 2 . Terdapat data mengenai nilai aset tetap untuk 50 perusahaan, ribuan rubel.

Bina siri pengedaran, menonjolkan 5 kumpulan perusahaan (pada selang waktu yang sama).

Keputusan

Untuk penyelesaiannya, kami memilih nilai terbesar dan terkecil bagi kos aset tetap perusahaan. Ini adalah 30.0 dan 10.2 ribu rubel.

Cari saiz selang: h \u003d (30.0-10.2): 5 \u003d 3.96 ribu rubel.

Kemudian kumpulan pertama akan merangkumi perusahaan, jumlah aset tetapnya adalah dari 10.2 ribu rubel. sehingga 10.2 + 3.96 = 14.16 ribu rubel. Akan ada 9 perusahaan sedemikian. Kumpulan kedua akan termasuk perusahaan, jumlah aset tetap yang akan menjadi dari 14.16 ribu rubel. sehingga 14.16 + 3.96 = 18.12 ribu rubel. Terdapat 16 perusahaan sedemikian. Begitu juga, kita dapati bilangan perusahaan yang termasuk dalam kumpulan ketiga, keempat dan kelima.

Siri pengedaran yang terhasil diletakkan di dalam jadual.

Tugasan 3 . Untuk beberapa perusahaan industri ringan, data berikut diperoleh:

Buat kumpulan perusahaan mengikut bilangan pekerja, membentuk 6 kumpulan pada selang masa yang sama. Kira untuk setiap kumpulan:

1. bilangan perusahaan
2. bilangan pekerja
3. jumlah produk perkilangan setahun
4. purata keluaran sebenar setiap pekerja
5. jumlah aset tetap
6. saiz purata aset tetap satu perusahaan
7. nilai purata produk perkilangan oleh satu perusahaan

Catatkan keputusan pengiraan dalam jadual. Buat kesimpulan sendiri.

Keputusan

Untuk penyelesaiannya, kami memilih nilai terbesar dan terkecil daripada purata bilangan pekerja dalam perusahaan. Ini adalah 43 dan 256.

Cari saiz selang: h = (256-43): 6 = 35.5

Kemudian kumpulan pertama akan merangkumi perusahaan dengan purata bilangan pekerja antara 43 hingga 43 + 35.5 = 78.5 orang. Akan ada 5 perusahaan sedemikian. Kumpulan kedua akan merangkumi perusahaan, purata bilangan pekerja di dalamnya adalah dari 78.5 hingga 78.5 + 35.5 = 114 orang. Terdapat 12 perusahaan sedemikian. Begitu juga, kita dapati bilangan perusahaan termasuk dalam kumpulan ketiga, keempat, kelima dan keenam.

Kami meletakkan siri pengedaran yang terhasil dalam jadual dan mengira penunjuk yang diperlukan untuk setiap kumpulan:

Pengeluaran : Seperti yang dapat dilihat dari jadual, kumpulan kedua perusahaan adalah yang paling banyak. Ia termasuk 12 perusahaan. Yang paling kecil ialah kumpulan kelima dan keenam (masing-masing dua perusahaan). Ini adalah perusahaan terbesar (dari segi bilangan pekerja).

Oleh kerana kumpulan kedua adalah yang paling banyak, jumlah keluaran setahun oleh perusahaan kumpulan ini dan jumlah aset tetap adalah lebih tinggi daripada yang lain. Pada masa yang sama, purata keluaran sebenar seorang pekerja di perusahaan kumpulan ini bukanlah yang tertinggi. Perusahaan kumpulan keempat mendahului di sini. Kumpulan ini juga merangkumi jumlah aset tetap yang agak besar.

Kesimpulannya, kami perhatikan bahawa saiz purata aset tetap dan nilai purata keluaran satu perusahaan adalah berkadar terus dengan saiz perusahaan (dari segi bilangan pekerja).