Biografi Ciri-ciri Analisis

Analisis statistik nilai berangka (statistik bukan parametrik). Undang-undang taburan kebarangkalian biasa

dalam teori kebarangkalian dan statistik matematik, pelbagai keluarga parametrik taburan pembolehubah rawak berangka dipertimbangkan. Iaitu, mereka mengkaji keluarga taburan normal, lognormal, eksponen, taburan gamma, taburan Weibull-Gnedenko, dll. Kesemuanya bergantung pada satu, dua atau tiga parameter. Oleh itu untuk penerangan penuh pengedaran, sudah cukup untuk mengetahui atau menganggarkan satu, dua atau tiga nombor. Sangat selesa. Oleh itu, teori parametrik dikembangkan secara meluas statistik matematik, di mana diandaikan bahawa taburan hasil pemerhatian tergolong dalam satu atau keluarga parametrik yang lain.

Malangnya, keluarga parametrik hanya wujud dalam fikiran pengarang buku teks mengenai teori kebarangkalian dan statistik matematik. DALAM kehidupan sebenar tidak ada. Oleh itu, ekonometrik terutamanya menggunakan kaedah bukan parametrik, di mana taburan hasil pemerhatian boleh mempunyai bentuk arbitrari.

Pertama, menggunakan contoh taburan normal, kita akan membincangkan dengan lebih terperinci tentang kemustahilan kegunaan praktikal keluarga parametrik untuk menerangkan taburan data ekonomi tertentu. Kemudian kami akan menganalisis kaedah parametrik untuk menolak pemerhatian luar dan menunjukkan kemustahilan penggunaan praktikal beberapa kaedah statistik parametrik dan kekeliruan kesimpulan yang mereka bawa. Kemudian kami akan menganalisis kaedah bukan parametrik anggaran keyakinan ciri-ciri utama pembolehubah rawak berangka - jangkaan matematik, median, varians, sisihan piawai, pekali variasi. Kuliah akan diakhiri dengan kaedah untuk menguji kehomogenan dua sampel, bebas atau berkaitan.

Adakah taburan pemerhatian selalunya normal?

Dalam model ekonometrik dan ekonomi-matematik, digunakan, khususnya, dalam kajian dan pengoptimuman proses pemasaran dan pengurusan, pengurusan perusahaan dan wilayah, ketepatan dan kestabilan proses teknologi, dalam masalah kebolehpercayaan, memastikan keselamatan, termasuk keselamatan alam sekitar, fungsi peranti dan objek teknikal, dan pembangunan carta organisasi, konsep dan keputusan teori kebarangkalian dan statistik matematik sering digunakan. Dalam kes ini, satu atau satu keluarga parametrik taburan kebarangkalian sering digunakan. Paling Popular taburan normal. Juga digunakan secara logaritma taburan normal, pengedaran eksponen, pengedaran gamma, pengedaran Weibull-Gnedenko, dsb.

Jelas sekali, sentiasa perlu menyemak korespondensi model dengan realiti. Dua persoalan timbul. Adakah pengedaran sebenar berbeza daripada yang digunakan dalam model? Sejauh manakah perbezaan ini mempengaruhi kesimpulan?

Di bawah, menggunakan contoh taburan normal dan kaedah berdasarkannya untuk menolak pemerhatian yang berbeza secara mendadak (outlier), ditunjukkan bahawa taburan sebenar hampir selalu berbeza daripada yang termasuk dalam keluarga parametrik klasik, dan sisihan sedia ada daripada keluarga tertentu membuat kesimpulan yang salah, dalam kes yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga ini.

Adakah terdapat sebarang alasan untuk a priori menganggap kenormalan keputusan pengukuran?

Kadangkala dikatakan bahawa dalam kes di mana ralat pengukuran (atau lain-lain pembolehubah rawak) ditentukan sebagai hasil daripada tindakan gabungan banyak faktor kecil, maka berdasarkan Teorem Had Pusat (CLT) teori kebarangkalian, nilai ini dianggarkan dengan baik (dalam taburan) oleh pembolehubah rawak normal. Pernyataan ini benar jika faktor kecil bertindak secara tambahan dan bebas antara satu sama lain. Jika mereka bertindak secara berganda, maka disebabkan oleh CLT yang sama adalah perlu untuk menganggarkan secara logaritma taburan normal. DALAM masalah yang diterapkan Ia biasanya tidak mungkin untuk mewajarkan aditiviti dan bukannya tindakan pendaraban faktor kecil. Jika pergantungan mempunyai watak umum, tidak dikurangkan kepada bentuk aditif atau darab, dan juga tiada sebab untuk menerima model yang memberikan eksponen, Weibull-Gnedenko, gamma atau pengagihan lain, maka secara praktikal tiada apa yang diketahui tentang pengagihan pembolehubah rawak akhir, kecuali intra- sifat matematik seperti keteraturan.

Apabila memproses data tertentu, kadangkala dipercayai terdapat ralat pengukuran taburan normal. Pada andaian normaliti, model klasik regresi, serakan, analisis faktor , model metrologi yang terus ditemui dalam dokumentasi kawal selia dan teknikal domestik dan dalam piawaian antarabangsa. Model untuk mengira tahap maksimum yang boleh dicapai bagi ciri-ciri tertentu yang digunakan dalam reka bentuk sistem untuk memastikan keselamatan operasi adalah berdasarkan andaian yang sama. struktur ekonomi, peranti teknikal dan objek. Namun begitu asas teori tidak ada andaian sedemikian. Ia adalah perlu untuk mengkaji taburan ralat secara eksperimen.

Apakah yang ditunjukkan oleh keputusan eksperimen? Ringkasan yang diberikan dalam monograf menunjukkan bahawa dalam kebanyakan kes taburan ralat pengukuran berbeza daripada biasa. Oleh itu, di Institut Kejuruteraan Mekanikal dan Elektrik (Varna, Bulgaria), pengagihan ralat penentukuran pada skala alat pengukur elektrik analog telah dikaji. Peranti yang dibuat di Czechoslovakia, USSR dan Bulgaria telah dikaji. Undang-undang pengedaran ralat ternyata sama. Ia mempunyai kepadatan

Data dianalisis pada parameter 219 taburan ralat sebenar yang dikaji oleh pengarang yang berbeza, apabila mengukur kedua-dua elektrik dan bukan elektrik kuantiti elektrik pelbagai jenis peranti (elektrik). Hasil daripada kajian ini, ternyata 111 taburan, iaitu. kira-kira 50% tergolong dalam kelas taburan dengan ketumpatan

di manakah parameter darjah; - parameter anjakan; - parameter skala; - fungsi gamma daripada hujah;

Dalam makmal matematik gunaan Tartu universiti negeri 2500 sampel daripada arkib data statistik sebenar telah dianalisis. Dalam 92%, hipotesis normaliti terpaksa ditolak.

Perihalan data eksperimen yang diberikan menunjukkan bahawa ralat pengukuran dalam kebanyakan kes mempunyai taburan yang berbeza daripada yang biasa. Ini bermakna, khususnya, bahawa kebanyakan aplikasi ujian Pelajar, yang klasik analisis regresi dan kaedah statistik lain berdasarkan teori normal, secara tegasnya, adalah tidak wajar, kerana aksiom asas normaliti taburan pembolehubah rawak yang sepadan adalah tidak betul.

Jelas sekali, untuk mewajarkan atau mewajarkan perubahan dalam amalan semasa analisis data statistik, adalah perlu untuk mengkaji sifat prosedur analisis data apabila digunakan "secara tidak sah". Kajian mengenai prosedur penolakan telah menunjukkan bahawa ia amat tidak stabil kepada penyelewengan daripada normal, dan oleh itu adalah tidak sesuai untuk menggunakannya untuk memproses data sebenar (lihat di bawah); oleh itu, tidak boleh dipertikaikan bahawa prosedur yang dipilih secara sewenang-wenangnya adalah tahan terhadap penyelewengan daripada normal.

Kadangkala dicadangkan untuk menyemak kenormalan sebelum menggunakan, sebagai contoh, ujian Pelajar untuk kehomogenan dua sampel. Walaupun terdapat banyak kriteria untuk ini, ujian kenormalan adalah prosedur statistik yang lebih kompleks dan memakan masa daripada ujian kehomogenan (kedua-duanya menggunakan statistik Pelajar dan menggunakan ujian bukan parametrik). Untuk mewujudkan normaliti dengan pasti, ia memerlukan sangat bilangan yang besar pemerhatian. Jadi, untuk menjamin bahawa fungsi taburan hasil pemerhatian berbeza daripada satu normal tidak lebih daripada 0.01 (untuk sebarang nilai hujah), kira-kira 2500 pemerhatian diperlukan. Dalam kebanyakan ekonomi, teknikal, bioperubatan dan lain-lain penyelidikan gunaan bilangan pemerhatian adalah jauh lebih kecil. Ini adalah benar terutamanya untuk data yang digunakan dalam mengkaji masalah yang berkaitan dengan memastikan struktur ekonomi dan kemudahan teknikal berfungsi dengan selamat.

Kadang-kadang mereka cuba menggunakan CLT untuk membawa pengedaran ralat lebih dekat kepada normal, termasuk dalam skim teknologi alat pengukur penambah khas. Mari kita menilai kegunaan langkah ini. Biarkan pembolehubah rawak teragih sama bebas dengan fungsi taburan seperti itu Pertimbangkan

Penunjuk kedekatan dengan kenormalan yang disediakan oleh penambah ialah

Ketaksamaan kanan dalam hubungan terakhir berikutan daripada anggaran pemalar dalam ketaksamaan Berry-Esseen yang diperolehi dalam buku, dan yang kiri mengikuti daripada contoh dalam monograf. Untuk undang-undang biasa, untuk seragam, untuk dua mata (ini adalah sempadan bawah untuk ). Akibatnya, untuk memastikan jarak (dalam metrik Kolmogorov) ke taburan normal adalah tidak lebih daripada 0.01 untuk taburan "tidak berjaya", sekurang-kurangnya istilah diperlukan, di mana kebarangkalian untuk dimasukkan ke dalam set diskret nombor perpuluhan dengan bilangan tempat perpuluhan yang diberikan adalah sama dengan 0.

Daripada perkara di atas, keputusan pengukuran dan data statistik secara umum mempunyai sifat yang membawa kepada fakta bahawa ia harus dimodelkan oleh pembolehubah rawak dengan taburan yang lebih kurang berbeza daripada yang normal. Dalam kebanyakan kes, taburan berbeza dengan ketara daripada taburan biasa yang lain, taburan normal nampaknya boleh dianggap sebagai sejenis anggaran, tetapi tidak pernah ada padanan yang lengkap. Ini membayangkan keperluan untuk mengkaji sifat prosedur statistik klasik dalam bukan klasik model kebarangkalian(serupa dengan cara ia dilakukan di bawah untuk ujian Pelajar), dan keperluan untuk membangunkan stabil (dengan mengambil kira kehadiran sisihan daripada kenormalan) dan bukan parametrik, termasuk prosedur bebas pengedaran, dan pelaksanaannya yang meluas dalam amalan pemprosesan statistik data.

Pertimbangan yang ditinggalkan di sini untuk keluarga parametrik lain membawa kepada kesimpulan yang sama. Hasilnya boleh dirumuskan seperti berikut. Taburan data sebenar hampir tidak pernah tergolong dalam mana-mana keluarga parametrik tertentu. Pengagihan sebenar sentiasa berbeza daripada yang termasuk dalam keluarga parametrik. Perbezaannya mungkin besar atau kecil, tetapi ia sentiasa ada. Mari cuba fahami betapa pentingnya perbezaan ini untuk analisis ekonometrik.

Taburan normal (Taburan Gaussian) sentiasa memainkan peranan penting dalam teori kebarangkalian, kerana ia timbul sangat kerap akibat pengaruh banyak faktor, sumbangan mana-mana satu daripadanya boleh diabaikan. Pusat teorem had(CPT), mencari aplikasi dalam hampir semua sains gunaan, menjadikan alat perangkaan sejagat. Walau bagaimanapun, terdapat kes yang sangat kerap apabila penggunaannya adalah mustahil, dan penyelidik cuba dalam setiap cara yang mungkin untuk mengatur pemasangan keputusan kepada Gaussian. Saya kini akan memberitahu anda tentang pendekatan alternatif dalam kes pelbagai faktor yang mempengaruhi pengedaran.

Sejarah ringkas CPT. Semasa Newton masih hidup, Abraham de Moivre membuktikan teorem mengenai penumpuan bilangan cerapan berpusat dan normal bagi suatu peristiwa dalam satu siri. ujian bebas kepada taburan normal. Sepanjang abad ke-19 dan awal abad ke-20, teorem ini berfungsi sebagai model saintifik untuk generalisasi. Laplace membuktikan kes pengagihan seragam, Poisson - teorem tempatan untuk kes dengan kebarangkalian yang berbeza. Poincaré, Legendre dan Gauss membangunkan teori yang kaya tentang kesilapan pemerhatian dan kaedah petak terkecil, bergantung pada penumpuan ralat kepada taburan normal. Chebyshev membuktikan teorem yang lebih kuat untuk jumlah pembolehubah rawak, setelah membangunkan kaedah momen. Lyapunov pada tahun 1900, bergantung pada Chebyshev dan Markov, membuktikan CLP dalam bentuk semasa, tetapi hanya dengan kewujudan momen urutan ketiga. Dan hanya pada tahun 1934 Feller menamatkannya, menunjukkan bahawa kewujudan detik urutan kedua adalah perlu dan keadaan yang mencukupi.

CLT boleh dirumuskan seperti berikut: jika pembolehubah rawak adalah bebas, teragih sama dan mempunyai varians bukan sifar terhingga, maka jumlah (berpusat dan dinormalkan) pembolehubah ini menumpu kepada hukum biasa. Dalam bentuk inilah teorem ini diajar di universiti dan sering digunakan oleh pemerhati dan penyelidik yang tidak profesional dalam matematik. apa salahnya? Malah, teorem itu boleh digunakan dengan sempurna dalam bidang yang Gauss, Poincaré, Chebyshev dan jenius lain pada abad ke-19 diusahakan, iaitu: teori kesilapan pemerhatian, fizik statistik, MNC, kajian demografi dan mungkin sesuatu yang lain. Tetapi saintis yang tidak mempunyai keaslian untuk penemuan terlibat dalam generalisasi dan ingin menggunakan teorem ini kepada segala-galanya, atau hanya menyeret taburan normal oleh telinga, di mana ia tidak boleh wujud. Jika anda mahukan contoh, saya ada.

IQ kecerdasan kecerdasan. Pada mulanya membayangkan bahawa kecerdasan orang diedarkan secara normal. Mereka menjalankan ujian yang disediakan terlebih dahulu sedemikian rupa sehingga kebolehan luar biasa tidak diambil kira, tetapi diambil kira secara berasingan dengan faktor bahagian yang sama: pemikiran logik, reka bentuk mental, kebolehan pengiraan, pemikiran abstrak dan sesuatu yang lain. Keupayaan untuk menyelesaikan masalah yang tidak dapat diakses oleh kebanyakan orang, atau lulus ujian dalam masa yang sangat pantas tidak diambil kira dalam apa cara sekalipun, dan lulus ujian lebih awal meningkatkan keputusan (tetapi bukan kecerdasan) pada masa hadapan. Dan kemudian orang Filistin percaya bahawa "tiada seorang pun boleh menjadi dua kali lebih pintar daripada mereka," "mari kita ambil dari orang pintar dan bahagikannya."

Contoh kedua: perubahan dalam penunjuk kewangan. Mengkaji perubahan dalam harga saham, sebut harga mata wang, dan pilihan komoditi memerlukan penggunaan statistik matematik, dan terutamanya di sini adalah penting untuk tidak membuat kesilapan dengan jenis pengedaran. Kes dalam point: pada tahun 1997 Hadiah Nobel dalam Ekonomi telah dibayar untuk mencadangkan model Black-Scholes, berdasarkan andaian pengagihan normal pertumbuhan pasaran saham (yang dipanggil bunyi putih). Pada masa yang sama, pengarang dengan jelas menyatakan bahawa model ini memerlukan penjelasan, tetapi semua yang diputuskan oleh kebanyakan penyelidik lanjut adalah hanya menambah taburan Poisson kepada taburan normal. Di sini, jelas sekali, akan terdapat ketidaktepatan apabila mengkaji siri masa yang panjang, kerana taburan Poisson memenuhi CLT dengan baik, dan sudah dengan 20 istilah ia tidak dapat dibezakan daripada taburan normal. Lihat gambar di bawah (dan ia adalah dari majalah ekonomi yang sangat serius), ia menunjukkan bahawa, walaupun agak bilangan yang besar pemerhatian dan herotan yang jelas, andaian dibuat tentang kenormalan taburan.


Adalah sangat jelas bahawa pengagihan tidak akan normal upah antara penduduk bandar, saiz fail pada cakera, populasi bandar dan negara.

Kesamaan pengagihan daripada contoh-contoh ini ialah kehadiran apa yang dipanggil "ekor berat", iaitu, nilai yang terletak jauh dari purata, dan asimetri yang ketara, biasanya ke kanan. Mari kita pertimbangkan apakah taburan lain seperti ini selain daripada biasa. Mari kita mulakan dengan Poisson yang disebutkan sebelum ini: ia mempunyai ekor, tetapi kami mahu undang-undang diulang untuk satu set kumpulan, di mana setiap kumpulan diperhatikan (kira saiz fail untuk perusahaan, gaji untuk beberapa bandar) atau berskala (sewenang-wenangnya meningkatkan atau mengurangkan selang model Black - Scholes), seperti yang ditunjukkan oleh pemerhatian, ekor dan asimetri tidak hilang, tetapi taburan Poisson, menurut CLP, sepatutnya menjadi normal. Atas sebab yang sama, Erlang, beta, lognormal dan semua yang lain dengan taburan serakan tidak sesuai. Yang tinggal hanyalah untuk memotong pengedaran Pareto, tetapi ia tidak sesuai kerana kebetulan mod dengan nilai minimum, yang hampir tidak pernah berlaku semasa menganalisis data sampel.

Taburan yang mempunyai sifat yang diperlukan wujud dan dipanggil taburan stabil. Sejarah mereka juga sangat menarik, dan teorem utama telah dibuktikan setahun selepas kerja Feller, pada tahun 1935, dengan usaha bersama. ahli matematik Perancis Paul Levy dan ahli matematik Soviet A.Ya. Khinchin. CLT telah digeneralisasikan; syarat kewujudan penyebaran telah dikeluarkan daripadanya. Tidak seperti biasa, ketumpatan mahupun fungsi taburan pembolehubah rawak yang stabil tidak dinyatakan (dengan pengecualian yang jarang berlaku, yang dibincangkan di bawah semua yang diketahui tentangnya ialah fungsi ciri (); penukaran songsang Ketumpatan pengedaran Fourier, tetapi untuk memahami intipati, ini mungkin tidak diketahui).
Jadi, teorem: jika pembolehubah rawak bebas dan teragih sama, maka jumlah pembolehubah ini menumpu kepada undang-undang yang stabil.

Sekarang definisi. Pembolehubah rawak X akan stabil jika dan hanya jika logaritma fungsi cirinya diwakili dalam bentuk:

mana .

Sebenarnya, tidak ada yang rumit di sini, anda hanya perlu menerangkan maksud empat parameter tersebut. Parameter sigma dan mu ialah skala biasa dan mengimbangi, seperti dalam taburan normal, mu akan sama dengan jangkaan matematik, jika ia wujud, dan ia wujud apabila alfa lebih besar daripada satu. Parameter beta adalah asimetri jika ia sama dengan sifar, taburan adalah simetri. Tetapi alfa ialah parameter ciri, ia menunjukkan susunan magnitud momen sesuatu kuantiti wujud, semakin hampir kepada dua, semakin banyak taburan serupa dengan normal, apabila sama dengan dua taburan menjadi normal, dan hanya dalam kes ini. adakah ia mempunyai detik-detik pesanan yang besar, juga dalam kes taburan normal, asimetri merosot. Dalam kes apabila alfa sama dengan satu dan beta ialah sifar, taburan Cauchy diperoleh, dan dalam kes apabila alfa sama dengan separuh dan beta sama dengan satu, taburan Lévy diperoleh, dalam kes lain tiada perwakilan dalam kuadratur untuk taburan ketumpatan kuantiti tersebut.
Pada abad ke-20 ia telah dibangunkan teori yang kaya kuantiti dan proses yang stabil (dirujuk sebagai proses Levi), hubungannya dengan kamiran pecahan ditunjukkan, pelbagai cara parameterisasi dan pemodelan, parameter dianggarkan dalam beberapa cara dan ketekalan dan kestabilan anggaran ditunjukkan. Lihat gambar, ia menunjukkan trajektori simulasi proses Levy dengan serpihan yang dibesarkan 15 kali ganda.


Semasa mengkaji proses sedemikian dan aplikasinya dalam kewangan, Benoit Mandelbrot menghasilkan fraktal. Walau bagaimanapun, ia tidak begitu baik di mana-mana. Separuh kedua abad ke-20 berlalu di bawah trend umum sains gunaan dan sibernetik, dan ini bermakna krisis matematik tulen, semua orang mahu menghasilkan, tetapi tidak mahu berfikir, humanis dengan kewartawanan mereka menduduki sfera matematik. Contoh: buku “Fifty Entertaining Probabilistic Problems with Solutions” oleh American Mosteller, tugasan No. 11:


Penyelesaian penulis untuk masalah ini hanyalah kekalahan akal sehat:

Keadaan yang sama adalah dengan masalah 25, di mana TIGA jawapan bercanggah diberikan.

Tetapi mari kita kembali kepada pengedaran yang stabil. Dalam artikel yang lain, saya akan cuba menunjukkan bahawa tidak sepatutnya ada kesulitan tambahan apabila bekerja dengan mereka. Iaitu, terdapat berangka dan kaedah statistik, membolehkan anda menganggarkan parameter, mengira fungsi pengedaran dan memodelkannya, iaitu, berfungsi dengan cara yang sama seperti mana-mana pengedaran lain.

Pemodelan pembolehubah rawak yang stabil. Oleh kerana segala-galanya dipelajari melalui perbandingan, saya mula-mula akan mengingati kaedah yang paling mudah, dari sudut pengiraan, menjana nilai normal (kaedah Box–Muller): jika pembolehubah rawak asas (diagihkan secara seragam pada )