Биографии Характеристики Анализ

Проби и методи за получаването им. Какво е представителна извадка? Необходим размер на извадката

Емпиричните се считат за едно от основните средства за изследване на социалните отношения и процеси. Те предоставят надеждна, пълна и представителна информация.

Специфика на техниките

Емпиричните осигуряват получаване на фиксиращи факти знания. Те допринасят за установяване и обобщаване на обстоятелства чрез косвено или пряко регистриране на събития, присъщи на изучаваните отношения, обекти, явления. Емпиричните методи се различават от теоретичните по това, че обектът на анализ е:

  1. Поведение на индивидите и техните групи.
  2. Продукти от човешката дейност.
  3. Вербални действия на индивиди, техните преценки, възгледи, мнения.

Примерни изследвания

Емпиричното изследване винаги е насочено към получаване на обективна и точна информация, количествени данни. В тази връзка при извършването му е необходимо да се осигури представителност на информацията. Съответно правилно комплект за вземане на проби. тоТова означава, че подборът трябва да се извърши по такъв начин, че данните, получени от тясна група, да отразяват тенденциите, които се наблюдават в общата маса от респонденти. Например, при анкетиране на 200-300 души, получените данни могат да бъдат екстраполирани към цялото градско население. Показателите на извадковия набор позволяват различен подход към изследването на социално-икономическите процеси в региона, в страната като цяло.

Терминология

За да се разберат по-добре въпросите, свързани с извадковите проучвания, някои определения трябва да бъдат изяснени. Единицата за наблюдение е прекият източник на информация. Може да бъде индивид, група, документ, организация и т.н. Генералната съвкупност енабор от единици за наблюдение. Всички те трябва да са свързани с проблема, който се изучава. подлежат на директен анализ. Проучването се извършва в съответствие с разработените методи за събиране на информация. За да определите тази част от целия масив от респонденти, използвайте понятието "проба". Свойството му да отразява основните параметри на общата маса от хора се нарича представителност. В някои случаи няма съвпадения. Тогава се говори за грешка в представителността.

Осигуряване на представителност

Въпросите, свързани с него, са разгледани подробно в рамките на статистиката. Проблемите са комплексни, защото, от една страна, говорим за предоставяне на количествено представяне, което дава общото население. тоозначава по-специално, че групите респонденти трябва да бъдат представени в оптимален брой. Количеството трябва да е достатъчно за нормално представяне. От друга страна, това означава и качествено представяне. Тя предполага определен предметен състав, който формира комплект за вземане на проби. тоозначава, че например не може да се обсъжда представителност, ако се интервюират само мъже или само жени, възрастни или млади хора. Проучването трябва да се проведе във всички представени групи.

Характеристика на пробата

Този термин се разглежда в два аспекта. На първо място, той се определя като комплекс от елементи от общия масив от хора, чието мнение се изучава - това е комплект за вземане на проби. тосъщо и процесът на създаване на определена категория респонденти с необходимата представителност. В практиката има няколко вида и вида селекция. Нека ги разгледаме.

Видове

Има три от тях:

  1. спонтанен комплект за вземане на проби. тонабор от респонденти, избрани на доброволна основа. В същото време се осигурява достъпността на влизането на единици от общата маса хора в конкретна учебна група. Спонтанният подбор в практиката се използва доста често. Например в анкети в пресата, по пощата. Този подход обаче има значителен недостатък. Невъзможно е да се представи качествено целият обем на общата извадка. Тази техника се прилага с оглед на икономичността. В някои проучвания този вариант е единственият възможен.
  2. спонтанен комплект за вземане на проби. тоедин от основните методи, използвани в изследването. Основният принцип на такъв подбор е предоставянето на възможност на всяка единица за наблюдение да попадне от общата маса индивиди в тясна група. За това се използват различни методи. Например, това може да бъде лотария, механична селекция, таблица с произволни числа.
  3. Стратифицирана (квотна) извадка. Основава се на формирането на качествен модел на общата маса респонденти. След това се извършва подбор на единици в извадковата съвкупност. Например, извършва се според възрастта или пола, според групите от населението и т.н.

Видове

Има следните селекции:

Допълнително

Пробите също могат да бъдат зависими и независими. В първия случай процедурата на експеримента и резултатите, които ще бъдат получени по време на него за една група респонденти, оказват определено влияние върху другата. Съответно независимите проби не предполагат такова въздействие. Тук обаче трябва да се отбележи един важен момент. Една група субекти, по отношение на които психологическото изследване е проведено два пъти (дори ако е насочено към изучаване на различни качества, характеристики, признаци), по подразбиране ще се счита за зависимо.

Вероятностни селекции

Помислете за някои видове проби:

  1. Случаен. Предполага се хомогенността на общата популация, една вероятност за наличност на всички компоненти, както и наличието на пълен списък от елементи. По правило в процеса на подбор се използва таблица с произволни числа.
  2. Механични. Този вид произволна извадка включва подреждане според определен атрибут. Например по телефонен номер, по азбучен ред, по дата на раждане и т.н. Първият компонент се избира произволно. След това всеки k елемент се избира със стъпка n. Стойността на общата популация ще бъде N=k*n.
  3. Стратифицирани. Тази извадка се използва, когато общата популация е хетерогенна. Последният е разделен на страти (групи). Във всеки от тях изборът се извършва механично или на случаен принцип.
  4. Сериен. Групите се избират на случаен принцип. Вътре в тях обектите се изучават по целия път.

Невероятни селекции

Те включват извадка не на базата на случайност, а по субективни признаци: типичност, достъпност, равно представителство и т.н. Селекциите в тази категория включват:

Нюанс

Необходим е точен и пълен списък на единиците от съвкупността, за да се осигури представителност. Обектите на наблюдение, като правило, са едно лице. Изборът от списъка се извършва най-добре чрез номериране на единици и използване на таблица с произволни числа. Но квазислучайният метод също се използва често. Предполага избор от списъка на всеки n елемент.

Влияещи фактори

Обемът на съвкупността е броят на нейните единици. Според специалистите не е задължително тя да е голяма. Несъмнено колкото по-голям е броят на анкетираните, толкова по-точен е резултатът. В същото време обаче големият обем не винаги гарантира успех. Например, това се случва, когато общият набор от респонденти е разнороден. За хомогенен ще се счита такъв набор, при който контролираният параметър, например нивото на грамотност, е разпределен равномерно, т.е. няма кухини или кондензации. В този случай ще бъде достатъчно да интервюирате няколко души. Въз основа на резултатите от проучването ще бъде възможно да се заключи, че по-голямата част от хората имат нормално ниво на грамотност. От това следва, че представителността на информацията се влияе не от количествените характеристики, а от качествените характеристики на съвкупността - по-специално нивото на нейната хомогенност.

Грешки

Те представляват отклонението на средните параметри на извадката от съвкупността от стойностите на общата маса на анкетираните. На практика грешките се определят чрез съпоставяне. При анкетирането на възрастни обикновено се използват данни от преброявания, статистически записи и резултати от минали проучвания. Контролните параметри обикновено са Сравнението на средните стойности на популациите (общи и извадкови), определянето на грешката в съответствие с това и намаляването на това отклонение се нарича контрол на представителността.

заключения

Извадковото изследване е начин за събиране на данни за нагласите и поведението на хората чрез проучване на специално подбрани групи респонденти. Тази техника се счита за надеждна и икономична, въпреки че изисква определена техника. Пробата е основата. Той действа като определен дял от общата маса хора. Подборът се извършва чрез специални техники и има за цел получаване на информация за цялото население. Последният от своя страна е представен от всички възможни социални обекти или от групата, която ще бъде изследвана. Често популацията е толкова голяма, че би било доста скъпо и тромаво да се проведе проучване на всеки от нейните членове. Затова се използва намален модел. Извадката включва всички, които получават въпросници, които се наричат ​​респонденти, които всъщност действат като обект на изследване. Най-просто казано, тя се състои от много хора, които са интервюирани.

Заключение

Целите на изследването се определят от конкретни категории, включени в съвкупността. Що се отнася до определен дял от общата маса на хората, той се състои от субекти, включени в групи с помощта на математически изчисления. За избора на единици е необходимо описание на обекта на първоначалната популация. След определяне на броя на субектите се определя приемът или начинът на формиране на групите. Резултатите от проучването ще ни позволят да опишем изследваната черта по отношение на всички представители на общата маса хора. Както показва практиката, се провеждат предимно селективни, а не непрекъснати изследвания.

В теорията на извадковия метод са разработени различни методи за подбор и видове извадки, за да се осигури представителност. Под метод на подборразбират процедурата за избор на единици от генералната съвкупност. Има два метода за избор: повтарящ се и неповтарящ се. При повтаря сеВ процеса на подбор всяка произволно избрана единица се връща в генералната съвкупност след нейното изследване и при последващ подбор може отново да попадне в извадката. Този метод за подбор е изграден по схемата „върната топка“: вероятността да попаднете в извадката за всяка единица от генералната съвкупност не се променя, независимо от броя на избраните единици. При неповтарящ сеселекция, всяка единица, избрана на случаен принцип, след нейното изследване не се връща в общата съвкупност. Този метод на подбор е изграден съгласно схемата „невърната топка“: вероятността да попаднете в извадката за всяка единица от генералната съвкупност се увеличава с извършването на селекцията.

В зависимост от методологията за формиране на извадкова съвкупност се разграничават следните основни: типове проби:

всъщност случаен;

механични;

типичен (стратифициран, зониран);

сериен (вложен);

комбиниран;

многостепенен;

многофазен;

взаимно проникване.

Действителната произволна извадкасе формира в строго съответствие с научните принципи и правилата за случаен подбор. За да се получи подходяща случайна извадка, генералната съвкупност е строго разделена на единици за вземане на проби и след това се избира достатъчен брой единици в произволен повторен или неповтарящ се ред.

Случайният ред е като теглене на жребий. На практика най-често се използва при използване на специални таблици на случайни числа. Ако например трябва да се изберат 40 единици от популация, съдържаща 1587 единици, тогава от таблицата се избират 40 четирицифрени числа, които са по-малки от 1587.

В случай, че действителната случайна извадка е организирана като повторна, стандартната грешка се изчислява по формула (6.1). При метод на неповтарящо се вземане на проби формулата за изчисляване на стандартната грешка ще бъде:


където 1 - н/ н- делът на единиците от генералната съвкупност, които не са включени в извадката. Тъй като тази пропорция винаги е по-малка от единица, грешката при неповтаряща се селекция, при равни други условия, винаги е по-малка, отколкото при повторна селекция. Неповтарящата се селекция е по-лесна за организиране от повторната селекция и се използва много по-често. Стойността на стандартната грешка при неповтарящо се вземане на проби обаче може да се определи с помощта на по-проста формула (5.1). Такава замяна е възможна, ако делът на единиците от генералната съвкупност, които не са включени в извадката, е голям и следователно стойността е близка до единица.

Формирането на извадка в строго съответствие с правилата за случаен подбор е практически много трудно, а понякога и невъзможно, тъй като при използване на таблици със случайни числа е необходимо да се номерират всички единици от генералната съвкупност. Доста често генералната съвкупност е толкова голяма, че е изключително трудно и нецелесъобразно да се извърши такава предварителна работа, поради което на практика се използват други видове извадки, всяка от които не е строго случайна. Те обаче са организирани по такъв начин, че да се осигури максимално доближаване до условията на случаен подбор.

Когато чисто механично вземане на пробицялата популация от единици трябва преди всичко да бъде представена под формата на списък от единици за селекция, съставен в някакъв неутрален ред по отношение на изследваната характеристика, например по азбучен ред. След това списъкът с единици за вземане на проби се разделя на толкова равни части, колкото е необходимо за избор на единици. Освен това, съгласно предварително определено правило, което не е свързано с вариацията на изследваната черта, се избира по една единица от всяка част на списъка. Този тип вземане на проби може не винаги да осигурява случаен избор и получената извадка може да бъде предубедена. Това се обяснява с факта, че, първо, подреждането на единиците от генералната съвкупност може да има елемент от неслучаен характер. Второ, вземането на проби от всяка част от съвкупността, ако произходът е неправилно установен, също може да доведе до отклонение. На практика обаче е по-лесно да се организира механична извадка, отколкото правилна случайна извадка и този тип извадка най-често се използва при извадкови проучвания. Стандартната грешка за механично вземане на проби се определя по формулата за действителното произволно неповтарящо се вземане на проби (6.2).

Типична (зонирана, стратифицирана) пробаима две цели:

да осигури представяне в извадката на съответните типични групи от генералната съвкупност според характеристиките, които интересуват изследователя;

повишаване на точността на резултатите от извадковото проучване.

С типична извадка, преди началото на нейното формиране, генералната съвкупност от единици се разделя на типични групи. В този случай много важен момент е правилният избор на групиращ атрибут. Избраните типични групи могат да съдържат еднакъв или различен брой единици за избор. В първия случай извадката се формира с еднакъв дял на селекция от всяка група, във втория случай с дял, пропорционален на нейния дял в генералната съвкупност. Ако извадката се формира с равен дял на подбор, по същество тя е еквивалентна на редица правилно произволни извадки от по-малки популации, всяка от които е типична група. Изборът от всяка група се извършва в произволен (повтарящ се или неповтарящ се) или механичен ред. С типична извадка, както с равен, така и с неравномерен дял на селекция, е възможно да се елиминира влиянието на междугруповата вариация на изследвания признак върху точността на неговите резултати, тъй като осигурява задължителното представяне на всяка от типичните групи в извадката комплект. Стандартната грешка на извадката няма да зависи от големината на общата дисперсия? 2, и върху стойността на средната стойност на груповите дисперсии?i 2 . Тъй като средната стойност на груповите дисперсии винаги е по-малка от общата дисперсия, тогава, при равни други условия, стандартната грешка на типична извадка ще бъде по-малка от стандартната грешка на самата произволна извадка.

При определяне на стандартните грешки на типична проба се използват следните формули:

С повторен избор

С метод за неповтарящ се избор:

е средната стойност на груповите дисперсии в извадката от популацията.

Серийно (вложено) вземане на проби- това е вид формиране на извадка, когато произволно се избират не единиците за изследване, а групи от единици (серии, гнезда). В рамките на избраната серия (гнезда) се изследват всички единици. Серийното вземане на проби е практически по-лесно за организиране и провеждане, отколкото подбора на отделни единици. Въпреки това, с този тип извадка, първо, не е осигурено представянето на всяка от сериите и, второ, не се елиминира влиянието на междусерийната вариация на изследвания признак върху резултатите от изследването. Когато тази вариация е значителна, тя ще увеличи грешката на случайната представителност. При избора на вида на пробата изследователят трябва да вземе предвид това обстоятелство. Стандартната грешка на серийното вземане на проби се определя по формулите:

С метода на повторен избор -


където? е междусерийната дисперсия на извадката; r– брой избрани серии;

С метод за неповтарящ се избор -


където Ре броят на сериите в генералната съвкупност.

В практиката се използват определени методи и видове извадки в зависимост от целта и задачите на извадковите изследвания, както и от възможностите за организирането и провеждането им. Най-често се използва комбинация от методи за вземане на проби и видове вземане на проби. Такива проби се наричат комбинирани.Комбинацията е възможна в различни комбинации: механична и серийна извадка, типична и механична, серийна и действително случайна и др. Комбинираната извадка се използва за осигуряване на най-голяма представителност с най-ниски трудови и парични разходи за организиране и провеждане на изследването.

При комбинирана извадка стойността на стандартната грешка на извадката се състои от грешките на всяка от нейните стъпки и може да се определи като корен квадратен от сумата от квадратите на грешките на съответните извадки. Така че, ако механично и типично вземане на проби бяха използвани в комбинация с комбинирано вземане на проби, тогава стандартната грешка може да се определи по формулата


къде?1 и? 2 са стандартните грешки съответно на механичните и типичните проби.

Особеност многоетапна селекциясе състои в това, че извадката се формира постепенно, според етапите на подбор. На първия етап единиците от първия етап се избират по предварително определен метод и тип на избор. На втория етап от всяка единица от първия етап, включена в извадката, се избират единици от втория етап и т. н. Броят на етапите може да бъде повече от два. На последния етап се формира извадка, чиито единици подлежат на изследване. Така например за извадково изследване на бюджетите на домакинствата на първия етап се избират териториални субекти на страната, на втория етап се избират области в избраните региони, на третия етап се избират предприятия или организации във всяка община. , и накрая, на четвъртия етап се избират семейства в избраните предприятия.

Така наборът за вземане на проби се формира на последния етап. Многоетапното вземане на проби е по-гъвкаво от другите видове, въпреки че като цяло дава по-малко точни резултати от едноетапната проба със същия размер. В същото време обаче той има едно важно предимство, което е, че рамката за извадка за многоетапен подбор трябва да бъде изградена на всеки етап само за онези единици, които са в извадката, и това е много важно, тъй като има често няма готова рамка за вземане на проби.

Стандартната грешка на извадката при многоетапна селекция с групи от различни обеми се определя по формулата


къде?1,?2,?3 , ... са стандартни грешки на различни етапи;

n1, n2, n3 , .. . е броят на пробите на съответните етапи на подбор.

В случай, че групите не са еднакви по обем, тогава теоретично тази формула не може да се използва. Но ако общият дял на селекцията на всички етапи е постоянен, тогава на практика изчислението по тази формула няма да доведе до изкривяване на грешката.

Същност многофазно вземане на пробисе състои в това, че на базата на първоначално образуваната проба се формира подпроба, от тази подпроба, следващата подпроба и т.н. Първоначалната проба е първата фаза, подпробата от нея е втората и т.н. препоръчително е да се използва многофазно вземане на проби в случаите, ако:

за изследване на различни характеристики е необходим различен размер на извадката;

флуктуацията на изследваните знаци не е еднаква и изискваната точност е различна;

за всички единици от първоначалната извадка (първа фаза) трябва да се събира по-малко подробна информация, а за единици от всяка следваща фаза – по-подробна информация.

Едно от несъмнените предимства на многофазното вземане на проби е фактът, че информацията, получена в първата фаза, може да се използва като допълнителна информация в следващите фази, информацията от втората фаза може да се използва като допълнителна информация в следващите фази и т.н. използването на информация повишава точността на резултатите от извадковото изследване.

При организиране на многофазно вземане на проби може да се използва комбинация от различни методи и видове селекция (типично вземане на проби с механично вземане на проби и др.). Многофазният избор може да се комбинира с многоетапен. На всеки етап вземането на проби може да бъде многофазно.

Стандартната грешка в многофазна проба се изчислява за всяка фаза поотделно в съответствие с формулите на метода за подбор и вида на пробата, с която е формирана нейната проба.

Взаимопроникващи селекции- това са две или повече независими извадки от една и съща генерална съвкупност, формирани по един и същи метод и тип. Препоръчително е да се прибягва до взаимопроникващи проби, ако е необходимо да се получат предварителни резултати от извадкови проучвания за кратко време. Взаимно проникващите проби са ефективни за оценка на резултатите от проучването. Ако резултатите са еднакви в независими извадки, това показва надеждността на данните от извадковото проучване. Взаимно проникващите извадки понякога могат да се използват за тестване на работата на различни изследователи, като всеки изследовател проведе различно извадково проучване.

Стандартната грешка за взаимопроникващи проби се определя по същата формула като типичното пропорционално вземане на проби (5.3). Взаимно проникващите извадки изискват повече труд и пари от другите видове, така че изследователят трябва да вземе това предвид, когато проектира извадково проучване.

Пределните грешки за различни методи за подбор и видове вземане на проби се определят по формулата? = t?, къде? е съответната стандартна грешка.

Един от основните компоненти на добре проектираното изследване е дефиницията на извадката и какво е представителна извадка. Това е като примера с тортата. В крайна сметка не е необходимо да изядете целия десерт, за да разберете вкуса му? Малка част е достатъчна.

И така, тортата е население (т.е. всички респонденти, които отговарят на условията за проучването). Може да се изрази териториално, например само жители на Московска област. Пол - само жени. Или има възрастови ограничения - руснаците са над 65 години.

Трудно е да се изчисли населението: трябва да имате данни от преброяване на населението или предварителни проучвания за оценка. Следователно обикновено генералната съвкупност се „оценява“ и от полученото число се изчислява рамка за вземане на пробиили вземане на проби.

Какво е представителна извадка?

пробае точно определен брой респонденти. Неговата структура трябва да съвпада възможно най-много със структурата на генералната съвкупност по отношение на основните характеристики на селекцията.

Например, ако потенциалните респонденти са цялото население на Русия, където 54% ​​са жени и 46% са мъже, тогава извадката трябва да съдържа точно същия процент. Ако параметрите съвпадат, тогава извадката може да се нарече представителна. Това означава, че неточностите и грешките в изследването са сведени до минимум.

Размерът на извадката се определя, като се вземат предвид изискванията за точност и икономичност. Тези изисквания са обратно пропорционални едно на друго: колкото по-голям е размерът на извадката, толкова по-точен е резултатът. Освен това, колкото по-висока е точността, толкова повече разходи са необходими за изследването. И обратното, колкото по-малка е извадката, толкова по-малко струва, толкова по-малко точно и по-случайно се възпроизвеждат свойствата на генералната съвкупност.

Ето защо, за да изчислят размера на избора, социолозите измислиха формула и създадоха специален калкулатор:

Вероятност за довериеи грешка на доверието

Какво означават условията " ниво на увереност" и " грешка на доверието"? Нивото на достоверност е мярка за точността на измерванията. Грешка на доверието е възможна грешка в резултатите от изследването. Например, с обща съвкупност от повече от 500,00 души (например, живеещи в Новокузнецк), извадката ще бъде 384 души с ниво на достоверност 95% и грешка от 5% ИЛИ (с доверителен интервал 95 ± 5%).

Какво следва от това? При провеждане на 100 проучвания с такава извадка (384 души), в 95 процента от случаите, получените отговори, според законите на статистиката, ще бъдат в рамките на ± 5% от оригинала. И ще получим представителна извадка с минимална вероятност за статистическа грешка.

След като изчислението на размера на извадката е направено, можете да видите дали има достатъчно респонденти в демо версията на панела с въпросници. Можете да научите повече за това как да проведете панелно проучване.

план:

1. Проблеми на математическата статистика.

2. Примерни типове.

3. Методи за подбор.

4. Статистическо разпределение на извадката.

5. Емпирична функция на разпределение.

6. Многоъгълник и хистограма.

7. Числени характеристики на вариационния ред.

8. Статистически оценки на параметрите на разпределението.

9. Интервални оценки на параметрите на разпределението.

1. Задачи и методи на математическата статистика

Математическа статистика е дял от математиката, посветен на методите за събиране, анализиране и обработка на резултатите от статистически наблюдения за научни и практически цели.

Нека се изисква да се изследва набор от еднородни обекти по отношение на някаква качествена или количествена характеристика, която характеризира тези обекти. Например, ако има партида части, тогава стандартът на частта може да служи като качествен знак, а контролираният размер на частта може да служи като количествен знак.

Понякога се провежда непрекъснато проучване, т.е. изследвайте всеки обект по отношение на желаната характеристика. На практика рядко се използва цялостно проучване. Например, ако популацията съдържа много голям брой обекти, тогава е физически невъзможно да се проведе пълно проучване. Ако проучването на обекта е свързано с неговото унищожаване или изисква големи материални разходи, тогава няма смисъл да се провежда пълно проучване. В такива случаи ограничен брой обекти (набор от проби) се избират произволно от цялата популация и се подлагат на тяхното изследване.

Основната задача на математическата статистика е да изследва цялата съвкупност въз основа на извадкови данни, в зависимост от целта, т.е. изследването на вероятностните свойства на популацията: законът за разпределение, числените характеристики и др. за вземане на управленски решения в условия на несигурност.

2. Примерни типове

Население е съвкупността от обекти, от които се прави извадката.

Извадкова популация (извадка) е колекция от произволно избрани обекти.

Размер на населението е броят на обектите в тази колекция. Обемът на генералната съвкупност е означен N, селективно - n.

Пример:

Ако от 1000 части 100 части са избрани за изследване, тогава обемът на генералната съвкупностн = 1000 и размера на извадката n = 100.

Вземането на проби може да се извърши по два начина: след като обектът е избран и наблюдаван върху него, той може да бъде върнат или не върнат в генералната съвкупност. Че. Пробите се разделят на повторни и неповтарящи се.

Повтаря сеНаречен вземане на проби, при което избраният обект (преди избор на следващия) се връща към генералната съвкупност.

Неповтаряща сеНаречен вземане на проби, при което избраният обект не се връща в генералната съвкупност.

На практика обикновено се използва неповтарящ се случаен избор.

За да може данните от извадката да могат да преценят с достатъчна увереност за характеристиката, представляваща интерес в генералната съвкупност, е необходимо обектите на извадката да я представят правилно. Извадката трябва правилно да представя пропорциите на популацията. Пробата трябва да бъде представител (представител).

По силата на закона за големите числа може да се твърди, че извадката ще бъде представителна, ако е направена на случаен принцип.

Ако размерът на генералната съвкупност е достатъчно голям и извадката е само незначителна част от тази популация, тогава разликата между повторни и неповторени извадки се изтрива; в ограничаващия случай, когато се разглежда безкрайна генерална съвкупност и извадката има краен размер, тази разлика изчезва.

Пример:

В американското списание Literary Review, използвайки статистически методи, е направено проучване на прогнози за изхода от предстоящите президентски избори в САЩ през 1936 г. Кандидати за този пост бяха F.D. Рузвелт и А. М. Ландън. Справочниците на телефонните абонати са взети като източник за общата популация на изследваните американци. От тях на случаен принцип бяха избрани 4 милиона адреса, на които редакторите на списанието изпратиха картички с молба да изразят отношението си към кандидатите за президент. След обработка на резултатите от допитването списанието публикува социологическа прогноза, че Ландън ще спечели предстоящите избори с голяма преднина. И ... грешах: Рузвелт спечели.
Този пример може да се разглежда като пример за непредставителна извадка. Факт е, че в Съединените щати през първата половина на ХХ век само богатата част от населението, която подкрепяше възгледите на Ландън, имаше телефони.

3. Методи за подбор

На практика се използват различни методи за селекция, които могат да бъдат разделени на 2 вида:

1. Селекцията не изисква разделяне на популацията на части (a) просто произволно без повторение; б) просто произволно повторение).

2. Подбор, при който генералната съвкупност се разделя на части. (а) типична селекция; б) механична селекция; в) сериен селекция).

Обикновено произволно наречете това селекция, в който обектите се извличат един по един от цялата генерална съвкупност (на случаен принцип).

ТипичноНаречен селекция, в който обектите се избират не от цялата генерална съвкупност, а от всяка нейна „типична“ част. Например, ако една част се произвежда на няколко машини, тогава изборът се прави не от целия набор от части, произведени от всички машини, а от продуктите на всяка машина поотделно. Такава селекция се използва, когато изследваната черта се колебае забележимо в различни "типични" части от общата популация.

МеханичниНаречен селекция, при което генералната съвкупност се разделя "механично" на толкова групи, колкото са обектите за включване в извадката, като от всяка група се избира по един обект. Например, ако трябва да изберете 20% от частите, направени от машината, тогава се избира всяка 5-та част; ако се изисква избор на 5% от частите - на всеки 20 и т.н. Понякога такъв избор може да не осигури представителна извадка (ако се избере всяка 20-та въртяща ролка и ножът се смени веднага след избора, тогава ще бъдат избрани всички ролки, струговани с тъпи ножове).

СериенНаречен селекция, при който обектите се избират от генералната съвкупност не един по един, а в „серии“, които се подлагат на непрекъснато проучване. Например, ако продуктите се произвеждат от голяма група автоматични машини, тогава продуктите само на няколко машини се подлагат на непрекъснато изследване.

В практиката често се използва комбиниран подбор, при който се комбинират горните методи.

4. Статистическо разпределение на извадката

Нека се вземе проба от генералната съвкупност и стойността x 1-наблюдава се веднъж, x 2 -n 2 пъти, ... x k - n k пъти. n= n 1 +n 2 +...+n k е размерът на извадката. Наблюдавани стойностиНаречен настроики, а последователността е вариант, написан във възходящ ред - вариационни серии. Брой наблюденияНаречен честоти (абсолютни честоти)и тяхната връзка с размера на извадката- относителни честотиили статистически вероятности.

Ако броят на опциите е голям или извадката е направена от непрекъсната генерална съвкупност, тогава серията от вариации се съставя не от индивидуални точкови стойности, а от интервали от стойности на генералната съвкупност. Такава поредица се нарича интервал.Дължините на интервалите трябва да са еднакви.

Статистическото разпределение на извадката наречен списък с опции и съответните им честоти или относителни честоти.

Статистическото разпределение може също да бъде определено като последователност от интервали и съответните им честоти (сумата от честотите, които попадат в този интервал от стойности)

Точковите вариационни серии от честоти могат да бъдат представени чрез таблица:

x i
х 1
x2

x k
n i
n 1
n 2

нк

По подобен начин може да се представи точкова вариационна серия от относителни честоти.

И:

Пример:

Броят на буквите в някакъв текст X се оказа равен на 1000. Първата буква беше "i", втората - буквата "i", третата - буквата "a", четвъртата - "u". След това се появиха буквите "o", "e", "y", "e", "s".

Нека запишем местата, които те заемат в азбуката, съответно имаме: 33, 10, 1, 32, 16, 6, 21, 31, 29.

След като подредим тези числа във възходящ ред, получаваме вариационна серия: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Честотите на появата на букви в текста: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "ю" - 7, "аз" - 22.

Съставяме точкова вариационна серия от честоти:

Пример:

Определено разпределение на честотата на вземане на проби от обема n = 20.

Направете точкови вариационни серии от относителни честоти.

x i

2

6

12

n i

3

10

7

Решение:

Намерете относителните честоти:


x i

2

6

12

w i

0,15

0,5

0,35

При конструирането на интервално разпределение има правила за избор на броя на интервалите или размера на всеки интервал. Критерият тук е оптималното съотношение: с увеличаване на броя на интервалите се подобрява представителността, но се увеличава количеството на данните и времето за тяхната обработка. Разлика x max - x min между най-голямата и най-малката стойност се нарича вариант в голям мащабпроби.

За да преброите броя на интервалитек обикновено прилагат емпиричната формула на Стърджис (предполага закръгляване до най-близкото удобно цяло число): k = 1 + 3,322 log n.

Съответно стойността на всеки интервалч може да се изчисли с помощта на формулата:

5. Емпирична функция на разпределение

Помислете за извадка от общата съвкупност. Нека е известно статистическото разпределение на честотите на количествения признак X. Нека въведем обозначението: n xе броят на наблюденията, при които е наблюдавана стойност на характеристиката, по-малка от x;н е общият брой наблюдения (размер на извадката). Относителна честота на събитието X<х равна n x /n . Ако x се промени, тогава се променя и относителната честота, т.е. относителна честотаn x /nе функция на x. защото намира се емпирично, нарича се емпирично.

Емпирична функция на разпределение (функция на извадково разпределение) извикайте функцията, което определя за всяко x относителната честота на събитието X<х.


където е броят на опциите по-малък от x,

n - размер на извадката.

За разлика от емпиричната функция на разпределение на извадката се нарича функцията на разпределение F(x) на съвкупността теоретична функция на разпределение.

Разликата между емпиричните и теоретичните функции на разпределение е, че теоретичната функция F (x) определя вероятността от събитие X F*(x)клони по вероятност към вероятността F (x) за това събитие. Тоест, за големи n F*(x)и F(x) се различават малко един от друг.

Че. препоръчително е да се използва емпиричната функция на разпределение на извадката за приблизително представяне на теоретичната (интегрална) функция на разпределение на генералната съвкупност.

F*(x)има всички свойства F(x).

1. Ценности F*(x)принадлежат на интервала.

2. F*(x) е ненамаляваща функция.

3. Ако е най-малкият вариант, тогава F*(x) = 0, при x < x1; ако x k е най-големият вариант, тогава F*(x) = 1, за x > x k.

Тези. F*(x)служи за оценка на F(x).

Ако извадката е дадена от вариационна серия, тогава емпиричната функция има формата:

Графиката на емпиричната функция се нарича кумулативна.

Пример:

Начертайте емпирична функция върху даденото извадково разпределение.


Решение:

Обем на извадката n = 12 + 18 +30 = 60. Най-малката опция е 2, т.е. при х < 2. Събитие X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2на 2 < х < 6. Събитие X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < х < 10. Защото Тогава x=10 е най-голямата опция F*(x) = 1при х>10. Желаната емпирична функция има формата:

Кумулация:


Кумулатът позволява да се разбере информацията, представена графично, например, за да се отговори на въпросите: „Определете броя на наблюденията, при които стойността на атрибута е по-малка от 6 или не по-малка от 6. F*(6) = 0,2 » Тогава броят на наблюденията, при които стойността на наблюдаваната характеристика е по-малка от 6, е 0,2*н \u003d 0,2 * 60 \u003d 12. Броят на наблюденията, при които стойността на наблюдаваната характеристика е не по-малка от 6, е (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Ако е дадена интервална вариационна серия, тогава за съставяне на емпиричната функция на разпределение се намират средните точки на интервалите и от тях се получава емпиричната функция на разпределение подобно на точковата вариационна серия.

6. Многоъгълник и хистограма

За по-голяма яснота са изградени различни графики на статистическото разпределение: полиномни и хистограмни

Честотен полигон-това е прекъсната линия, чиито отсечки свързват точките ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), където са опциите, са честотите, съответстващи на тях.

Многоъгълник на относителните честоти -това е прекъсната линия, чиито сегменти свързват точките ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), където x i са опции, w i са относителни честоти, съответстващи им.

Пример:

Начертайте относителния честотен полином върху даденото извадково разпределение:

Решение:

В случай на непрекъсната характеристика е препоръчително да се изгради хистограма, за която интервалът, който съдържа всички наблюдавани стойности на характеристиката, се разделя на няколко частични интервала с дължина h и за всеки частичен интервал n i се намира - сумата от вариантните честоти, които попадат в i-тия интервал. (Например, когато измерваме височината или теглото на човек, имаме работа с непрекъснат знак).

Честотна хистограма-това е стъпаловидна фигура, състояща се от правоъгълници, чиито основи са частични интервали с дължина h, а височините са равни на съотношението (честотна плътност).

Квадрат i-ти частичен правоъгълник е равен на сумата от честотите на варианта на i-тия интервал, т.е. площта на честотната хистограма е равна на сумата от всички честоти, т.е. размер на извадката.

Пример:

Дадени са резултатите от изменението на напрежението (във волтове) в електрическата мрежа. Съставете вариационна серия, изградете полигон и честотна хистограма, ако стойностите на напрежението са както следва: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Решение:

Нека създадем серия от варианти. Имаме n = 20, x min = 212, x max = 232.

Нека използваме формулата на Стърджис, за да изчислим броя на интервалите.

Интервалната вариационна серия от честоти има формата:


Честотна плътност

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Нека изградим хистограма на честотите:

Нека изградим многоъгълник от честоти, като първо намерим средните точки на интервалите:


Хистограма на относителните честотинаричаме стъпаловидна фигура, състояща се от правоъгълници, чиито основи са частични интервали с дължина h, а височините са равни на отношението w аз/h (относителна честотна плътност).

Квадрат i-тият частичен правоъгълник е равен на относителната честота на варианта, попаднал в i-тия интервал. Тези. площта на хистограмата на относителните честоти е равна на сумата от всички относителни честоти, т.е. мерна единица.

7. Числени характеристики на вариационния ред

Помислете за основните характеристики на генералната и извадкова популации.

Общо средносе нарича средно аритметично на стойностите на характеристиката на генералната съвкупност.

За различни стойности x 1 , x 2 , x 3 , …, x n . знак на генералната съвкупност от том N имаме:

Ако стойностите на атрибута имат съответните честоти N 1 +N 2 +…+N k =N , тогава


извадкова средна стойностсе нарича средно аритметично на стойностите на характеристиката на извадката.

Ако стойностите на атрибута имат съответстващи честоти n 1 +n 2 +…+n k = n, тогава


Пример:

Изчислява се средната стойност на извадката: x 1 = 51,12; x 2 \u003d 51,07 x 3 \u003d 52,95; x 4 = 52,93; x 5 = 51,1; x 6 = 52,98; х 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; х10 = 51,04.

Решение:

Обща вариациясе нарича средно аритметично на квадратните отклонения на стойностите на характеристиката X на генералната съвкупност от общата средна стойност.

За различни стойности x 1 , x 2 , x 3 , …, x N на знака на съвкупността от обем N имаме:

Ако стойностите на атрибута имат съответните честоти N 1 +N 2 +…+N k =N , тогава

Общо стандартно отклонение (стандарт)наречен корен квадратен от общата дисперсия

Дисперсия на извадкатасе нарича средно аритметично на квадратите на отклоненията на наблюдаваните стойности на характеристиката от средната стойност.

За различни стойности x 1 , x 2 , x 3 , ..., x n на знака на извадката от обем n имаме:


Ако стойностите на атрибута имат съответстващи честоти n 1 +n 2 +…+n k = n, тогава


Примерно стандартно отклонение (стандарт)се нарича корен квадратен от дисперсията на извадката.


Пример:

Наборът за вземане на проби се дава от таблицата за разпределение. Намерете дисперсията на извадката.


Решение:

Теорема: Дисперсията е равна на разликата между средната стойност на квадратите на стойностите на характеристиките и квадрата на общата средна стойност.

Пример:

Намерете дисперсията за това разпределение.



Решение:

8. Статистически оценки на параметрите на разпределението

Нека генералната съвкупност се изследва чрез някаква извадка. В този случай е възможно да се получи само приблизителна стойност на неизвестния параметър Q, която служи за неговата оценка. Очевидно е, че оценките могат да варират от една извадка до друга.

Статистическа оценкаQ*неизвестният параметър на теоретичното разпределение се нарича функция f, която зависи от наблюдаваните стойности на извадката. Задачата на статистическата оценка на неизвестни параметри от извадка е да се изгради такава функция от наличните данни от статистически наблюдения, които да дадат най-точните приблизителни стойности на реални, неизвестни на изследователя, стойности на тези параметри.

Статистическите оценки се разделят на точкови и интервални, в зависимост от начина, по който са предоставени (число или интервал).

Точковата оценка се нарича статистическа оценка.параметър Q на теоретичното разпределение, определено от една стойност на параметъра Q *=f (x 1 , x 2 , ..., x n), къдетоx 1, x 2, ...,xn- резултатите от емпирични наблюдения върху количествения признак X на определена проба.

Такива оценки на параметрите, получени от различни проби, най-често се различават една от друга. Абсолютната разлика /Q *-Q / се нарича грешка на извадката (оценка).

За да могат статистическите оценки да дават надеждни резултати за оценяваните параметри, е необходимо те да бъдат безпристрастни, ефективни и последователни.

Точкова оценка, чието математическо очакване е равно (не равно) на оценявания параметър, се нарича неизместен (изместен). M(Q *)=Q .

Разлика M( Q *)-Q се нарича пристрастие или систематична грешка. За безпристрастни оценки систематичната грешка е 0.

ефикасен Оценяване Q *, което за даден размер на извадката n има най-малката възможна дисперсия: D min(n = const). Ефективният оценител има най-малък спред в сравнение с други безпристрастни и последователни оценители.

Богатсе нарича такава статистика Оценяване Q *, което за nклони по вероятност към оценения параметър Q , т.е. с увеличаване на размера на извадкатан оценката клони по вероятност към истинската стойност на параметъра Q.

Изискването за последователност е в съответствие със закона за големите числа: колкото повече първоначална информация за изследвания обект, толкова по-точен е резултатът. Ако размерът на извадката е малък, точковата оценка на параметъра може да доведе до сериозни грешки.

Всякакви проба (обемн)може да се разглежда като подреден наборx 1, x 2, ...,xnнезависими еднакво разпределени случайни променливи.

Проба означава за различни обемни пробин от една и съща популация ще бъдат различни. Тоест извадковата средна може да се разглежда като случайна променлива, което означава, че можем да говорим за разпределение на извадковата средна и нейните числени характеристики.

Средната стойност на извадката отговаря на всички изисквания, наложени на статистическите оценки, т.е. дава безпристрастна, ефективна и последователна оценка на средната популация.

Може да се докаже, че. По този начин дисперсията на извадката е предубедена оценка на общата дисперсия, което й дава подценена стойност. Тоест при малък размер на извадката ще даде систематична грешка. За безпристрастна, последователна оценка е достатъчно да се вземе количеството, което се нарича коригирана дисперсия. т.е.

На практика за оценка на общата дисперсия се използва коригираната дисперсия, когатон < 30. В други случаи ( n >30) отклонение от едва забележимо. Следователно, за големи стойностин грешката на отклонението може да бъде пренебрегната.

Може също да се докаже, че относителната честотаn i / n е безпристрастна и последователна оценка на вероятността P(X=x i ). Емпирична функция на разпределение F*(x ) е безпристрастна и последователна оценка на теоретичната функция на разпределение F(x)=P(X< x ).

Пример:

Намерете безпристрастните оценки на средната стойност и дисперсията от примерната таблица.

x i
n i

Решение:

Размер на извадката n=20.

Безпристрастната оценка на математическото очакване е средната стойност на извадката.


За да изчислим безпристрастната оценка на дисперсията, първо намираме дисперсията на извадката:

Сега нека намерим безпристрастната оценка:

9. Интервални оценки на параметрите на разпределението

Интервалът е статистическа оценка, определена от две числени стойности - краищата на изследвания интервал.

Номер> 0, където | Q - Q*|< , характеризира точността на оценката на интервала.

ДоверенНаречен интервал , което с дадена вероятностобхваща неизвестна стойност на параметъра Q . Допълване на доверителния интервал към набора от всички възможни стойности на параметри Q Наречен критична зона. Ако критичната област е разположена само от едната страна на доверителния интервал, тогава се извиква доверителният интервал едностранно: ляво, ако критичната област съществува само отляво, и деснякосвен ако не е отдясно. В противен случай се извиква доверителният интервал двустранно.

Надеждност или ниво на увереност, Q оценки (с помощта на Q *) назовете вероятността, с която се изпълнява следното неравенство: | Q - Q*|< .

Най-често доверителната вероятност се задава предварително (0,95; 0,99; 0,999) и се налага изискването тя да бъде близка до единица.

ВероятностНаречен вероятността за грешка или нивото на значимост.

Нека | Q - Q*|< , тогава. Това означава, че с вероятностможе да се твърди, че истинската стойност на параметъра Q принадлежи на интервала. Колкото по-малко е отклонението, толкова по-точна е оценката.

Границите (краищата) на доверителния интервал се наричат граници на доверието или критични граници.

Стойностите на границите на доверителния интервал зависят от закона за разпределение на параметъра Q*.

Стойност на отклонениетонарича се половината от ширината на доверителния интервал точност на оценката.

Методите за конструиране на доверителни интервали са разработени за първи път от американския статистик Y. Neumann. Точност на оценката, вероятност за доверие и размер на извадката n взаимосвързани. Следователно, знаейки специфичните стойности на две количества, винаги можете да изчислите третото.

Намиране на доверителния интервал за оценка на математическото очакване на нормално разпределение, ако стандартното отклонение е известно.

Нека се направи извадка от генералната съвкупност, подчинена на закона за нормалното разпределение. Нека общото стандартно отклонение е известно, но математическото очакване на теоретичното разпределение е неизвестноа().

Валидна е следната формула:

Тези. според зададената стойност на отклонениевъзможно е да се намери с каква вероятност неизвестната обща средна принадлежи на интервала. И обратно. От формулата се вижда, че при увеличаване на размера на извадката и фиксирана стойност на доверителната вероятност стойността- намалява, т.е. точността на оценката се повишава. С увеличаване на надеждността (вероятност за доверие), стойността-увеличава, т.е. точността на оценката намалява.

Пример:

В резултат на тестовете са получени следните стойности -25, 34, -20, 10, 21. Известно е, че те се подчиняват на нормалния закон на разпределение със стандартно отклонение 2. Намерете оценката a* за математическо очакване а. Начертайте 90% доверителен интервал за него.

Решение:

Нека намерим безпристрастната оценка

Тогава


Доверителният интервал за a има формата: 4 - 1,47< а< 4+ 1,47 или 2,53 < a < 5, 47

Намиране на доверителния интервал за оценка на математическото очакване на нормално разпределение, ако стандартното отклонение е неизвестно.

Нека да се знае, че генералната съвкупност е подчинена на закона за нормалното разпределение, където a и. Точност на покриване на доверителния интервал с надеждностистинската стойност на параметъра a в този случай се изчислява по формулата:

, където n е размерът на извадката, , - Коефициент на Студент (следва да се намери от дадените стойности n и от таблицата "Критични точки на разпределението на Стюдънт").

Пример:

В резултат на тестовете са получени следните стойности -35, -32, -26, -35, -30, -17. Известно е, че те се подчиняват на закона за нормалното разпределение. Намерете доверителния интервал за средната стойност на съвкупността a с ниво на достоверност 0,9.

Решение:

Нека намерим безпристрастната оценка.

Да намерим.

Тогава

Доверителният интервал ще приеме формата(-29,2 - 5,62; -29,2 + 5,62) или (-34,82; -23,58).

Намиране на доверителния интервал за дисперсията и стандартното отклонение на нормално разпределение

Нека се вземе произволна извадка от обем от някакъв общ набор от стойности, разпределени според нормалния законн < 30, за които се изчисляват дисперсиите на извадката: отклонениеи коригирано s 2. След това да се намерят интервални оценки с дадена надеждностза обща дисперсиядобщо стандартно отклонениесе използват следните формули.


или,

Стойности- намерете с помощта на таблицата със стойности на критичните точкиРазпределения на Пиърсън.

Доверителният интервал за дисперсията се намира от тези неравенства чрез повдигане на квадрат на всички части на неравенството.

Пример:

Проверено е качеството на 15 болта. Ако приемем, че грешката при тяхното производство е подчинена на нормалния закон за разпределение и стандартното отклонение на извадкатаравна на 5 mm, определете с надеждностдоверителен интервал за неизвестен параметър

Представяме границите на интервала като двойно неравенство:

Краищата на двустранния доверителен интервал за дисперсията могат да бъдат определени без извършване на аритметика за дадено ниво на сигурност и размер на извадката, като се използва съответната таблица (Граници на доверителните интервали за дисперсията в зависимост от броя на степените на свобода и надеждност) . За да направите това, краищата на интервала, получени от таблицата, се умножават по коригираната дисперсия s 2.

Пример:

Нека решим предишния проблем по различен начин.

Решение:

Нека намерим коригираната дисперсия:

Според таблицата "Граници на доверителния интервал за дисперсията в зависимост от броя на степените на свобода и надеждност", намираме границите на доверителния интервал за дисперсията прик=14 и: долна граница 0,513 и горна граница 2,354.

Умножете получените граници поs 2 и извлечете корена (защото имаме нужда от доверителен интервал не за дисперсията, а за стандартното отклонение).

Както се вижда от примерите, стойността на доверителния интервал зависи от метода на неговото изграждане и дава близки, но различни резултати.

За проби с достатъчно голям размер (н>30) границите на доверителния интервал за общото стандартно отклонение могат да бъдат определени по формулата: - някакво число, което е таблично и дадено в съответната справочна таблица.

Ако 1- р<1, то формула имеет вид:

Пример:

Нека решим предишната задача по третия начин.

Решение:

Намерен преди товас= 5,17. р(0,95; 15) = 0,46 - намираме според таблицата.

Тогава:

Селективно наблюдениесе прилага при прилагане на непрекъснато наблюдение физически невъзможнопоради голямо количество данни или икономически непрактично. Физическата невъзможност възниква например при изследване на пътникопотоци, пазарни цени, семейни бюджети. Икономическа нецелесъобразност възниква при оценка на качеството на стоките, свързани с тяхното унищожаване, например дегустация, тестване на тухли за здравина и др.

Избраните за наблюдение статистически единици са рамка за вземане на пробиили вземане на проби, и целия им масив - общо население(GS). При което брой единици в извадкатаобозначавам н, а в целия ХС - н. Поведение n/NНаречен относителен размерили примерен дял.

Качеството на резултатите от пробите зависи от представителност на извадката, тоест доколко е представителен в GS. За да се гарантира представителността на извадката, е необходимо да се спазват принцип на случаен избор на единици, което предполага, че включването на HS единица в извадката не може да бъде повлияно от друг фактор освен случайност.

Съществува 4 начина за произволен изборза проба:

  1. Всъщност произволноселекция или "метод на лото", когато се присвояват серийни номера на статистически стойности, въведени върху определени обекти (например бурета), които след това се смесват в някакъв контейнер (например в торба) и се избират на случаен принцип. На практика този метод се осъществява с помощта на генератор на произволни числа или математически таблици на произволни числа.
  2. Механичниселекция, според която всеки ( N/n)-та стойност на генералната съвкупност. Например, ако съдържа 100 000 стойности и искате да изберете 1000, тогава всяка 100 000 / 1000 = 100-та стойност ще попадне в извадката. Освен това, ако не са класирани, тогава първият се избира произволно от първите сто, а числата на останалите ще бъдат със сто повече. Например, ако единица номер 19 е първата, тогава номер 119 трябва да бъде следващият, след това номер 219, след това номер 319 и т.н. Ако единиците на съвкупността са класирани, първо се избира #50, след това #150, след това #250 и т.н.
  3. Извършва се избор на стойности от разнороден масив от данни стратифицирани(стратифициран) метод, когато генералната съвкупност е предварително разделена на хомогенни групи, към които се прилага случаен или механичен подбор.
  4. Специален метод за вземане на проби е сериенселекция, при която произволно или механично се избират не отделни величини, а техните серии (последователности от някакво число до няколко в редица), в рамките на които се извършва непрекъснато наблюдение.

Качеството на извадковите наблюдения също зависи от тип вземане на проби: повтаря сеили неповтарящ се.
При повторна селекциястатистическите стойности или техните серии, които са попаднали в извадката, се връщат в общата популация след употреба, като имат шанс да попаднат в нова извадка. В същото време всички стойности на генералната съвкупност имат еднаква вероятност да бъдат включени в извадката.
Неповтаряща се селекцияозначава, че статистическите стойности или техните серии, включени в извадката, не се връщат в общата съвкупност след употреба и следователно вероятността за попадане в следващата проба се увеличава за останалите стойности на последната.

Неповтарящото се вземане на проби дава по-точни резултати, така че се използва по-често. Но има ситуации, когато не може да се приложи (проучване на пътникопотоци, потребителско търсене и т.н.) и тогава се извършва повторна селекция.

Грешки при вземане на проби

Извадковият набор може да се формира на базата на количествен признак на статистически стойности, както и на алтернативна или атрибутивна основа. В първия случай обобщаващата характеристика на извадката е стойността, означена с , а във втората - примерен дялколичества, означ w. В общата популация, съответно: обща аварияи общ дял p.

Разлики - и УРНаречен грешка при вземане на проби, което е разделено на грешка при регистрациятаи грешка в представителността. Първата част от грешката на извадката възниква от невярна или неточна информация поради неразбиране на същността на въпроса, невнимание на регистратора при попълване на въпросници, формуляри и др. Сравнително лесно се открива и коригира. Втората част от грешката произтича от постоянното или спонтанно неспазване на принципа на случайния подбор. Трудно се открива и елиминира, много по-голям е от първия и затова на него се обръща основно внимание.

Стойността на извадковата грешка може да бъде различна за различни извадки от една и съща обща съвкупност, следователно в статистиката се определя средна грешка при повторно вземане на проби и невземане на пробипо формулите:

Повтаря се;

- неповтарящи се;

Където Dv е дисперсията на извадката.

Например във фабрика с 1000 служители. Извършена е 5% случайна еднократна извадка за определяне на средния трудов стаж на служителите. Резултатите от наблюдението на вземането на проби са дадени в първите две колони на следващата таблица:

х , години
(работен опит)

f , чол.
(брой служители в извадката)

х и

х и f

В 3-та колона се дефинират средните точки на интервалите X (като половината от сумата на долната и горната граница на интервала), а в 4-та колона продуктите на X и f за намиране на средната стойност на извадката с помощта на претеглената аритметика средна формула:

143,0/50 = 2,86 (години).

Изчислете претеглената дисперсия на извадката:
= 105,520/50 = 2,110.

Сега нека намерим средната грешка без повторен тест:
= 0,200 (години).

От формулите за средни грешки при вземане на проби се вижда, че грешката е по-малка при неповтарящо се вземане на проби и, както е доказано в теорията на вероятностите, възниква с вероятност от 0,683 (тоест, ако вземете 1000 проби от един общ съвкупност, тогава в 683 от тях грешката няма да надвишава средната извадкова грешка). Тази вероятност (0,683) не е висока, така че не е много подходяща за практически изчисления, където е необходима по-висока вероятност. За да определите грешката на извадката с по-висока вероятност от 0,683, изчислете пределна извадкова грешка:

Където T– коефициент на доверителност, в зависимост от вероятността, с която се определя пределната извадкова грешка.

Стойности на фактора на доверие Tизчислени за различни вероятности и са налични в специални таблици (интеграл на Лаплас), от които следните комбинации са широко използвани в статистиката:

Вероятност 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
T 1 1,5 1,96 2 2,5 2,58 3 3,5

При определено ниво на вероятност, стойността, съответстваща на него, се избира от таблицата Tи определяне на пределната извадкова грешка по формулата.
В този случай = 0,95 и T= 1,96, тоест те смятат, че с вероятност от 95%, пределната грешка на извадката е 1,96 пъти по-голяма от средната. Тази вероятност (0,95) се взема предвид стандартени се прилага по подразбиране в изчисленията.

В нашия, ние определяме пределната извадкова грешка при стандартната 95% вероятност (от вземането T= 1,96 за 95% шанс): = 1,96*0,200 = 0,392 (години).

След изчисляване на пределната грешка се намира доверителен интервал на обобщаващата характеристика на генералната съвкупност. Такъв интервал за общата авария има формата
Тоест средният стаж на работниците в целия завод е в диапазона от 2,468 до 3,252 години.

Определяне на размера на извадката

При разработването на програма за селективно наблюдение понякога им се дава конкретна стойност на пределната грешка с ниво на вероятност. Минималният размер на извадката, който осигурява дадената точност, остава неизвестен. Може да се получи от формулите за средната и пределната грешка в зависимост от вида на извадката. И така, замествайки и в и решавайки го по отношение на размера на извадката, получаваме следните формули:
за повторна проба н =
без повторно вземане на проби н = .

В допълнение, за статистически стойности с количествени характеристики трябва да се знае и дисперсията на извадката, но до началото на изчисленията тя също не е известна. Следователно се приема приблизителноедно от следните начини(по приоритетен ред):

При изучаване на нечислови характеристики, дори ако няма приблизителна информация за фракцията на пробата, се приема w= 0,5, което според формулата за дисперсия на дяловете съответства на дисперсията на извадката в максималния размер Dv = 0,5*(1-0,5) = 0,25.