Rule Sturges: Explicație, Aplicații și Exemple

Regula Sturges este un criteriu utilizat pentru a determina numărul de clase sau intervale care sunt necesare pentru a reprezenta grafic un set de date statistice. Această regulă a fost enunțată în 1926 de matematicianul german Herbert Sturges.

Sturges a propus o metodă simplă, bazată pe numărul de eșantioane x care au permis găsirea numărului de clase și a amplitudinii lor de gamă. Norma Sturges este utilizată pe scară largă, în special în domeniul statisticii, în special pentru a construi histograme de frecvență.

explicație

Regula Sturges este o metodă empirică folosită pe scară largă în statisticile descriptive pentru a determina numărul de clase care trebuie să existe într-o histogramă de frecvență, pentru a clasifica un set de date care reprezintă un eșantion sau o populație.

În principiu, această regulă determină lățimea containerelor grafice, a histogramelor de frecvență.

Pentru a-și stabili regula, Herbert Sturges a considerat o diagramă de frecvență ideală, care constă din intervale K, unde intervalul i conține un anumit număr de eșantioane (i = 0, ... k - 1) reprezentate ca:

Acest număr de eșantioane este dat de numărul de moduri în care poate fi extras un subset dintr-un set; adică prin coeficientul binomial, exprimat după cum urmează:

Pentru a simplifica expresia, el a aplicat proprietățile logaritmelor în ambele părți ale ecuației:

Astfel, Sturges a stabilit că numărul optim de intervale k este dat de expresia:

De asemenea, poate fi exprimată ca:

În această expresie:

- k este numărul de clase.

- N este numărul total de observații din eșantion.

- Log este logaritmul bazei comune 10.

De exemplu, pentru a face o histogramă de frecvență care exprimă un eșantion aleatoriu de înălțime de 142 de copii, numărul de intervale sau clase pe care le va avea distribuția este:

k = 1 + 3, 322 * log 10 (N)

k = 1 + 3, 322 * log (142)

k = 1 + 3, 322 * 2, 1523

k = 8, 14 ≈ 8

Astfel, distribuția va fi în 8 intervale.

Numărul de intervale trebuie reprezentat întotdeauna de numere întregi. În cazurile în care valoarea este zecimal, trebuie făcută o aproximare la cel mai apropiat număr întreg.

aplicații

Regula Sturges se aplică în principal în statistici, deoarece permite efectuarea unei distribuții a frecvenței prin calcularea numărului de clase (k), precum și a lungimii fiecăruia dintre ele, cunoscută și ca amplitudine.

Amplitudinea este diferența dintre limita superioară și cea inferioară a clasei, împărțită la numărul de clase și este exprimată:

Există multe reguli empirice care permit o distribuție a frecvenței. Cu toate acestea, regula Sturges este frecvent utilizată deoarece aproximează numărul de clase, care în general variază de la 5 la 15.

În acest fel, luați în considerare o valoare care reprezintă în mod adecvat un eșantion sau o populație; adică aproximarea nu reprezintă grupări extreme și nici nu funcționează cu un număr excesiv de clase care nu permit sintetizarea eșantionului.

exemplu

Este necesar să se efectueze o histogramă de frecvență în conformitate cu datele furnizate, care corespund vârstelor obținute într-un studiu al bărbaților care efectuează exerciții într-o sală de gimnastică locală.

Pentru a determina intervalele trebuie să știți care este mărimea eșantionului sau numărul de observații; în acest caz, aveți 30.

Apoi se aplică regula Sturges:

k = 1 + 3, 322 * log 10 (N)

k = 1 + 3, 322 * log (30)

k = 1 + 3, 322 * 1, 4771

k = 5, 90 ≈ 6 intervale.

Din numărul de intervale, se poate calcula amplitudinea pe care acestea o vor avea; adică lățimea fiecărei bare reprezentată în histograma de frecvență:

Limita inferioară este considerată cea mai mică valoare a datelor, iar limita superioară este cea mai mare valoare. Diferența dintre limita superioară și cea inferioară este numită intervalul sau calea variabilei (R).

Din tabel avem că limita superioară este 46 și limita inferioară 13; în acest fel, amplitudinea fiecărei clase va fi:

Intervalele vor fi compuse dintr-o limită superioară și inferioară. Pentru a determina aceste intervale, începeți să numărați de la limita inferioară adăugând la ea amplitudinea determinată de regula (6), după cum urmează:

Apoi, frecvența absolută este calculată pentru a determina numărul de bărbați care corespund fiecărui interval; în acest caz este:

- Interval 1: 13 - 18 = 9

- Intervalul 2: 19-24 = 9

- Interval 3: 25 - 30 = 5

- Intervalul 4: 31 - 36 = 2

- Interval 5: 37 - 42 = 2

- Intervalul 6: 43 - 48 = 3

Atunci când se adaugă frecvența absolută a fiecărei clase, aceasta trebuie să fie egală cu numărul total al eșantionului; în acest caz, 30.

Ulterior, se calculează frecvența relativă a fiecărui interval, împărțind frecvența absolută a acestui interval la numărul total de observații:

- Intervalul 1: fi = 9 ÷ 30 = 0, 30

- Intervalul 2: fi = 9 ÷ 30 = 0, 30

- Intervalul 3: fi = 5 ÷ 30 = 0.1666

- Intervalul 4: fi = 2 ÷ 30 = 0, 0666

- Intervalul 5: fi = 2 ÷ 30 = 0, 0666

- Intervalul 4: fi = 3 ÷ 30 = 0, 10

Apoi puteți face o masă care să reflecte datele, precum și diagrama de la frecvența relativă în raport cu intervalele obținute, așa cum se poate vedea în următoarele imagini:

În acest fel, regula Sturges permite determinarea numărului de clase sau intervale în care poate fi împărțit un eșantion, pentru a rezuma un eșantion de date prin pregătirea tabelelor și a graficelor.