holysteel (& everything else)

a nyers adat

táblázatos forma
  • az adatsor amit fel kell dolgozni

  • egy képzeletbeli város eladó ingatlanairól szól

  • az $Y$ oszlop az ingatlanok árait tartalmazza (millió dollár)

  • ezenkívül a ingatlanok 2 ismérvéről - típus és teher - van adat

Ytípusteher
2.0Bnem
2.4Bigen
2.5Bnem
2.6Bnem
2.7Bnem
2.8Bnem
3.0Bnem
3.1Bnem
3.1Bnem
3.1Bnem
3.2Aigen
3.3Aigen
3.4Bnem
3.4Bigen
3.5Bigen
3.5Bnem
3.5Bnem
3.6Bnem
3.6Anem
3.7Bnem
3.7Bigen
3.8Aigen
3.8Aigen
3.8Bnem
3.9Bnem
4.0Anem
4.1Aigen
4.1Bigen
4.2Anem
4.2Aigen
4.2Anem
4.3Bigen
4.3Anem
4.5Bnem
4.8Anem
4.9Bigen
5.1Bigen
5.2Aigen
5.3Anem
5.5Aigen
5.6Aigen
5.7Anem
6.0Bigen
6.1Bigen
6.8Bnem
7.0Bigen
7.1Anem
7.6Bigen



leírók a nyers adatsorból
  • ezek a nyers adatsorból (teljes információ birtokában) számolt mutatók:

átlagszórásmediánQ1Q3$\alpha_3$$P$$H_{\rm{típus}}$
4.21.2953.853.3255.050.8230.8110.209
  • és néhány ábra (a piros vonal az átlag):




osztályozás?
  • határozzuk meg az adott osztályok gyakoriságait!

  • itt az $a-b$ jelentése, hogy az ingatlan ára $a$ és $b$ millió közé esik.

osztály
2.0-2.9
3.0-3.9
4.0-4.9
5.0-5.9
6.0-6.9
7.0-7.9


osztályozás!
  • a fenti (gyakorisági) hisztogram számai:

osztályff'
2.0-2.966
3.0-3.91925
4.0-4.91136
5.0-5.9642
6.0-6.9345
7.0-7.9348



ezeket az osztályozott adatsorból számoljuk ki

  • és hasonlítsuk össze a nyers adatsorból számolt értékekkel!

átlag?
  • minden osztályban a gyakoriságának megfelelő, osztályközéppel egyenlő értéket képzelhetünk.



átlag!
  • a becsült értékösszeg: $6 \cdot 2.45 + 19 \cdot 3.45 + ... + 3 \cdot 6.45 + 3 \cdot 7.45 = 203.6$

  • a becsült átlag: $\frac{203.6}{48.0} = 4.242$




szórás?
  • az előbb számolt átlagot használjuk a szórás képletében (súlyozott) !



szórás!
  • a becsült eltérérés négyzetösszeg (SST):

  • $6 \cdot \left( 2.45 - 4.242 \right)^{2} + 19 \cdot \left( 3.45 - 4.242 \right)^{2} + ... + 3 \cdot \left( 6.45 - 4.242 \right)^{2} + 3 \cdot \left( 7.45 - 4.242 \right)^{2} = 85.917$

  • tehát a becsült szórás: $\sqrt{\frac{85.917}{48}} = 1.338$




kvartilisek?
  • $Y_{j,0} + (\frac{i}{k}N-f^{'}_{j-1})\frac{h_{j}}{f_{j}}$

  • $i=1,2,3\ \ k=4$



kvartilisek!
  • $Q_1 = 3 + \frac{\left( \frac{1}{4} \cdot 48 - 6 \right) \cdot 0.9}{19} = 3.284$

  • $Q_2 = 3 + \frac{\left( \frac{2}{4} \cdot 48 - 6 \right) \cdot 0.9}{19} = 3.853$

  • $Q_3 = 4 + \frac{\left( \frac{3}{4} \cdot 48 - 25 \right) \cdot 0.9}{11} = 4.9$




ferdeség?
  • az $\alpha_3$-hoz még az $M_3$ kell, a $P$ mutatóhoz minden megvan



ferdeség!
  • a becsült eltérés köb-összeg ($M_3$ számlálója):

  • $6 \cdot \left( 2.45 - 4.242 \right)^{3} + 19 \cdot \left( 3.45 - 4.242 \right)^{3} + ... + 3 \cdot \left( 6.45 - 4.242 \right)^{3} + 3 \cdot \left( 7.45 - 4.242 \right)^{3} = 98.046$

  • tehát a becsült $\alpha_3 =\ \frac{\frac{98.046}{48}}{1.338^{3}} = 0.853$

  • A Pearson-féle ferdeségi mutatóhoz mar minden megvan, csak helyettesítsünk be:

  • $P = \frac{3 \cdot \left( 4.242 - 3.853 \right)}{1.338} = 0.872$




a típus kapcsolata az árral?
  • használjuk a részátlagok számításához a típus szerinti gyakorisági táblákat:

  • (feltételezzük hogy a nyers adatsor nem ismert)

osztály (A)ff'
2.0-2.900
3.0-3.955
4.0-4.9712
5.0-5.9517
6.0-6.9017
7.0-7.9118
osztály (B)ff'
2.0-2.966
3.0-3.91420
4.0-4.9424
5.0-5.9125
6.0-6.9328
7.0-7.9230


a típus kapcsolata az árral!
  • SST-t már a becsült szórásnál kiszámoltuk: 85.917

  • a becsült (fő)átlagot is: 4.242

  • a részátlagok becslései (először az értékösszegeket számoljuk):

$0 \cdot 2.45 + 5 \cdot 3.45 + ... + 0 \cdot 6.45 + 1 \cdot 7.45 = 83.1 \ \ \implies \ \ \overline{Y_A} = \frac{83.1}{18.0} = 4.617$

$6 \cdot 2.45 + 14 \cdot 3.45 + ... + 3 \cdot 6.45 + 2 \cdot 7.45 = 120.5 \ \ \implies \ \ \overline{Y_B} = \frac{120.5}{30.0} = 4.017$

  • amiből:

$SSK = 18 \cdot \left( 4.617 - 4.242 \right)^{2} + 30 \cdot \left( 4.017 - 4.242 \right)^{2} = 4.05$

  • tehát

$H = \sqrt{\frac{4.05}{85.917}} = 0.217$ (gyenge kapcsolat)




a becsült módusz?

Az osztályközös gyakorisági sorból számoljuk ki a

\[ Y_{\rm{mo},0} + \frac{d_a}{d_a+d_f}h_{\rm{mo}} \]

alapján. (Ha nincs egyértelműen legnagyobb gyakoriság akkor nem számoljuk)



a becsült módusz!
  • a legnagyobb gyakoriságú osztály a $3.0-3.9$-es

\[ Y_{mo,0}= 13 \\ d_a= 13 \\ d_f=8 \\ h_{mo}=0.99 \\ Mo = 3.0 + \frac{13.0}{13.0 + 8.0} \cdot 0.99 = 3.613 \]