verband tussen meerdere variabelen wiskunde-interactief.be

                                           

spreidingstabellen
In een klas van 16 lln werden gegevens verzameld als vertrekpunt voor deze pagina.
We willen nagaan of er een samenhang is tussen deze gevensreeksen.
Meerdere gegevens kunnen we samen weergeven in een spreidingsdiagram:

Op de horizontale as lees je het gewicht in kg af.
Op de verticale as lees je de schoenmaat af.
Wat kan je besluiten?

Kan je op een spreidingsdiagram ook de sterkte van verbanden vergelijken?

Op de horizontale as lees je het resultaat voor Frans af.
Op de verticale as lees je het resultaat voor Engels af.
Op de horizontale as lees je het resultaat voor wiskunde af.
Op de verticale as lees je het resultaat voor Frans af.

Verbanden is niet altijd 'meer van het een komt overeen met meer van het andere'.

Op de horizontale as lees je het semester% af.
Op de verticale as lees je het totaal aantal tekorten voor
dagelijks werk en proefwerken af.
Wat kan je besluiten?

Op de horizontale as lees je de schoenmaat af.
Op de verticale as lees je de uren computergebruik per dag af.
Wat kan je besluiten?

 

 

 

 

 

 

 

correlatie
Iemand met hogere punten voor Frans heeft over het algemeen ook hogere punten voor Engels.
We spreken van een positief verband of
positieve correlatie.
Iemand met een hoger semesterpercentage heeft over het algemeen ook minder tekorten.
We spreken van een negatief verband of
negatieve correlatie.
Wat is de oppervlakte van een rechthoek met een constante breedte?
In het onderstaande applet kan je de lengte veranderen en de bijhorende oppervlakte aflezen.

De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect.
Er is een
maximaal positief verband tussen lengte en oppervlakte. De correlatie is 1.

Wat is de breedte van een rechthoek met een constante omtrek?
In het onderstaande applet kan je de lengte veranderen en de bijhorende breedte aflezen.

De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect.
Er is een
maximaal negatief verband tussen lengte en oppervlakte. De correlatie is -1.

 

 

 

 

 

 

 

correlatiecoŽficiŽnt
De correlatiecoŽficiŽnt duidt de hoogte van de correlatie aan.
We definiŽren:

correlatiecoŽficiŽnt = ∑( x - x).(y -  y) 
N . sx . sy

hierin is:
x = het gemiddelde van de x-waarden       
y = het gemiddelde van de y-waarden
N = aantal getallenparen
sx = standaardafwijking van x
sy = standaardafwijking van y
 

Deze correlatiecoŽficiŽnt ligt steeds tussen -1 en +1.
Hoe smaller de puntenwolk, hoe sterker de correlatie.
Ter illustratie hernemen we enkele spreidingsdiagrammen met de bijhorende correlatiecoŽficiŽnt:

correlatiecoŽficiŽnt  = 0,86                                                          correlatiecoŽficiŽnt  = 0,36
bij een sterker verband is de correlatiecoŽficiŽnt
  groter
correlatiecoŽficiŽnt  = - 0,87
meer-minderverband: de correlatiecoŽficiŽnt
 is negatief
correlatiecoŽficiŽnt  = 0,28
wanneer er nauwelijks een verband
bestaat,
nadert de correlatiecoŽficiŽnt
 naar 0

 

 

 

 

 

 

 

berekenen van correlatiecoŽficiŽnt
In Excel is de correlatiecoŽficiŽnt ingebouwd als functie.
Let op de manier van selecteren van de gegevens: scheidt de twee reeksen door een kommapunt:

 

 

 

regressie
In een rechthoek met constante breedte is de oppervlakte evenredig met de lengte.
In het spreidingsdiagram liggen de punten lengte-oppervlakte op een rechte.
Voor de punten Frans-Engels kunnen we ook een best-passende rechte tekenen: 

Deze rechte noemen we de
regressielijn.
De vergelijking van deze rechte geeft het verband weer tussen de punten Frans en Engels


 De vergelijking van de regressielijn vinden we met de formule:
 y = a . x + b
 
 a en b noemen we de regressieco?fici?ten met:    
a = r . sy 
sx
b =  y - r .  sy    .. x
sx

 Een andere schrijfwijze voor de vergelijking van de regressielijn is:   

y = r .  sy  ( x - x) +  y
sx

hierin is:
r = de correlatiecoŽficiŽnt tussen x en y
x = het gemiddelde van de x-waarden       
y = het gemiddelde van de y-waarden
sx = standaardafwijking van x
sy = standaardafwijking van y
 

 

 

 

 

Correlatie en regressie in GeoGebra:

Regressielijn
- typ de cijfergegevens in het rekenvenster
- selecteer alle gegevens en kies met rechtermuisknop voor 'maak een lijst van punten'
- Kies in de knoppenreeks de knop: '
Regressielijn'
- Selecteer met de pijlaanwijzer alle punten: de regressielijn wordt nu getekend.

CorrelatiecoŽficiŽnt
- Typ in het invoerveld onderaan 'CorrelatieCoefficient[lijst1]'

Regressiekromme
Soms is het verband tussen variabelen duidelijk niet lineair, maar van een hogere orde, of exponentieel, of sinusoÔdaal...
Ook deze verbanden kunnen onderzocht en getekend worden:
- typ in het rekenblad de x- en y- waarden
- selecteer alle waarden en kies met rechtermuisknop voor 'Maak een lijst van punten'
  (deze lijst wordt opgeslagen als lijst1)
- typ in het invoerveld het commando
Veeltermregressie[lijst1, n]
  hiermee zoek je de regressiekromme als een veelterm van de n-de graad.
  De graad n is instelbaar met een schuifknop

ingebouwde regressiefuncties van geogebra:
 
Regressielijn[lijst1]    
 
regressielijn
 
van de vorm ax + by = c
 
MachtsRegr[lijst1]
 
machtsregressie
 
van de vorm f(x) = axb
 
VeeltRegr[lijst1]
 
veeltermregressie
 
van de vorm f(x) = anxn + an-1 xn-1 + ...     
 
ExpRegr[lijst1]
 
exponentiŽle regressie
 
f(x) = a . ebx
 
Logregr[lijst1]
 
logaritmische regressie   
 
f(x) = a + b. ln x
 
SinRegr[lijst1]
 
sinusoÔdale regressie
 
f(x) = a + b. sin (cx + d)
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nauwkeurigheid van voorspelling
Wanneer we de waarde van een variabele kennen, geeft de regressielijn
de best mogelijke schatting voor een tweede variabele.
Maar niet alle punten van het spreidingsdiagram liggen exact op de rechte (enkel als r=1 of r= -1).
Het verschil tussen de score en de voorspelling noemen we de
schattingsfout.

Voor deze fout kunnen we de standaardafwijking berekenen.
We kunnen hieruit de waarschijnlijkheid van een bepaalde afwijking afleiden.


 standaardafwijking van de schattingsfout:       

 

 of nog:
    

 hierin is:
 r = de correlatiecoŽficiŽnt tussen x en y
 y' = schatting van y
 N = het aantal getallenparen
 sy = standaardafwijking van y
 

 

 

 

 

 


kruistabellen

Sommige leerlingen doen aan sport, sommigen hebben na school een job .
De variabelen 'aan sport doen' of 'werken in een studentenjob ' geen grootte.
We noemen ze nominale variabelen.
Ook tussen zulke variabelen kunnen we het verband onderzoeken:
sporten   
  niet      wel    
6 10
            job    
  geen      wel    
10 6

Het lijkt een perfecte symmetrie.
Maar zijn die 6 en die 10 leerlingen uit de eerste tabel wel dezelfde als de 6 en de 10 uit de tweede tabel?
We kunnen de twee variabelen in een tabel onderbrengen.
Zulk een tabel noemen we een
kruistabel:

      

job     

sporten
    geen     wel   totaal
  niet    2 4 6
  wel 8 2 10
totaal 10 6 16

Hoe zou de tabel eruit zien als er geen verband is tussen een job en actief sporten?

De kans op niet sporten en geen job is het product van de afzonderlijke kansen = 6 . 10
16 16
Het verwachte aantal leerlingen die niet sporten ? geen job is het product van de afzonderlijke kansen = 6 . 10 . 16 =    6 . 10 = 4
16 16

16

We kunnen voor alle cellen de verwachte waarden invullen.
We krijgen volgende tabel:
      

job     

sporten
    geen     wel   totaal
  niet    4 2 6
  wel 6 4 10
totaal 10 6 16

Voor de afwijking tussen beide tabellen bestaat ook een maat.
Hiervoor berekenen we het kwadraat van de afwijking en maken hiervan de som:

rij kolom aantal verwacht verschil (verschil)2
(verschil)2
verwacht
1 1 2 4 -2 4 1
1 2 4 2 2 4 2
2 1 8 6 2 4 0,7
2 2 2 4 -2 4 1
          Ҳ≤ = 4,7

Deze waarde noemen we  Ҳ2 (chi-kwadraat).

Ҳ≤ =  ∑ (fi - fe)    met hierin:
   fi = geobserveerde frequentie   
   fe = verwachte frequentie
fe

Hoe groter Ҳ≤ , hoe kleiner de kans dat het verband tussen variabelen toeval is.
Net als de standaardnormale verdeling is de kansverdeling van het chi-kwadraat bekend.
De kans dat een gegeven waarde van chi-kwadraat door het toeval wordt bepaald is op te zoeken in een tabel
of te berekenen met een spreadsheet of statistisch programma.
In Excel kun je gebruik maken van de functie CHIDIST om de kans uit te rekenen dat een gevonden waarde van Ҳ?
door het toeval wordt bepaald (= de overschrijdingskans).


Omdat Ҳ≤ afhankelijk is van de steekproefgrootte, maar ook van het aantal rijen en kolommen van de tabel,
zijn er ook andere maten ontwikkeld die dit nadeel niet hebben.
De contingentieco?fici?t wordt gedefinieerd als volgt:

ContingentiecoŽfficiŽnt:

  
   met hierin:
   N = het aantal getallen   
   Ҳ≤ = de waarde van chi-kwadraat    

 

 

 

 

 

 

 

 

 

 

 

 

naar startpagina
naar sitemap

spreidingstabellen
correlatie
correlatiecoŽficiŽnt

berekenen corr.coŽficiŽnt
regressie
in GeoGebra
nauwkeurigheid
kruistabellen