verband tussen meerdere variabelen wiskunde-interactief.be

 

                                           

spreidingstabellen
In een klas van 16 lln werden gegevens verzameld als vertrekpunt voor deze pagina.
We willen nagaan of er een samenhang is tussen deze gevensreeksen.
Meerdere gegevens kunnen we samen weergeven in een spreidingsdiagram:

Op de horizontale as lees je het gewicht in kg af.
Op de verticale as lees je de schoenmaat af.
Wat kan je besluiten?

Kan je op een spreidingsdiagram ook de sterkte van verbanden vergelijken?

Op de horizontale as lees je het resultaat voor Frans af.
Op de verticale as lees je het resultaat voor Engels af.
Op de horizontale as lees je het resultaat voor wiskunde af.
Op de verticale as lees je het resultaat voor Frans af.

Verbanden is niet altijd 'meer van het een komt overeen met meer van het andere.

Op de horizontale as lees je het semester% af.
Op de verticale as lees je het totaal aantal tekorten voor
dagelijks werk en proefwerken af.
Wat kan je besluiten?
Op de horizontale as lees je de schoenmaat af.
Op de verticale as lees je de uren computergebruik per dag af.
Wat kan je besluiten?

 

 

 

 

 

 

 

correlatie
Iemand met hogere punten voor Frans heeft over het algemeen ook hogere punten voor Engels.
We spreken van een positief verband of positieve correlatie.
Iemand met een hoger semesterpercentage heeft over het algemeen ook minder tekorten.
We spreken van een negatief verband of negatieve correlatie.

Wat is de oppervlakte van een rechthoek met een constante breedte?
In het onderstaande applet kan je de lengte veranderen en de bijhorende oppervlakte aflezen.



De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect.
Er is een maximaal positief verband tussen lengte en oppervlakte. De correlatie is 1.

Wat is de breedte van een rechthoek met een constante oppervlakte?
In het onderstaande applet kan je de lengte veranderen en de bijhorende breedte aflezen.

De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect.
Er is een maximaal negatief verband tussen lengte en oppervlakte. De correlatie is -1.

 

 

 

 

 

 

 

correlatiecoëficiënt
De correlatiecoëficiënt duidt de hoogte van de correlatie aan.
We definiëren:

correlatiecoëficiënt = ∑( x - x).(y -  y) 
N . sx . sy

hierin is:
x = het gemiddelde van de x-waarden       
y = het gemiddelde van de y-waarden
N = aantal getallenparen
sx = standaardafwijking van x
sy = standaardafwijking van y
 

Deze correlatiecoëficiënt ligt steeds tussen -1 en +1.
Hoe smaller de puntenwolk, hoe sterker de correlatie.
Ter illustratie hernemen we enkele spreidingsdiagrammen met de bijhorende correlatiecoëficiënt:

correlatiecoëficiënt  = 0,86                                                          correlatiecoëficiënt  = 0,36
bij een sterker verband is de
correlatiecoëficiënt   groter
correlatiecoëficiënt  = - 0,87
meer-minderverband: de
correlatiecoëficiënt  is negatief
correlatiecoëficiënt  = 0,28
wanneer er nauwelijks een verband bestaat,
nadert de
correlatiecoëficiënt  naar 0

 

 

 

 

 

 

 

berekenen van correlatiecoëficiënt
In Excel is de correlatiecoëficiënt ingebouwd als functie.
Let op de manier van selecteren van de gegevens: scheidt de twee reeksen door een kommapunt:

 

 

 

regressie
In een rechthoek met constante breedte is de oppervlakte evenredig met de lengte.
In het spreidingsdiagram liggen de punten lengte-oppervlakte op een rechte.
Voor de punten Frans-Engels kunnen we ook een best-passende rechte tekenen: 

Deze rechte noemen we de regressielijn.
De vergelijking van deze rechte geeft het verband weer tussen de punten Frans en Engels


 De vergelijking van de regressielijn vinden we met de formule:
 y = a . x + b
 
 a en b noemen we de regressieco?fici?ten met:    
a = r . sy 
sx
b =  y - r .  sy    .. x
sx

 Een andere schrijfwijze voor de vergelijking van de regressielijn is:   

y = r .  sy  ( x - x) +  y
sx

hierin is:
r = de correlatiecoëficiënt tussen x en y
x = het gemiddelde van de x-waarden       
y = het gemiddelde van de y-waarden
sx = standaardafwijking van x
sy = standaardafwijking van y
 

 

 

 

 

Correlatie en regressie in Geogebra:
Sorry, the GeoGebra Applet could not be started. Please make sure that Java 1.4.2 (or later) is installed and active in your browser (Click here to install Java now)
Regressielijn
- typ de cijfergegevens in het rekenvenster
- selecteer alle gegevens en kies met rechtermuisknop voor 'maak een lijst van punten'
- Kies in de 4e knoppenreeks de 7e knop: 'Regressielijn'
- Selecteer met de pijlaanwijzer alle punten: de regressielijn wordt nu getekend (object 'a'in het algebravenster)

Correlatiecoëficiënt
- Typ in het invoerveld onderaan 'CorrelationCoefficient[lijst1]
- Je leest de correlatiecoëficiënt af als object 'b'.
- Je kan deze ook als tekst laten verschijnen: "correlatiecoëficiënt  is " + b

Regressiekromme
Soms is het verband tussen variabelen duidelijk niet lineair, maar van een hogere orde, of exponentieel, of sinusoïdaal...
Ook deze verbanden kunnen onderzocht en getekend worden:
- typ in het rekenblad de x- en y- waarden
- selecteer alle waarden en kies met rechtermuisknop voor 'Maak een lijst van punten'
  (deze lijst wordt opgeslagen als lijst1)
- typ in het invoerveld het commando Veeltermregressie[lijst1, n]
  hiermee zoek je de regressiekromme als een veelterm van de n-de graad.
  De graad n is instelbaar met een schuifknop
Sorry, the GeoGebra Applet could not be started. Please make sure that Java 1.4.2 (or later) is installed and active in your browser (Click here to install Java now)
ingebouwde regressiefuncties van geogebra:
 
Regressielijn[lijst1]    
 
regressielijn
 
van de vorm ax + by = c
 
MachtsRegr[lijst1]
 
machtsregressie
 
van de vorm f(x) = axb
 
VeeltRegr[lijst1]
 
veeltermregressie
 
van de vorm f(x) = anxn + an-1 xn-1 + ...     
 
ExpRegr[lijst1]
 
exponentiële regressie
 
f(x) = a . ebx
 
Logregr[lijst1]
 
logaritmische regressie   
 
f(x) = a + b. ln x
 
SinRegr[lijst1]
 
sinusoïdale regressie
 
f(x) = a + b. sin (cx + d)
 

 

 

 

 

 

 

 

 

 

 

 

 

correlatie en regressie op GRM
Correlatie en regressie kunnen we eenvoudig berekenen met een grafisch rekenapparaat.
We onderzoeken het verband tussen lengte en gewicht:

 In L1 typen we de lengtes
 In L2 typen we de gewichten
 (zie statistiek en GRM)
 Centrum- en spreidingsmaten van beide variabelen bereken we nu tegelijk met 2-Var Stats:
 We plotten nu het spreidingsdiagram:
 We berekenen nu de correlatiecoëficiënt en de regressielijn
 
Je GRM toont echter enkel de correlatiecoëficiënt als je in CATALOG 'DiagnosticOn' selecteert.
 Selecteer in het Stat-menu 'CALC' en kies de optie 4: LinReg(ax + b):
 We kunnen nu ook de regressielijn plotten in het spreidingsdiagram:

Het verband tussen variabelen is niet altijd lineair.
Via het Stat-menu kan je ook andere verbanden onderzoeken:
kwadratrisch, van de  derde of vierde graad, logaritmisch of exponentieel.
 

 

 

 

 

 

 

nauwkeurigheid van voorspelling
Wanneer we de waarde van ?n variabele kennen, geeft de regressielijn
de best mogelijke schatting voor een tweede variabele.
Maar niet alle punten van het spreidingsdiagram liggen exact op de rechte (enkel als r=1 of r= -1).
Het verschik tussen de score en de voorspelling noemen we de schattingsfout.

Voor deze fout kunnen we de standaardafwijking berekenen.
We kunnen hieruit de waarschijnlijkheid van een bepaalde afwijking afleiden.


 standaardafwijking van de schattingsfout:       

 

 of nog:
    

 hierin is:
 r = de correlatiecoëficiënt tussen x en y
 y' = schatting van y
 N = het aantal getallenparen
 sy = standaardafwijking van y
 

 

 

 

 

 


kruistabellen

Sommige leerlingen doen aan sport, sommigen hebben na school een job .
De variabelen 'aan sport doen' of 'werken in een studentenjob ' geen grootte.
We noemen ze nominale variabelen.
Ook tussen zulke variabelen kunnen we het verband onderzoeken:
sporten   
  niet      wel    
6 10
            job    
  geen      wel    
10 6

Het lijkt een perfecte symmetrie.
Maar zijn die 6 en die 10 leerlingen uit de eerste tabel wel dezelfde als de 6 en de 10 uit de tweede tabel?
We kunnen de twee variabelen in ?n tabel onderbrengen.
Zulk een tabel noemen we een kruistabel:

      

job     

sporten
    geen     wel   totaal
  niet    2 4 6
  wel 8 2 10
totaal 10 6 16

Hoe zou de tabel eruit zien als er geen verband is tussen een job en actief sporten?

De kans op niet sporten ? geen job is het product van de afzonderlijke kansen = 6 . 10
16 16
Het verwachte aantal leerlingen die niet sporten ? geen job is het product van de afzonderlijke kansen = 6 . 10 . 16 =    6 . 10 = 4
16 16

16

We kunnen voor alle cellen de verwachte waarden invullen.
We krijgen volgende tabel:
      

job     

sporten
    geen     wel   totaal
  niet    4 2 6
  wel 6 4 10
totaal 10 6 16

Voor de afwijking tussen beide tabellen bestaat ook een maat.
Hiervoor berekenen we het kwadraat van de afwijking en maken hiervan de som:

rij kolom aantal verwacht verschil (verschil)²
(verschil)?
verwacht
1 1 2 4 -2 4 1
1 2 4 2 2 4 2
2 1 8 6 2 4 0,7
2 2 2 4 -2 4 1
          Ҳ² = 4,7

Deze waarde noemen we  Ҳ? (chi-kwadraat).

Ҳ² =  (fi - fe)²    met hierin:
   fi = geobserveerde frequentie   
   fe = verwachte frequentie
fe

Hoe groter Ҳ² , hoe kleiner de kans dat het verband tussen variabelen toeval is.
Net als de standaardnormale verdeling is de kansverdeling van het chi-kwadraat bekend.
De kans dat een gegeven waarde van chi-kwadraat door het toeval wordt bepaald is op te zoeken in een tabel
of te berekenen met een spreadsheet of statistisch programma.
In Excel kun je gebruik maken van de functie CHIDIST om de kans uit te rekenen dat een gevonden waarde van Ҳ?
door het toeval wordt bepaald (= de overschrijdingskans).


Omdat Ҳ² afhankelijk is van de steekproefgrootte, maar ook van het aantal rijen en kolommen van de tabel,
zijn er ook andere maten ontwikkeld die dit nadeel niet hebben.
De contingentieco?fici?t wordt gedefinieerd als volgt:

Contingentiecoëfficiënt:

  
   met hierin:
   N = het aantal getallen   
   Ҳ² = de waarde van chi-kwadraat    

 

 

 

 

 

 

 

 

 

 

 

 

naar startpagina
naar sitemap

spreidingstabellen
correlatie
correlatiecoëficiënt
berekenen corr.coëficiënt
regressie
in geogebra
met GRM
nauwkeurigheid
kruistabellen