verband tussen meerdere variabelen wiskunde-interactief.be
spreidingstabellen In een klas van 16 lln werden gegevens verzameld als vertrekpunt voor deze pagina. We willen nagaan of er een samenhang is tussen deze gevensreeksen. Meerdere gegevens kunnen we samen weergeven in een spreidingsdiagram:
Kan je op een spreidingsdiagram ook de sterkte van verbanden vergelijken?
Verbanden is niet altijd 'meer van het een komt overeen met meer van het andere.
correlatie Iemand met hogere punten voor Frans heeft over het algemeen ook hogere punten voor Engels. We spreken van een positief verband of positieve correlatie. Iemand met een hoger semesterpercentage heeft over het algemeen ook minder tekorten. We spreken van een negatief verband of negatieve correlatie.
Wat is de oppervlakte van een rechthoek met een constante breedte? In het onderstaande applet kan je de lengte veranderen en de bijhorende oppervlakte aflezen.
De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect. Er is een maximaal positief verband tussen lengte en oppervlakte. De correlatie is 1.
Wat is de breedte van een rechthoek met een constante oppervlakte? In het onderstaande applet kan je de lengte veranderen en de bijhorende breedte aflezen. De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect. Er is een maximaal negatief verband tussen lengte en oppervlakte. De correlatie is -1.
correlatiecoëficiënt De correlatiecoëficiënt duidt de hoogte van de correlatie aan. We definiëren:
hierin is: x = het gemiddelde van de x-waarden y = het gemiddelde van de y-waarden N = aantal getallenparen sx = standaardafwijking van x sy = standaardafwijking van y
Deze correlatiecoëficiënt ligt steeds tussen -1 en +1. Hoe smaller de puntenwolk, hoe sterker de correlatie. Ter illustratie hernemen we enkele spreidingsdiagrammen met de bijhorende correlatiecoëficiënt:
berekenen van correlatiecoëficiënt In Excel is de correlatiecoëficiënt ingebouwd als functie. Let op de manier van selecteren van de gegevens: scheidt de twee reeksen door een kommapunt:
regressie In een rechthoek met constante breedte is de oppervlakte evenredig met de lengte. In het spreidingsdiagram liggen de punten lengte-oppervlakte op een rechte. Voor de punten Frans-Engels kunnen we ook een best-passende rechte tekenen: Deze rechte noemen we de regressielijn. De vergelijking van deze rechte geeft het verband weer tussen de punten Frans en Engels
Een andere schrijfwijze voor de vergelijking van de regressielijn is:
hierin is: r = de correlatiecoëficiënt tussen x en y x = het gemiddelde van de x-waarden y = het gemiddelde van de y-waarden sx = standaardafwijking van x sy = standaardafwijking van y
Correlatie en regressie in Geogebra: Sorry, the GeoGebra Applet could not be started. Please make sure that Java 1.4.2 (or later) is installed and active in your browser (Click here to install Java now)
Regressiekromme Soms is het verband tussen variabelen duidelijk niet lineair, maar van een hogere orde, of exponentieel, of sinusoïdaal... Ook deze verbanden kunnen onderzocht en getekend worden: - typ in het rekenblad de x- en y- waarden - selecteer alle waarden en kies met rechtermuisknop voor 'Maak een lijst van punten' (deze lijst wordt opgeslagen als lijst1) - typ in het invoerveld het commando Veeltermregressie[lijst1, n] hiermee zoek je de regressiekromme als een veelterm van de n-de graad. De graad n is instelbaar met een schuifknop Sorry, the GeoGebra Applet could not be started. Please make sure that Java 1.4.2 (or later) is installed and active in your browser (Click here to install Java now)
correlatie en regressie op GRM Correlatie en regressie kunnen we eenvoudig berekenen met een grafisch rekenapparaat. We onderzoeken het verband tussen lengte en gewicht:
Het verband tussen variabelen is niet altijd lineair. Via het Stat-menu kan je ook andere verbanden onderzoeken: kwadratrisch, van de derde of vierde graad, logaritmisch of exponentieel.
nauwkeurigheid van voorspelling Wanneer we de waarde van ?n variabele kennen, geeft de regressielijn de best mogelijke schatting voor een tweede variabele. Maar niet alle punten van het spreidingsdiagram liggen exact op de rechte (enkel als r=1 of r= -1). Het verschik tussen de score en de voorspelling noemen we de schattingsfout. Voor deze fout kunnen we de standaardafwijking berekenen. We kunnen hieruit de waarschijnlijkheid van een bepaalde afwijking afleiden.
of nog:
hierin is: r = de correlatiecoëficiënt tussen x en y y' = schatting van y N = het aantal getallenparen sy = standaardafwijking van y
kruistabellen
Het lijkt een perfecte symmetrie. Maar zijn die 6 en die 10 leerlingen uit de eerste tabel wel dezelfde als de 6 en de 10 uit de tweede tabel? We kunnen de twee variabelen in ?n tabel onderbrengen. Zulk een tabel noemen we een kruistabel:
job
Hoe zou de tabel eruit zien als er geen verband is tussen een job en actief sporten?
16
Voor de afwijking tussen beide tabellen bestaat ook een maat. Hiervoor berekenen we het kwadraat van de afwijking en maken hiervan de som:
Deze waarde noemen we Ҳ? (chi-kwadraat).
Hoe groter Ҳ² , hoe kleiner de kans dat het verband tussen variabelen toeval is. Net als de standaardnormale verdeling is de kansverdeling van het chi-kwadraat bekend. De kans dat een gegeven waarde van chi-kwadraat door het toeval wordt bepaald is op te zoeken in een tabel of te berekenen met een spreadsheet of statistisch programma. In Excel kun je gebruik maken van de functie CHIDIST om de kans uit te rekenen dat een gevonden waarde van Ҳ? door het toeval wordt bepaald (= de overschrijdingskans).
Omdat Ҳ² afhankelijk is van de steekproefgrootte, maar ook van het aantal rijen en kolommen van de tabel, zijn er ook andere maten ontwikkeld die dit nadeel niet hebben. De contingentieco?fici?t wordt gedefinieerd als volgt:
naar startpagina naar sitemap
spreidingstabellen correlatie correlatiecoëficiënt berekenen corr.coëficiënt regressie in geogebra met GRM nauwkeurigheid kruistabellen