Variance

Covariance

Standard deviation

Correlation



Mean(average) is the "center weight" of the data

Population mean: $\mu = {\sum_{i=1}^{n} x_{i} \over n}$

Sample mean: $\bar{x} = {\sum_{i=1}^{n} x_{i} \over n}$

The sum of deviations of data values from the mean is zero: $\sum _{ i=1 }^{ n }{ ({ x }_{ i }-mean) = 0 } $


Variance: measure of variability (spread around) the mean

(not standardized - scale dependent)

Population variance: $\sigma^2={\sum_{i=1}^{n} (x_{i}-\mu)^2 \over n}$

Sample variance: $S^2={\sum_{i=1}^{n} (x_{i}-\bar{x})^2 \over n-1}$


Standard deviation: measure of variability (spread around) the mean

(standardized - not scale dependend - adimensional)

Standard deviation for population: $\sigma = \sqrt{\sum_{i=1}^{n}{(x_i - \mu)}^2 \over n}$

Standard deviation for a sample: $S = \sqrt{\sum_{i=1}^{n}{(x_i - \bar{x})}^2 \over n - 1}$


Covariance: measure of relationship between the variances(variability) of two variables

(not standardized - scale dependent)

Population covariance: $cov(x,y)=\frac { \sum _{ i=1 }^{ n }{ ({ x }_{ i }-{ \mu }_{ x } )({ y }_{ i }-{ \mu }_{ y } ) } }{ n } $

Sample covariance: $cov(x,y)=\frac { \sum _{ i=1 }^{ n }{ ({ x }_{ i }-\overline { x } )({ y }_{ i }-\overline { y } ) } }{ n-1 } $


Correlation(Pearson coefficient): measure of relationship between the variances(variability) of two variables

(standardized - not scale dependend - adimensional)

Population: $ { r }_{ pop }=cor(x,y)=\frac { cov(x,y) }{ { \sigma }_{ x }{ \sigma }_{ y } } =\frac { \frac { 1 }{ n } \sum _{ i=1 }^{ n }{ ({ x }_{ i }-{ \mu }_{ x })({ y }_{ i }-{ \mu }_{ y }) } }{ \sqrt { \frac { 1 }{ n } \sum _{ i=1 }^{ n }{ { ({ x }_{ i }-{ \mu }_{ x }) }^{ 2 } } } \sqrt { \frac { 1 }{ n } \sum _{ i=1 }^{ n }{ { ({ y }_{ i }-{ \mu }_{ y }) }^{ 2 } } } } $

$ { r }_{ pop }=\frac { \sum { ({ x }-{ \mu }_{ x })({ y }-{ \mu }_{ y }) } }{ \sqrt { \sum { { ({ x }-{ \mu }_{ x }) }^{ 2 } } } \sqrt { \sum { { ({ y }-{ \mu }_{ y }) }^{ 2 } } } } =\frac { n\sum { xy-\sum { x\sum { y } } } }{ \sqrt { n\sum { { x }^{ 2 }-({ \sum { x) } }^{ 2 } } } \sqrt { n\sum { { y }^{ 2 }-({ \sum { y) } }^{ 2 } } } } $

Sample: $ { r }_{ sample }=cor(x,y)=\frac { cov(x,y) }{ { \sigma }_{ x }{ \sigma }_{ y } } =\frac { \frac { 1 }{ n-1 } \sum _{ i=1 }^{ n }{ ({ x }_{ i }-\overline { x } )({ y }_{ i }-\overline { y } ) } }{ \sqrt { \frac { 1 }{ n-1 } \sum _{ i=1 }^{ n }{ { ({ x }_{ i }-\overline { x } ) }^{ 2 } } } \sqrt { \frac { 1 }{ n-1 } \sum _{ i=1 }^{ n }{ { ({ y }_{ i }-\overline { y } ) }^{ 2 } } } } $

$ { r }_{ sample }=\frac { \sum { ({ x }-\overline { x } )({ y }-\overline { y } ) } }{ \sqrt { \sum { { ({ x }-{ \overline { x } }) }^{ 2 } } } \sqrt { \sum { { ({ y }-{ \overline { y } }) }^{ 2 } } } } =\frac { n\sum { xy-\sum { x\sum { y } } } }{ \sqrt { n\sum { { x }^{ 2 }-({ \sum { x) } }^{ 2 } } } \sqrt { n\sum { { y }^{ 2 }-({ \sum { y) } }^{ 2 } } } } $

see proof1-below


Slope of regression line

$ m=r\frac { { \sigma }_{ y } }{ { \sigma }_{ x } } =\frac { \frac { \sum { xy } }{ n } -{ \mu }_{ x }{ \mu }_{ y } }{ \frac { \sum { { x }^{ 2 } } }{ n } -{ { (\mu }_{ x }) }^{ 2 } } =\frac { { \mu }_{ xy }-{ \mu }_{ x }{ \mu }_{ y } }{ { \mu }_{ { x }^{ 2 } }-{ { (\mu }_{ x }) }^{ 2 } } $

$ m=r\frac { { S }_{ y } }{ { S }_{ x } } =\frac { \frac { \sum { xy } }{ n } -\overline { x } \cdot \overline { y } }{ \frac { \sum { { x }^{ 2 } } }{ n } -{ (\overline { x } ) }^{ 2 } } =\frac { \overline { xy } -\overline { x } \cdot \overline { y } }{ \overline { { x }^{ 2 } } -{ (\overline { x } ) }^{ 2 } } $

see proof2-below



Proof1

$ { r }_{ sample }=cor(x,y)=\frac { cov(x,y) }{ { \sigma }_{ x }{ \sigma }_{ y } } =\frac { \frac { 1 }{ n-1 } \sum _{ i=1 }^{ n }{ ({ x }_{ i }-\overline { x } )({ y }_{ i }-\overline { y } ) } }{ \sqrt { \frac { 1 }{ n-1 } \sum _{ i=1 }^{ n }{ { ({ x }_{ i }-\overline { x } ) }^{ 2 } } } \sqrt { \frac { 1 }{ n-1 } \sum _{ i=1 }^{ n }{ { ({ y }_{ i }-\overline { y } ) }^{ 2 } } } } =\frac { \sum { ({ x }-\overline { x } )({ y }-\overline { y } ) } }{ \sqrt { \sum { { ({ x }_{ i }-\overline { x } ) }^{ 2 } } } \sqrt { \sum { { ({ y }_{ i }-\overline { y } ) }^{ 2 } } } } $

Having these relations:

$ \overline { x } =\frac { \sum { x } }{ n } \Rightarrow \sum { x } =n\overline { x } \\ \overline { y } =\frac { \sum { y } }{ n } \Rightarrow \sum { y } =n\overline { y } \\ \sum { (x-\overline { x } )=0 } \\ \sum { (y-\overline { y } )=0 } $

Will follow:

Nominator:

$\sum { (x-\overline { x } )(y-\overline { y } ) } =\sum { \left\{ y(x-\overline { x } )-\overline { y } (x-\overline { x } ) \right\} } =\\ =\sum { xy } -\sum { \overline { x } } y-\sum { \overline { y } (x-\overline { x } ) } =\\ =\sum { xy } -\overline { x } \sum { y } -\overline { y } \sum { (x-\overline { x } ) } =\\ =\sum { xy } -\overline { x } ny - \overline { y } \cdot 0=\\ =\sum { xy } -n\overline { x } \overline { y } $

Denominator:

$\sum { { (x-\overline { x } ) }^{ 2 } } =\sum { (x-\overline { x } )(x-\overline { x } )= } \\ =\sum { x } (x-\overline { x } )\quad -\quad \overline { x } \sum { (x-\overline { x } ) } =\\ =\sum { { x }^{ 2 } } -\overline { x } \sum { x } -\quad \overline { x } \cdot 0=\\ =\sum { { x }^{ 2 } } -\quad \overline { x } n\overline { x } =\sum { { x }^{ 2 } } -n{ \overline { x } }^{ 2 }$

Similarly:

$\sum { { (y-\overline { y } ) }^{ 2 } } =\sum { { y }^{ 2 } } -n{ \overline { y } }^{ 2 }$

So:

$r=\frac { \sum { xy } -n\overline { x } \overline { y } }{ \sqrt { \sum { { x }^{ 2 } } -n{ \overline { x } }^{ 2 } } \sqrt { \sum { { y }^{ 2 } } -n{ \overline { y } }^{ 2 } } } =\frac { \sum { xy } -n\frac { \sum { x } }{ n } \frac { \sum { y } }{ n } }{ \sqrt { \sum { { x }^{ 2 } } -n\frac { { (\sum { x) } }^{ 2 } }{ { n }^{ 2 } } } \sqrt { \sum { { y }^{ 2 } } -n\frac { { (\sum { y) } }^{ 2 } }{ { n }^{ 2 } } } } =$

$=\frac { \sum { xy } -\frac { 1 }{ n } \sum { x } \sum { y } }{ \sqrt { \sum { { x }^{ 2 } } -\frac { { (\sum { x) } }^{ 2 } }{ { n } } } \sqrt { \sum { { y }^{ 2 } } -\frac { { (\sum { y) } }^{ 2 } }{ { n } } } } =$ (multiplying with n at nominator and denominator)

$ =\frac { n\sum { xy-\sum { x\sum { y } } } }{ \sqrt { n\sum { { x }^{ 2 }-({ \sum { x) } }^{ 2 } } } \sqrt { n\sum { { y }^{ 2 }-({ \sum { y) } }^{ 2 } } } } $

Proof 2

$ m=r\frac { { S }_{ y } }{ { S }_{ x } } =\frac { \sum { ({ x }-\overline { x } )({ y }-\overline { y } ) } }{ \sqrt { \sum { { ({ x }-{ \overline { x } }) }^{ 2 } } } \sqrt { \sum { { ({ y }-{ \overline { y } }) }^{ 2 } } } } \cdot \frac { \sqrt { \sum { { ({ y }-{ \overline { y } }) }^{ 2 } } } }{ \sqrt { \sum { { ({ x }-{ \overline { x } }) }^{ 2 } } } } =\\ =\frac { \sum { ({ x }-\overline { x } )({ y }-\overline { y } ) } }{ \sum { { ({ x }-{ \overline { x } }) }^{ 2 } } } =\frac { \sum { xy } -n\overline { x } \overline { y } }{ \sum { { x }^{ 2 }-n{ \overline { x } }^{ 2 } } } =\frac { \frac { \sum { xy } }{ n } -\overline { x } \overline { y } }{ \frac { \sum { { x }^{ 2 } } }{ n } -{ \overline { x } }^{ 2 } } =\frac { \overline { xy } -\overline { x } \overline { y } }{ \overline { { x }^{ 2 } } -{ \overline { x } }^{ 2 } } $