
一元线性回归是一种统计方法,用于描述两个变量之间的线性关系。其中一个变量是自变量(通常表示为 $x$),另一个是因变量(通常表示为 $y$)。通过这种方法,我们可以建立一个数学模型来预测因变量的值,基于给定的自变量的值。
一元线性回归的基本公式
在一元线性回归中,我们假设因变量 $y$ 和自变量 $x$ 之间的关系可以表示为一个直线方程:
$$ y = \beta_0 + \beta_1 x + \epsilon $$
其中:
- $\beta_0$ 是截距(intercept),即当 $x=0$ 时 $y$ 的期望值。
- $\beta_1$ 是斜率(slope),它描述了 $y$ 随 $x$ 变化的速度或方向。
- $\epsilon$ 是误差项,代表模型中未能解释的部分变异。
参数估计
为了找到 $\beta_0$ 和 $\beta_1$ 的最佳估计值,我们通常使用最小二乘法(Least Squares Method)。这种方法的目标是使所有观测值与拟合线之间的垂直距离的平方和最小化。
$\beta_0$ 和 $\beta_1$ 的计算公式如下:
$$ \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$
$$ \beta_0 = \bar{y} - \beta_1 \bar{x} $$
其中:
- $n$ 是数据点的数量。
- $x_i$ 和 $y_i$ 是第 $i$ 个观测值的自变量和因变量。
- $\bar{x}$ 和 $\bar{y}$ 分别是 $x$ 和 $y$ 的均值。
预测
一旦我们有了 $\beta_0$ 和 $\beta_1$ 的估计值,我们就可以使用这个模型来进行预测。给定一个新的 $x$ 值,我们可以通过以下公式计算预测的 $y$ 值:
$$ \hat{y} = \beta_0 + \beta_1 x $$
示例
假设我们有以下数据集:
1 2 2 3 4 6 3 5 5 7首先,我们计算 $x$ 和 $y$ 的均值:
$$ \bar{x} = \frac{1+2+4+3+5}{5} = 3 $$ $$ \bar{y} = \frac{2+3+6+5+7}{5} = 4.6 $$
然后,我们使用上述公式来计算 $\beta_1$ 和 $\beta_0$:
$$ \beta_1 = \frac{(1-3)(2-4.6) + (2-3)(3-4.6) + (4-3)(6-4.6) + (3-3)(5-4.6) + (5-3)(7-4.6)}{(1-3)^2 + (2-3)^2 + (4-3)^2 + (3-3)^2 + (5-3)^2} $$ $$ = \frac{(-2)(-2.6) + (-1)(-1.6) + (1)(1.4) + (0)(0.4) + (2)(2.4)}{(-2)^2 + (-1)^2 + (1)^2 + (0)^2 + (2)^2} $$ $$ = \frac{5.2 + 1.6 + 1.4 + 0 + 4.8}{4 + 1 + 1 + 0 + 4} $$ $$ = \frac{13}{10} $$ $$ = 1.3 $$
$$ \beta_0 = 4.6 - 1.3 \times 3 $$ $$ = 4.6 - 3.9 $$ $$ = 0.7 $$
因此,我们的回归线是:
$$ \hat{y} = 0.7 + 1.3x $$
这就是一元线性回归的基本概念和计算方法。希望这能帮助你理解并应用这一重要的统计工具!
