线性回归的QA
# 回归问题与相关概念总结
总结性 Q&A
# Q1: 一元线性回归、多项式回归、多元线性回归的损失函数都是凹函数吗?(都可通过最小二乘法得到吗?)
- A:
是的,它们的损失函数(均为最小二乘法下的平方损失)是凸函数,因此可以通过解析解或优化方法找到全局最优解。因为这些回归问题的损失函数形式是关于权重 (w) 的二次函数,而二次函数的凸性保证了其解的唯一性。
# Q2: 多项式回归不是可以将高次项变成变量从而转换成多元回归吗?
- A:
是的,多项式回归通过特征升维,将输入变量 (x) 的高次项(如 (x^2, x^3))视为新的特征。这种方式可以将非线性多项式问题转化为等价的多元线性回归。
# Q3: 特征升维解释下。
- A:
特征升维是通过对原始特征进行变换(如添加高次项、交叉项或其他非线性变换)来扩展特征空间的维度。这种方法常用于增强模型表达能力,例如在多项式回归中将 (x^2, x^3) 等高次项添加为新特征。
# Q4: 多元线性回归多元不是一个曲面或者超平面吗?为啥是线性的?线性不应该是一条直线吗?
- A:
多元线性回归的“线性”指的是模型对参数(权重)的线性关系。几何上,一元线性回归是一条直线,多元线性回归是一个超平面,但这些都属于“线性”的范围。几何图形的形式取决于特征维度,超平面是高维空间中的“直线”。
# Q5: 举例子解释下线性与非线性。
- A:
- 线性:输入变化对输出的影响是固定比例。例如 (y = 2x + 1) 是线性的。
- 非线性:输入变化对输出的影响不是固定比例。例如 (y = x^2) 或 (y = \sin(x)) 是非线性的。
# Q6: 意思是权重系数在自变量单位变化时对因变量的影响是恒定的?
- A:
是的,线性回归的一个特性是权重系数表示自变量单位变化对因变量的固定影响,即权重 (w_i) 表示 (x_i) 增加 1 单位时 (y) 的变化量。
# Q7: 那么多项式回归也是线性的……因为多项式回归的权重系数是常量?
- A:
是的,多项式回归是线性回归的一种,因为模型对权重 (w) 是线性的。尽管特征是非线性的(如 (x^2), (x^3)),但回归对权重的关系仍然是线性的。
# Q8: 线性回归问题(一元、多元、多项式)针对权重系数的最优解都可通过最小二乘法得到一个恒定的公式?维度高了为什么最小二乘法不适合?
A:
是的,所有线性回归(包括多项式回归)最优解都可以通过最小二乘法的解析公式得到:
[ \mathbf{w} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} ]
当维度高时,(\mathbf{X}^T\mathbf{X}) 的计算和矩阵求逆变得耗时,尤其是特征维度极高时,最小二乘法的计算复杂度会显著增加,适合改用梯度下降等优化方法。 1. 为什么多项式回归是非线性问题?
• 因为 y 和 x 的关系是非线性的(如抛物线或高次曲线)。从几何上看,它拟合的不是直线,而是曲线。
2. 为什么说多项式回归本质是线性模型?
• 因为多项式回归对参数 w 是线性的,可以通过线性回归的解析解求解,并且可以用特征升维将问题转化为线性模型。
# Q9: 非线性回归模型除了权重系数为指数还有什么?
- A:
非线性回归模型还可以包括对数函数(如 (y = w_1 \ln(x)))、幂函数(如 (y = w_1x^{w_2}))、三角函数(如 (y = w_1\sin(x)))等。
# Q10: 非线性回归模型只能通过梯度下降求最小损失?
- A:
不完全是,但大多数非线性回归模型无法直接使用解析方法求解,通常使用数值优化方法,如梯度下降。对于简单的非线性模型,可能存在特殊的解析解。
# Q11: 可以用最小二乘法吗?
- A:
如果非线性回归的损失函数是可微分的,并且具有凸性,可以使用最小二乘法,但通常非线性模型的损失函数较复杂,难以直接应用最小二乘法。
# Q12: 所以说回归里的线性跟几何图像里的线性是不一样的?
- A:
是的。回归线性 ≠ 几何线性。回归中的“线性”指模型对参数的线性关系,而几何上的线性通常指一条直线或超平面。几何上非直线的多项式回归仍是线性回归模型。
# Q13: 线性变换和非线性变换什么意思呢?
- A:
- 线性变换:对特征进行线性组合或加偏移,例如 (\mathbf{x}' = \mathbf{A}\mathbf{x} + \mathbf{b})。
- 非线性变换:对特征施加非线性函数,例如平方、对数或三角函数。
# Q14: 意思是回归里的线性关系通过线性变换后依旧是线性的?
- A:
是的,回归模型通过线性变换后依然是线性的,因为线性变换不会破坏模型对权重参数的线性性质。
# Q15: 线性变换是针对特征/因变量还是针对权重系数?
- A:
线性变换是针对特征(自变量)进行的,而不是针对权重系数。