Convex Optimization 这本书非常有意思,它是线性代数,几何学,集合论,数学分析的综合。
第二章
这部分是在用数学分析和集合论的语言定义一些N维空间的几何体
2.1.1 定义线和线段
2.1.2 定义仿射集合
仿射集合有如下性质:
连接仿射集合中的任意两点成一条直线,那么直线上任意一点也在该仿射集合内
对应的几何体是:点,直线,超平面(hyperplane),有offset的线性子空间(subspace)
最后得出的结论很有意思:
Every affine set can be expressed as the solution set of a system of linear equation
即
If a set S is affine, then it can be expressed as {x∣Ax=b}.
2.1.3 仿射体的维度
其实就是线性子空间的维度。
2.1.4-2.2.4 凸体
介绍了凸体(Convex Set),椎体(Cone),超平面(hyperplane),半空间(halfspace),球体(ball),椭圆体(ellipsoids),多面体(polyhedra) 等等。
凸体的数学定义为:
If x1,x2∈S, let x3=θx1+(1−θ)x2, for any θ∈[0,1]⇒x3∈S, then S is convex. Any line segments constructed from any two points in the set are within the set, then the set is convex.
介绍多面体的时候提到了Simplex,对应的是一维的线段,二维的三角形,三维的四面体等等。它其实是由k个affinely independent的点组成的凸包,亦即,从这k个点中任取三个点组成一个超平面,那么其他所有点不能在这个超平面内。
2.3 凸运算 Convex Operation
主要有:交集运算,仿射(translation, scaling and projection),linear-factional.
If S1,S2 are convex sets, then S3=S1∩S2 is convex.
If S is convex set, then {y∣y=Ax+b,x∈S} is convex
If S is convex set, then {y∣y=Ax+b/(c′x+d),c′x+d>0,x∈S} is convex.
理解起来很简单。f(x)=Ax+b 相当于线性变换。对A做奇异值分解,得到f(x)=UΣVx+b, 其中 U,V 为旋转操作, Σ为缩放操作,+b为平移操作。几何体经过旋转,缩放,旋转再平移之后,它的convexity不变。
再看 f(x)=(Ax+b)/(c′x+d),需理解x/(c′x+d) 这个操作。c′x+d=0 代表一个超平面,f(x)=c′x+d 得到的绝对值代表离超平面的远近,正负号代表在超平面哪一侧 。那么 f(x)=x/(c′x+d),c′x+d>0 这个操作的意思是,离平面越远的点我会让它离原点越近,离平面越近的点我会让它离原点越远。这里保证了定义域在平面的正侧。
证明的方法很简单,根据定义即可。简单证明下linear-factional function reserves convexity.
Let x1,x2∈S, then x3=θx1+(1−θ)x2∈S for any θ∈[0,1].
After transformation f(x)=(Ax+b)/(c′x+d), x4=f(x1),x5=f(x2), we want to show that x6=f(x3)=ux4+(1−u)x5 and u∈[0,1].
Expanding above equations:
x6x6=f(x3)=f(θx1+(1−θ)x2)=c′(θx1+(1−θ)x2)+dA(θx1+(1−θ)x2)+b=θ(c′x1+d)+(1−θ)(c′x2+d)θ(Ax1+b)+(1−θ)(Ax2+b)=ux4+(1−u)x5=cx1+du(Ax1+b)+cx2+d(1−u)(Ax2+b) By comparison, we get
u=θ(c′x1+d)+(1−θ)(c′x2+d)θ(c′x1+d) And indeed we can show u∈[0,1] since c′x1+d>0,c′x2+d>0 and θ∈[0,1]
2.5 超平面分割定理
If C,D are convex sets, and C∩D=∅, then there exists a hyperplane a′x=b such that a′x≥b for any x∈C and a′x≤b for any x∈D.
证明书上有。 由此引出仿射体和凸体的分割:
C⊂Rn is convex and D={Fu+g∣u∈Rm,F∈Rn×m} is affine. If C∩D={∅}, then there exists a=0 such that F′a=0 and a′x≤a′g for all x∈C.
证明见 Example 2.19. 文中用了一个直观的事实:
If c′x≥d,where c′,d are constant vector and constant scalar,then c′=0,d≤0.
由此再引出以下:
Below two statements are equivalent:
- Ax=b has no feasible solutions
- If C={b−Ax∣x∈Rn} and D=R++m={y∈Rm∣y>0}, then C∩D={∅}
很直观的理解,Ax<b⟹b−Ax>0,C 代表不等式左边的空间,D代表不等式右边的空间,他们不可能有交集的,否则交集中的点可令不等式成立。上面第二条不就是前面证明的仿射体和凸体的分割么,他们无交集的话,那不就可以根据平面分割定理引出一些东西?
For C={b−Ax∣x∈Rn},D=R++m={y∈Rm∣y>0}, if C∩D=∅, then there exists λ′y≤μ for any y∈C and λ′y≥μ for any y∈D.
The first inequality shows that λ′(b−Ax)≤μ⟹λ′b−μ≤λ′Ax for all x, which implies λ′A=0,λ′b−μ≤0.
The second inequality shows λ′y≥μ for all y<0, which implies u≤0 and λ≥0 and λ=0.
From λ′b−μ≤0 and u≤0 we can show λ′b≤0.
也就是说
Below two statements must be one True and one False:
- Ax<b has feasible solutions.
- If λ=0,λ≥0 and A′λ=0, then λ′b≤0
这里是不是有对偶的感觉了?
第四、五章
优化问题的标准形式
minimize subject tof0(x)fi(x)≤0,i=1,…,mhi(x)=0,i=1,…,p 对于fi(x)≤0,hi(x)=0组成的交集,如果其不为空,则这个问题是可行的。
对于非标准形式,比如li≤x≤ui其可转为为标准形式 li−x≤0,x−ui≤0 用拉格朗日乘数,解法很简单,设:
L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+i=1∑nνihi(x) 标准形式的对偶函数即为:
g(λ,ν)=x∈DinfL(x,λ,ν) 这里,对于λi≥0, 标准形式的解p∗≥g(λ,ν),这个很容易证明。 求解的话,对L(x)求梯度,令其等于零,求得x代入L(x)即可求得g(λ,ν),这里利用了L(x)是concave的性质。 那么对于LP的标准形式
minimize subject toc′xx≥0Ax=b 易得
L(x,λ,ν)=−b′ν+(c+A′ν−λ)′x g(λ,ν)=xinfL(x,λ,ν)=−b′ν+xinf(c+A′ν−λ)′x 那么
g(λ,ν)={−b′ν,−∞,A′ν−λ+c=0otherwise 因为p∗≥g(λ,ν),LP的标准形式对偶形式为:
maximizesubject to−b′νA′ν+c≥0 我们称其解为d∗. 若 d∗≤q∗*,我们称其为弱对偶。*若 *d∗=q∗,*我们称其为强对偶。
对于形如
minimize subject tof0(x)fi(x)≤0,i=1,…,mA(x)=b, 的问题,如果fi(x) 是convex 的,那么强对偶一般都成立。
对于形如
minimize subject toc′xAx≥b 的LP,其对偶形式为:
maximizesubject tob′λA′λ=cλ≥0 我们来其分析其对偶性。S={x∣Ax≥b,x∈Rm}这里无非有这么几种情况:
- S=∅,即问题无可行域。如果不用几何性质,证明就简单多了。
S=∅,{A′λ=c}=∅⟹!∃x:Ax≥b!∃:x′A′λ≥b′λ⟹∀x:b′λ>x′A′λ⟹b′λ>0 因为{y∣y=Ax}对应的是线性子空间,{y∣y=Ax−b}是对线性子空间朝−b方向平移,那么S={y∣y=Ax−b}∩{y∣y≥0}=∅意味着平移之后与R+n无交集,rank(A)<m。所以到底是如何平移的呢?想象把x+y+z=0平移到x+y+z=−1,平移方向有垂直于子空间的分量,且存在子空间的某个法向量,使得这部分分量与这个法向量的方向相反,即存在A′的某一列Aj(A的某一行),使得(−b)′Aj<0, 或者b′Aj>0。如果对偶形式有可行域,则意味着λ在A′的零空间内,且方向为正,而显然b在A′的零空间内有正向的分量,这就使得b′λ>0,所以maxλb′λ=∞。因此,在LP无可行域的情况下,其对偶形式要么无可行域,要么是无界的。
- 存在x∈S 使得 ∥x∥→∞,即S是无界的。此时,如果原LP无最优解,那么c′不可用A的列向量正线性组合来表示,这意味着对偶形式无可行域。如果原LP是有界的,那么肯定有最优解,其对偶形式有可行域,且有解。
- S是有界的。这种情况下原LP肯定有解,且对偶形式也有解。
如果理解了正交补,证明以上就变得很简单。维基百科的正交补定义: 对于V的子空间W,W的正交补为W⊥定义为:
W⊥={x∈V∣∀y∈W,x′y=0} 对于m×n的矩阵A来说,记R(A),C(A),N(A)为其行,列,零空间,则
R(A)⊥=N(A)C(A)⊥=N(A′) 对应LP的及其对偶问题,
A′λ=c,A′(λ−c0)=0⟹c∈R(A),λ−c0∈N(A′)Ax=b,A(x−b0)=0⟹b∈C(A),x−x0∈N(A) 读者可以用以上性质自证S=∅的情况。
Convex Optimisation 下载地址
bv_cvxbook.pdf