38 KiB
\renewcommand{\overgroup}[1]{\overparen{#1}}
10.1 基本定义
-
定义 10.1.1(在一点处的可微性):设 $X\subseteq \mathbb R$,
x_0\in X
且是X
的聚点(非孤立点),f:X\to\mathbb R
是函数。称
f
在x_0
处可微且具有导数 $L$,记作 $f'(x_0):=L$,当且仅当\lim\limits_{x\to x_0}\dfrac{f(x)-f(x_0)}{x-x_0}
收敛到 $L$。若极限不存在,或 $x_0\not\in X$,或
x_0
不是X
的聚点,则称f
在x_0
处不可微。 -
命题 10.1.2(牛顿逼近):设 $X\subseteq \mathbb R$,
x_0\in X
且是X
的聚点,f:X\to \mathbb R
是函数,L
是实数。那么
f
在x_0
处可微且导数为 $L$,当且仅当,对于任意 $\varepsilon>0$,都存在 $\delta>0$,使得对于任意x\in X
且 $|x-x_0|\leq\delta$,都有 $|f(x)-(f(x_0)+L(x-x_0))|\leq\varepsilon|x-x_0|$。证明:根据定义可得。
-
命题 10.1.3(可微性蕴含连续性):设 $X\subseteq \mathbb R$,
x_0\in X
且是X
的聚点,f:X\to\mathbb R
是函数。若f
在x_0
处可微,则f
在x_0
处连续。证明:设
f
在x_0
处导数为 $L$。设
\varepsilon>0
是任意正实数。任取 $\varepsilon'>0$,根据命题 10.1.2,存在 $0<\delta\leq \frac \varepsilon {\varepsilon'+|L|}$,使得对于任意x\in X
且 $|x-x_0|\leq \delta$,都有 $|f(x)-(f(x_0)+L(x-x_0))|\leq\varepsilon'|x-x_0|$,得到 $|f(x)-f(x_0)|\leq(\varepsilon'+|L|)|x-x_0|\leq (\varepsilon'+|L|)\delta\leq \varepsilon$。证毕。
连续不一定可微。例如绝对值函数 f(x):=|x|
在 0
处连续但不可微。另一个反例是,构造 f:[0,+\infty)\to \mathbb R
满足 $f(x):=\begin{cases}x&\exists_{n\text{为正偶数}},x=\frac1n\-x&\exists_{n为正奇数},x=\frac1n\0&\text{true}\end{cases}$,那么 f
同样是在 0
处连续但不可微(斜率存在 0,-1,1
三种)的。”图像有切线“ 也不一定可微,因为切线可能是垂直的,例如 f(x):=\sqrt x
在 0
处就连续但不可微。
连续(极限)和微分在某种意义上是相似的:考虑函数 f
在 x_0
处是连续的,其实等价于 $f(x)=f(x_0)+o(1),x\to x_0$;而 f
在 x_0
处有导数 $f'(x_0)$,就等价于 $f(x)=f(x_0)+f'(x_0)(x-x_0)+o(x-x_0),x\to x_0$。这说明 “极限” 实际上描述了 f
在 x_0
附近的常数近似(从而 ”连续“ 或 ”有极限“ 是在说明 f
在 x_0
附近有常数近似),而 “微分” 实际上描述了 f
在 x_0
附近的线性近似(从而 ”可微“ 是在说明 f
在 x_0
附近有线性近似),进一步地,如果存在 a_0,a_1,\cdots,a_n
使得 $f(x)=a_0+a_1(x-x_0)+a_2(x-x_0)^2+\cdots+a_n(x-x_0)^n+o((x-x_0)^n)$,我们就找到了 f
在 x_0
附近的多项式近似(注意这与所谓的 ”高阶导数“ 是完全不同的概念)。所以无论如何,极限、导数、多项式近似,都是为了用更简单的方式刻画 f
在某一点附近的函数性质。当然,作为推论,可微性蕴含连续性是极其合理的。
可微函数的导函数不一定连续:$f(x):=\begin{cases}x^2\sin \frac 1x &x\neq 0\0&x=0\end{cases}$,其导数为 $f'(x)=\begin{cases}2x\sin \frac 1x-\cos \frac 1x&x\neq 0\0& x=0\end{cases}$,那么对于任意正整数 k
有 $f'(\frac 1{2k\pi})=\frac{1}{k\pi}\sin(2k\pi)-\cos(2k\pi)=-1$,则 f'
在 0
处不连续。
-
定义 10.1.4:设 $X\subseteq \mathbb R$,
f:X\to \mathbb R
是函数。称f
是可微的,当且仅当对于任意x_0\in X
且是X
的聚点,都有f
在x_0
处可微。 -
推论 10.1.5:设 $X\subseteq \mathbb R$,
f:X\to \mathbb R
是函数。若f
是可微的,则f
是连续的。证明:联合定义 10.1.4 和 “
f
在任何孤立点x_0
处都连续” 这一事实。 -
定理 10.1.6(微分算律):设 $X\subseteq \mathbb R$,
x_0\in X
且是X
的聚点,f:X\to\mathbb R
和g:X\to \mathbb R
是函数。- 若
f
是常值函数,则f
可微且 $f'(x_0)=0$。 - 若对于任意
x\in X
有 $f(x)=x$,则f
可微且 $f'(x_0)=1$。 - 若
f,g
在x_0
处均可微,则f+g
也在x_0
处可微,且 $(f+g)'(x_0)=f'(x_0)+g'(x_0)$。 - 若
f,g
在x_0
处均可微,则f-g
也在x_0
处可微,且 $(f-g)'(x_0)=f'(x_0)-g'(x_0)$。 - 设
c
是实数。若f
在x_0
处可微,则cf
也在x_0
处可微,且 $(cf)'(x_0)=cf'(x_0)$。 - 若
f,g
在x_0
处均可微,则fg
也在x_0
处可微,且 $(fg)'(x_0)=f'(x_0)g(x_0)+f(x_0)g'(x_0)$。 - 若
g
在x_0
处可微,且 $g(x_0)\neq 0$,则\frac1g
也在x_0
处可微,且 $\left(\frac1g\right)'(x_0)=-\frac{g'(x_0)}{g^2(x_0)}$。 - 若
f,g
在x_0
处均可微,且 $g(x_0)\neq 0$,则\frac fg
也在x_0
处可微,且 $\left(\frac fg\right)'(x_0)=\frac{f'(x_0)g(x_0)-f(x_0)g'(x_0)}{g^2(x_0)}$。
证明:使用函数的极限算律即可。以 10.1.6.8 的证明为例:
\begin{aligned} \left(\frac{f}{g}\right)'(x_0)&=\lim\limits_{x\to x_0}\frac{\frac{f(x)}{g(x)}-\frac{f(x_0)}{g(x_0)}}{x-x_0}\\ &=\lim\limits_{x\to x_0}\frac{\frac{f(x)g(x_0)-f(x_0)g(x)}{x-x_0}}{g(x)g(x_0)}\\ &=\frac{\lim\limits_{x\to x_0}\frac{(f(x)g(x_0)-f(x_0)g(x_0))-(f(x_0)g(x)-f(x_0)g(x_0))}{x-x_0}}{g^2(x_0)}\\ &=\frac{\left(\lim\limits_{x\to x_0}g(x_0)\frac{f(x)-f(x_0)}{x-x_0}\right)-\left(\lim\limits_{x\to x_0}f(x_0)\frac{g(x)-g(x_0)}{x-x_0}\right)}{g^2(x_0)}\\ &=\frac{f'(x_0)g(x_0)-f(x_0)g'(x_0)}{g^2(x_0)} \end{aligned}
当然,正确的方向应该是从后往前推,这样才是正确使用极限算律的方向。
- 若
-
定理 10.1.7(链式法则):设 $X,Y\subseteq \mathbb R$,
x_0\in X
且是X
的聚点,f:X\to Y
是在x_0
处可微的函数,y_0:=f(x_0)\in Y
是Y
的聚点,g:Y\to \mathbb R
是在y_0
处可微的函数。那么函数g\circ f:X\to \mathbb R
在x_0
处可微,且 $(g\circ f)'(x_0)=g'(y_0)f'(x_0)$。证明:设
k_1:=f'(x_0)
和 $k_2:=g'(y_0)$。设\varepsilon>0
是任意正实数。存在
\varepsilon_1,\varepsilon_2>0
满足 $\varepsilon_1|k_2|+\varepsilon_2|k_1|+\varepsilon_1\varepsilon_2\leq \varepsilon$(见 5.3.4 的证明)。存在
\delta_2>0
满足,对于任意y\in Y
且 $|y-y_0|\leq\delta_2$,记 $\Delta y=|y-y_0|,\Delta z=|g(y)-g(y_0)|$,有 $|\Delta z-k_2\Delta y|\leq\varepsilon_2\Delta y$。存在
\delta_1>0
满足,对于任意x\in X
且 $|x-x_0|\leq \delta_1$,记 $\Delta x=|x-x_0|,\Delta y=|f(x)-f(x_0)|$,有 $|\Delta y-k_1\Delta x|\leq \varepsilon_1 \Delta x$。存在
\delta_3>0
满足,对于任意x\in X
且 $|x-x_0|\leq\delta_3$,有 $|f(x)-f(x_0)|\leq \delta_2$。设 $\delta:=\min(\delta_1,\delta_3)$,那么 $\delta>0$。那么对于任意
x\in X
且 $|x-x_0|\leq \delta$,记 $\Delta x=|x-x_0|,\Delta y=|f(x)-f(x_0)|,\Delta z=|g(f(x))-g(f(x_0))|$,有 $\Delta x\leq \delta_1,\Delta y\leq \delta_2$,从而|\Delta y-k_1\Delta x|\leq \varepsilon_1 \Delta x
且 $|\Delta z-k_2\Delta y|\leq\varepsilon_2\Delta y$,那么:\begin{aligned} |\Delta z-k_2\Delta y|&\leq\varepsilon_2\Delta y\\ |\Delta z-k_2k_1\Delta x|&\leq \varepsilon_2\Delta y+|k_2|\varepsilon_1\Delta x\\ &\leq \varepsilon_2(|k_1|\Delta x+\varepsilon_1\Delta x)+|k_2|\varepsilon_1 \Delta x\\ &=(\varepsilon_1|k_2|+\varepsilon_2|k_1|+\varepsilon_1\varepsilon_2)\Delta x\\ &\leq \varepsilon\Delta x \end{aligned}
10.2 局部极值和导数
-
定义 10.2.1(局部极值):设 $X\subseteq \mathbb R$,
f:X\to \mathbb R
是函数,$x_0\in X$。称
f
在x_0
处达到局部最大值,当且仅当存在\delta>0
使得f|_{X\cap (x_0-\delta,x_0+\delta)}
在x_0
处达到最大值。称
f
在x_0
处达到局部最小值,当且仅当存在\delta>0
使得f|_{X\cap (x_0-\delta,x_0+\delta)}
在x_0
处达到最小值。
显然 f
的孤立点是同时达到局部最大值和局部最小值的。
-
命题 10.2.2(局部极值是稳定的):设
a,b\in\mathbb R
且 $a<b$,f:(a,b)\to \mathbb R
是函数,$x_0\in (a,b)$。若f
在x_0
处可微,且f
在x_0
处达到局部最大值或局部最小值,那么 $f'(x_0)=0$。证明:不妨设
f
在x_0
处达到局部最大值,那么存在\delta_1>0
使得对于任意x\in (a,b)
且|x-x_0|\leq\delta_1
有 $f(x)\leq f(x_0)$。反证。若 $f'(x_0)\neq0$。不妨设 $f'(x_0)>0$,记为 $L$。
任取 $0<\varepsilon<L$,那么存在 $\delta_2>0$,使得对于任意
x\in (a,b)
且 $|x-x_0|\leq \delta_2$,都有 $\left|\frac{f(x)-f(x_0)}{x-x_0}-L\right|\leq\varepsilon$,于是一定有 $\frac{f(x)-f(x_0)}{x-x_0}>0$。存在 $x_0<x<\min(b,x_0+\delta_1,x_0+\delta_2)$,此时同时有
f(x)>f(x_0)
和 $f(x)\leq f(x_0)$,矛盾。
在命题 10.2.2 中,用闭区间 [a,b]
代替 $(a,b)$,该命题不一定成立。因为当区间的端点是局部极值时,其导数不一定为 $0$。
该命题的逆命题也不一定成立,导数为 0
并不一定是局部极值,而应当出现导数正负性变化才行,例如 f(x):=x^3
在 0
处导数为 0
但并非局部极值。
-
定理 10.2.3(罗尔定理):设
a,b\in\mathbb R
且 $a<b$,f:[a,b]\to\mathbb R
是连续函数,且f
在(a,b)
上可微。若 $f(a)=f(b)$,那么存在x\in (a,b)
使得 $f'(x)=0$。证明:根据极值定理,
f
在某点x_{\max}
处达到最大值,那么它也是局部最大值。若x_{\max}=a
或 $x_{\max}=b$,那么就找f
的最小值 $x_{\min}$,若还是有x_{\min}=a
或 $x_{\min}=b$,那么可以证明f
是常值函数,对于任意x\in [a,b]
都有 $f'(x)=0$;若 $x_{\max}\in(a,b)$,根据命题 10.2.2,$f'(x_{\max})=0$。
注意 “f:[a,b]\to\mathbb R
是连续函数,且 f
在 (a,b)
上可微” 并不蕴含 “f
在 [a,b]
上可微”,一个反例是由 f(x):=x^{\frac 12}
定义的连续函数 f:[0,+\infty)\to\mathbb R
在 (0,+\infty)
上可微,但在 0
处不可微。
-
定理 10.2.4(拉格朗日中值定理):设
a,b\in\mathbb R
且 $a<b$,f:[a,b]\to\mathbb R
是连续函数,且f
在(a,b)
上可微,那么存在x\in(a,b)
使得 $f'(x)=\frac{f(b)-f(a)}{b-a}$。证明:设
k:=\frac{f(b)-f(a)}{b-a}
和由g(x):=f(x)-kx
定义函数 $g:[a,b]\to \mathbb R$。那么g
也是连续函数,且g|_{(a,b)}
也可微,且 $g(a)=g(b)$。根据罗尔定理,存在x\in(a,b)
使得 $g'(x)=0$,那么 $f'(x)=g'(x)+k=k$。证毕。
拉格朗日中值定理有很明显的几何解释。
-
命题 10.2.5:设
f:I\to\mathbb R
是实区间I
上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足f
在任意x\in \overgroup I
处可微且 $|f'(x)|\leq M$。那么对于任意 $x,y\in I$,有 $|f(x)-f(y)|\leq M|x-y|$。证明:反证,不妨假设存在
x<y
且 $|f(y)-f(x)|>M(y-x)$。根据拉格朗日中值定理,存在z\in(x,y)
使得 $f'(z)=\frac{f(y)-f(x)}{y-x}$,那么 $|f'(z)|>M$,矛盾。 -
推论 10.2.6:设
f:I\to\mathbb R
是实区间I
上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足f
在任意x\in \overgroup I
处可微且 $|f'(x)|\leq M$。那么f
是一致连续函数。 -
引理 10.2.7:设
F:I\to\mathbb R
和G:I\to\mathbb R
都是实区间I
上的连续函数,它们在任意x\in \overgroup I
处可微且导数相同。那么存在 $C\in\mathbb R$,使得对于任意x\in I
有 $G(x)=F(x)+C$。证明:考虑函数 $H=G-F$,再结合命题 10.2.5。
事实上,罗尔定理可以推广到无限区间。
-
定理 10.2.8(广义罗尔定理):设
a,b\in \mathbb R^*
且 $a< b$,f:(a,b)\to\mathbb R
是可微函数,且 $\lim\limits_{x\to a}f(x)=\lim\limits_{x\to b}f(x)=A\in\mathbb R\cup{\pm\infty}$。那么存在x\in(a,b)
使得 $f'(x)=0$。证明:只证明
a=-\infty,b=+\infty
的情况。排除f
是常值函数的特殊情况,那么存在x_0\in\mathbb R
使得 $f(x_0)\neq A$。不妨假设 $f(x_0)<A$。显然存在x_1<x_0<x_2
使得 $f(x_1),f(x_2)>f(x_0)$。不妨假设 $f(x_0)<f(x_1)<f(x_2)$,那么存在x_3\in (x_0,x_2)
使得 $f(x_3)=f(x_1)$,再根据普通的罗尔定理,可知一定存在x\in [x_1,x_3]
使得 $f'(x)=0$。
由于拉格朗日中值定理涉及到 $b-a$,所以拉格朗日中值定理没有对应的推广版本,但是我们有一个类似的且更强的定理。
-
定理 10.2.9(柯西微分中值定理):设
a,b\in \mathbb R^*
且 $a< b$,f,g:(a,b)\to\mathbb R
是可微函数,$A_f,B_f,A_g,B_g\in\mathbb R$,且\lim_{x\to a}f(x)=A_f\quad\lim_{x\to b}f(x)=B_f\quad\lim_{x\to a}g(x)=A_g\quad\lim_{x\to b}g(x)=B_g
那么存在
x\in (a,b)
使得 $f'(x)(B_g-A_g)=g'(x)(B_f-A_f)$。证明:考虑由
h(x):=f(x)(B_g-A_g)-g(x)(B_f-A_f)
定义的函数 $h:(a,b)\to\mathbb R$,那么 $\lim\limits_{x\to a}h(x)=\lim\limits_{x\to b}h(x)=A_fB_g-A_gB_f$,再根据广义罗尔定理即可。
柯西微分中值定理的几何直观可能并不明显:将 f,g
分别看作平面上的 x,y
坐标,那么它实际上描述了一条平面上的曲线,起点在 A
终点在 $B$,而 (f'(x),g'(x))
实际上描述的是曲线在 x
这一点的切向量(速度向量),那么 f'(x)(B_g-A_g)-g'(x)(B_f-A_f)=0
就解释为 (f'(x),g'(x))
与 (B_f-A_f,B_g-A_g)
这两个向量的叉积是零,即这两个向量平行。所以微分中值定理实际上是在说这条曲线上一定有一点处的切向量和起点到终点的向量平行。这和拉格朗日中值定理是很相似的。
我们上面介绍了很多定理,它们的条件是不同但相似的,这里介绍一下它们之间的细微差别:
-
若条件是 “
f
在I
上定义且连续,在\overgroup I
上可微”,这是最强的条件,它只要求f
在\overgroup I
上可微,而且不关心f
是否在端点处有定义。 -
若条件是 “
f
在[a,b]
上定义且连续,在(a,b)
上可微”,这相比于上一个条件,要求f
在端点处有定义,一般是因为该定理的描述和f
在端点处的值有关。 -
若条件是 “
f
在(a,b)
上定义且可微(从而连续),在a,b
两点有极限”,这里的a,b
的选取范围应该是 $\mathbb R^*$,所以它相比于上一个条件更强,因为这允许a,b
是无限的情况。
导函数不一定连续,但区间上的导函数仍然满足介值性质。
-
定理 10.2.10(达布定理):设
a,b
是实数满足 $a<b$,f:[a,b]\to\mathbb R
是可微函数,k
是介于f'(a)
和f'(b)
之间的实数。那么存在c\in[a,b]
使得 $f'(c)=k$。证明:不妨设 $f'(a)<k<f'(b)$。
定义函数
g:[a,b]\to\mathbb R
满足 $g(x):=f(x)-kx$,那么 $g'(a)<0<g'(b)$,从而a,b
都不是g
的最小值。闭区间上的函数g
有最小值,设最小值点为 $c$,那么 $a<c<b$,从而g'(c)=0
即 $f'(c)=k$。 -
推论 10.2.11:设
f:I\to\mathbb R
是实区间I
上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足f
在任意x\in \overgroup I
处可微,那么f'
不存在第一类间断点。
10.3 单调函数和导数
-
命题 10.3.1:设 $X\subseteq \mathbb R$,
x_0\in X
且是X
的聚点,f:X\to\mathbb R
是单增函数。若f
在x_0
处可微,那么 $f'(x_0)\geq 0$。证明:由于
f
是单增函数,可以证明,对于任意x\in X
且 $x\neq x_0$,都有 $\frac{f(x)-f(x_0)}{x-x_0}\geq 0$,那么根据命题 9.3.2,有 $f'(x_0)=\lim\limits_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}\geq 0$。 -
命题 10.3.2:设
f:I\to\mathbb R
是实区间I
上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足f
在任意x\in \overgroup I
处可微且导数恒正,则f
是严格单调增的。证明:若存在
x,y\in I
且x<y
使得 $f(x)\geq f(y)$,那么根据拉格朗日中值定理,存在z\in (x,y)
使得 $f'(z)=\frac{f(y)-f(x)}{y-x}\leq 0$,矛盾。
注意命题 10.3.2 的逆命题并不成立,即函数严格增不能说明导数为正(如 x^3
在 0
处导数为 $0$),其本质原因是极限的非严格保序引起的(取极限的内容为正并不能说明极限为正)。
-
命题 10.3.3:设
f:I\to\mathbb R
是实区间I
上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足f
在任意x\in \overgroup I
处可微且导数恒不为 $0$,则f
是严格单调的。证明:结合达布定理和命题 10.3.2 可知。
10.4 反函数和导数
-
引理 10.4.1:设 $X,Y\subseteq \mathbb R$,
f:X\to Y
是双射,x_0\in X
且是X
的聚点,y_0=f(x_0)
且是Y
的聚点。若f
在x_0
处可微且f^{-1}
在y_0
处可微,那么 $(f^{-1})'(y_0)=\frac{1}{f'(x_0)}$。证明:根据链式法则,有 $(f^{-1}\circ f)'(x_0)=(f^{-1})'(y_0)\cdot f'(x_0)$,又
(f^{-1}\circ f)'(x_0)=1
可得。
反函数定理将上述引理加强,将 f^{-1}
在 y_0
处的要求从可微降为连续。
-
定理 10.4.2(反函数定理):设 $X,Y\subseteq \mathbb R$,
f:X\to Y
是双射,x_0\in X
且是X
的聚点,$y_0=f(x_0)$。若f
在x_0
处可微且 $f'(x_0)\neq 0$,f^{-1}
在y_0
处连续,那么f^{-1}
在y_0
处可微,且 $(f^{-1})'(y_0)=\frac{1}{f'(x_0)}$。证明:首先可以证明出
y_0
是Y
的聚点。然后设任意Y\setminus\{y_0\}
上的收敛到y_0
的序列 $(y_n)_{n=1}^{\infty}$,记 $x_n=f^{-1}(y_n)$,那么由于f^{_-1}
在y_0
处连续,可知(x_n)_{n=1}^{\infty}
收敛到 $x_0$。那么:\lim_{n\to\infty}\frac{f^{-1}(y_n)-f^{-1}(y_0)}{y_n-y_0}=\lim_{n\to\infty}\frac{x_n-x_0}{f(x_n)-f(x_0)}=\frac{1}{\lim\limits_{n\to\infty}\frac{f(x_n)-f(x_0)}{x_n-x_0}}=\frac{1}{f'(x_0)}
注意正确的顺序是从后往前推。
注意定理 10.4.2 中 “f^{-1}
在 y_0
处连续” 的条件不可省略。例如由 f(x):=\begin{cases}x+1&-1\leq x<0\\x-1&0\leq x<1\end{cases}
定义的函数 f:[-1,1)\to[-1,1)
并取 x_0=-1
就是一个反例。
10.5 洛必达法则
-
命题 10.5.1(洛必达法则 1):设
X\subseteqq \mathbb R
和X
的聚点 $x_0$,函数f:X\to\mathbb R
和 $g:X\to\mathbb R$,满足 $f(x_0)=g(x_0)=0$,f
和g
都在x_0
处可微且 $g'(x_0)\neq 0$。那么:\lim_{x\to x_0}\frac{f(x)}{g(x)}=\frac{f'(x_0)}{g'(x_0)}
证明:正确的顺序是从后往前推:
\begin{aligned}\lim_{x\to x_0}\frac{f(x)}{g(x)}&=\lim_{x\to x_0}\frac{\frac{f(x)-f(x_0)}{x-x_0}}{\frac{g(x)-g(x_0)}{x-x_0}}\\&=\frac{\lim\limits_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}}{\lim\limits_{x\to x_0}\frac{g(x)-g(x_0)}{x-x_0}}\\&=\frac{f'(x_0)}{g'(x_0)}\end{aligned}
-
命题 10.5.2(洛必达法则 2):设实数
a,b
满足 $a<b$,f:[a,b]\to\mathbb R
和g:[a,b]\to\mathbb R
都是在[a,b]
上连续且在(a,b)
上可微的函数,满足 $f(a)=g(a)=0$,且对于任意x\in(a,b)
有 $g'(x)\neq 0$,且满足:\lim_{x\to a}\frac{f'(x)}{g'(x)}=L
那么对于任意
x\in (a,b]
有 $g(x)\neq 0$,且:\lim_{x\to a}\frac{f(x)}{g(x)}=L
证明:若存在
x\in (a,b]
使得 $g(x)=0$,根据拉格朗日中值定理,存在y\in(0,x)
使得 $g'(y)=0$,矛盾。设任意
(a,b]
上的收敛到a
的序列 $(x_n)_{n=0}^{\infty}$。设
n\geq 0
和由h_n(x):=f(x)g(x_n)-g(x)f(x_n)
定义的函数 $h_n:[a,x_n]\to\mathbb R$。那么h_n
在(a,x_n)
上可微,且对于任意x\in(a,x_n)
有 $h_n'(x)=f'(x)g(x_n)-g'(x)f(x_n)$,同时我们知道 $h_n(a)=h_n(x_n)=0$,于是根据拉格朗日中值定理,存在y_n\in(a,x_n)
使得 $h_n'(y_n)=0$,即 $\frac{f(x_n)}{g(x_n)}=\frac{f'(y_n)}{g'(y_n)}$。根据选择公理,存在一组
(y_n)_{n=0}^{\infty}
满足条件。注意到(y_n)_{n=0}^{\infty}
应收敛到 $a$,那么\left(\frac{f'(y_n)}{g'(y_n)}\right)_{n=0}^{\infty}
收敛到 $L$,即\left(\frac{f(x_n)}{g(x_n)}\right)_{n=0}^{\infty}
收敛到 $L$。
10.6 高阶导数
-
定义 10.6.1(高阶导数):设 $X\subseteq \mathbb R$,
f:X\to\mathbb R
是函数。那么称f
是0
阶可微的,且有0
阶导函数 $f^{(0)}:=f$。然后递归地定义函数的高阶可微性,设 $n\in\mathbb N$:设
f
是n
阶可微的。若x_0\in X
是X
的聚点且f^{(n)}
在x_0
处可微,那么称f
在x_0
处n+1
阶可微,且记其在x_0
处的n+1
阶导数为 $f^{(n+1)}(x_0):=(f^{(n)})'(x_0)$。若f
在任意x_0\in X
处n+1
阶可微,那么称f
是n+1
阶可微的,f^{(n+1)}
记为其n+1
阶导函数。定义 $\mathscr C^n(X):={f\in \mathbb R^X:f\text{ 是 }n\text{ 阶可微的且 }f^{(n)}\text{ 是连续函数}}$,$\mathscr C^{\infty}(X):=\bigcap\limits_{n\in\mathbb N}\mathscr C^n(X)$。
-
引理 10.6.2(函数加乘的高阶导数算律):设 $X\subseteq\mathbb R$,
x_0\in X
是X
的聚点,$n\in\mathbb N$,f,g:X\to\mathbb R
是在x_0
处n
阶可微的函数。那么:f+g
在x_0
处n
阶可微且 $(f+g)^{(n)}(x_0)=f^{(n)}(x_0)+g^{(n)}(x_0)$。kf
在x_0
处n
阶可微且 $(kf)^{(n)}(x_0)=kf^{(n)}(x_0)$。fg
在x_0
处n
阶可微且 $(fg)^{(n)}(x_0)=\sum\limits_{i=0}^n\binom ni f^{(i)}(x_0)g^{(n-i)}(x_0)$。
证明:对
n
归纳即可。直观的看法是,1,2 的原因是求导是线性变换(这是因为微分是函数的线性近似,那么对函数做线性组合,它们对应的微分也应做对应的线性组合),而线性变换的复合仍然是线性变换。而对于 3,函数乘起来求导可以看作是选一个求导再加起来,那么n
次求导就可以看作是选n
次、选完之后再将所有的结果加起来(这也依赖于求导的线性性)。 -
引理 10.6.3(复合函数的高阶导数算律):设 $X,Y\subseteq \mathbb R$,
x_0\in X
且是X
的聚点,$n\in\mathbb N$,f:X\to Y
是在x_0
处n
阶可微的函数,y_0:=f(x_0)\in Y
是Y
的聚点,g:Y\to \mathbb R
是在y_0
处n
阶可微的函数。那么函数
g\circ f:X\to \mathbb R
在x_0
处n
阶可微,且是关于f'(x_0),f''(x_0),\cdots,f^{(n)}(x_0),(g'\circ f)(x_0),(g''\circ f)(x_0),\cdots,(g^{(n)}\circ f)(x_0)
的多项式。进一步地:(g\circ f)^{(n)}(x_0)=\left.\sum_{1 m_1+2m_2+\cdots+nm_n=n}\frac{\binom{n}{\underbrace{1,\cdots,1}_{m_1\text{个}},\underbrace{2,\cdots,2}_{m_2\text{个}},\cdots,\underbrace{n,\cdots,n}_{m_n\text{个}}}}{m_1!\cdots m_n!}(g^{(m_1+\cdots+m_n)}\circ f)\cdot (f')^{m_1}\cdot (f'')^{m_2}\cdots (f^{(n)})^{m_n}\right|_{x_0}
证明:对
n
归纳。假设命题关于n
成立,$(g\circ f)^{(n+1)}(x_0)=((g'\circ f)\cdot f')^{(n)}(x_0)$,由于g',f
在x_0
处n
阶可微,所以(g'\circ f)
在x_0
处n
阶可微,而f'
也在x_0
处n
阶可微,于是根据引理 10.6.2.3,(g'\circ f)\cdot f'
也在x_0
处n
阶可微,从而g\circ f
在x_0
处n+1
阶可微。而那个式子实际上就是一个组合问题:每次为形如
(g^{(m_1+\cdots+m_n)}\circ f)\cdot (f')^{m_1}\cdot (f'')^{m_2}\cdots (f^{(n)})^{m_n}
的每一项求导,那要么在后面的m_1+\cdots+m_n
个形如f^{(i)}
的可区分的函数中选一个出来求一次导变成 $f^{(i+1)}$,要么为第一项g^{(m_1+\cdots+m_n)}\circ f
求导,变成g^{(m_1+\cdots+m_n+1)}\circ f
再往后多添一个 $f'$。所以枚举最后乘积中的函数构成:m_1
个 $f'$、m_2
个 $f''$、……、m_n
个 $f^{(n)}$,对应的在最前面乘着的就应该是 $g^{(m_1+\cdots+m_n)}\circ f$,因为每多添一项g
的导数就多一阶。然后为后面的每个f^{(i)}
分配是n
次操作中的哪i
次操作让它依次变成 $f',f'',\cdots,f^{(i)}$,但是对于每个 $i$,这m_i
个f^{(i)}
在出现时不应被加以区分(或者说它们出现时是被g^{(\cdots)}\circ f
求导创造出来的,而不是从一堆f^{(0)}
中选一个求导得到的),所以最后要除以 $m_i!$。
作为引理 10.6.3 的推论,$(g(ax+b))^{(n)}=g^{(n)}(ax+b)a^n$,这是因为 ax+b
求两次导就变成 0
了。
-
引理 10.6.4(函数相除的高阶导数算律):设 $X\subseteq\mathbb R$,
x_0\in X
是X
的聚点,$n\in\mathbb N$,f,g:X\to\mathbb R
是在x_0
处n
阶可微的函数,$g(x_0)\neq 0$。那么\frac fg
在x_0
处n
阶可微。证明:记 $h(y):=\frac 1y$,那么 $\frac fg=f\cdot (h\circ g)$,而
h
任意阶可微(归纳并利用多项式的微分),所以\frac fg
在x_0
处n
阶可微。 -
引理 10.6.5(反函数的高阶导数算律):设 $X,Y\subseteq \mathbb R$,
x_0\in X
是X
的聚点,$n\in\mathbb N$,f:X\to Y
是双射,$y_0=f(x_0)$。若f
在x_0
处n
阶可微且 $f'(x_0)\neq 0$,f^{-1}
在y_0
处连续,那么f^{-1}
在y_0
处n
阶可微。证明:对
n
归纳。假设命题关于n
成立,$(f^{-1})^{(n+1)}(y_0)=(\frac{1}{f'\circ f^{-1}})^{(n)}(y_0)$,由于f',f^{-1}
分别在x_0,y_0
处n
阶可微且 $(f'\circ f^{-1})(y_0)=f'(x_0)\neq 0$,故\frac{1}{f\circ f^{-1}}
在y_0
处n
阶可微,从而f^{-1}
在y_0
处n+1
阶可微。
高阶导数的一个直接应用是判断极值。
-
定理 10.6.6:设 $X\subseteq \mathbb R$,
x_0\in X
是X
的聚点,n\geq 2
是正整数,f:X\to\mathbb R
是在x_0
处n
阶可微的函数,且 $f'(x_0)=\cdots=f^{(n-1)}(x_0)=0,f^{(n)}(x_0)>0$。若
n
是偶数,则x_0
是f
的严格极小值点;若n
是奇数,则f
在x_0
附近严格单调增。证明:
n
阶导数 $>0$,说明n-1
阶导函数在x_0
附近左侧为负、右侧为正,说明n-2
阶导数在x_0
处是严格极小值点(从而左右侧附近都为正),说明n-3
阶导数在x_0
附近严格单调增(从而附近左侧为负、右侧为正),陷入循环。
对于 f^{(n)}(x_0)<0
的情况,也有类似的结论。
10.7 凸函数
-
定义 10.7.1(凸函数):设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是函数。称f
是下凸的,当且仅当对任意x_1,x_2\in I \land x_1\neq x_2
和0<t<1
有 $f((1-t)x_1+tx_2)\leq(1-t)f(x_1)+tf(x_2)$。若不等式中的\leq
从不取等,那么称f
是严格下凸的。称
f
是(严格)上凸的,当且仅当-f
是(严格)下凸的。
$(1-t)A+tB=A+(B-A)t$,于是 t
从 0
到 1
实际上是从 A
匀速地走到 $B$。于是下凸函数就有一个很直观的理解:连接函数图象上任意两点形成一条线段,那么函数在这两点间的图像都应在这条线段下方。换言之,在下凸函数图像上任取三点形成一个三角形,那么三角形一定是尖点向下的。
-
引理 10.7.2:设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是下凸函数,x_1,x_2,x_3\in I
且 $x_1<x_2<x_3$。对任意a,b\in I\land a\neq b
定义k(a,b):\frac{f(a)-f(b)}{a-b}
为这两点的斜率(显然不可能为 $\infty$)。那么 $k(x_1,x_2)\leq k(x_1,x_3)\leq k(x_2,x_3)$。若f
是严格下凸的,那么等号永远取不到。证明:只证明 $k(x_1,x_2)\leq k(x_1,x_3)$,另一侧类似。记 $t=\frac{x_2-x_1}{x_3-x_1}$,那么 $(1-t)x_1+tx_3=x_2$。
k(x_1,x_2)=\frac{f(x_2)-f(x_1)}{x_2-x_1}\leq \frac{\bigg(f(x_1)+t(f(x_3)-f(x_1))\bigg)-f(x_1)}{x_2-x_1}=\frac{f(x_3)-f(x_1)}{x_3-x_1}=k(x_1,x_3)
可微的凸函数与其导数有很密切的关系。
-
定理 10.7.3(凸函数与其一阶导函数):设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是可微函数。那么f
是(严格)下凸函数,当且仅当f'
是(严格)单调增的。证明:若
f
是下凸函数。设 $x_1,x_2\in I \land x_1<x_2$。那么当x_3\in (x_1,x_2)
时,$k(x_1,x_3)\leq k(x_1,x_2)$,从而 $f'(x_1)=\lim\limits_{x_3\to x_1}k(x_1,x_3)=\lim\limits_{x_3\to x_1^+}k(x_1,x_3)\leq k(x_1,x_2)$。同理可证明 $f'(x_2)\geq k(x_1,x_2)$。那么 $f'(x_1)\leq f'(x_2)$。若
f'
是单调增的,若f
不是下凸的,即存在x_1,x_2\in I\land x_1<x_2
和0<t<1
使得 $f((1-t)x_1+tx_2)>(1-t)f(x_1)+tf(x_2)$,记 $x_3=(1-t)x_1+tx_2$,类似引理 10.7.2 的证明,可以证明 $k(x_1,x_3)>k(x_1,x_2)>k(x_3,x_2)$,根据拉格朗日中值定理,存在a\in (x_1,x_3),b\in (x_3,x_2)
使得 $f'(a)=k(x_1,x_3)>k(x_3,x_2)=f'(b)$,与f'
单调增矛盾。严格下凸推严格单调增时,由于极限的非严格保序,所以需要在
(x_1,x_2)
间随便多找一个中间点严格地把f'(x_1),f'(x_2)
隔开。而严格单调增推严格下凸是类似的。 -
推论 10.7.4(凸函数与其二阶导函数):设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是2
阶可微函数。那么f
是下凸函数当且仅当f''
是恒非负的。若f''
是恒正的,那么f
是严格下凸函数。
注意 f'
严格单调增并不能推出 f''
恒正,从而 f
严格下凸并不能推出 f''
恒正。例如 x^4
是严格下凸函数,其导函数 4x^3
是严格单调增的,但其 2
阶导函数 12x^2
就不是恒正的。
-
定义 10.7.5(单侧的可微性):设 $X\subseteq \mathbb R$,$x_0\in X$,
f:X\to\mathbb R
是函数。若
x_0
是X\cap(-\infty,x_0)
的附着点,称f
在x_0
处左侧可微且具有左导数 $L$,记作 $f'_-(x_0):=L$,当且仅当\lim\limits_{x\to x_0^-}\dfrac{f(x)-f(x_0)}{x-x_0}
收敛到 $L$。若
x_0
是X\cap(x_0,+\infty)
的附着点,称f
在x_0
处右侧可微且具有右导数 $L$,记作 $f'_+(x_0):=L$,当且仅当\lim\limits_{x\to x_0^+}\dfrac{f(x)-f(x_0)}{x-x_0}
收敛到 $L$。 -
引理 10.7.6:设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是(严格)下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$。那么f
在\overgroup I
上每点左侧可微且右侧可微,f'_-(x_0)\leq f'_+(x_0)
对任意x_0\in \overgroup I
成立,且f'_-,f'_+
均(严格)单调增。证明:设 $x_0\in \overgroup I$,对任意 $x_1,x_2\in I\land x_1<x_2<x_0$,由引理 10.7.2 可知 $k(x_1,x_0)\leq k(x_2,x_0)$,故
k(x,x_0)
关于x
在x_0
左侧是单调增的。同时,在x_0
右侧任取一点 $x'$,那么对于x_0
左侧的任意x
有 $k(x,x_0)\leq k(x',x_0)$,从而k(x,x_0)
关于x
在x_0
左侧有上界,那么f'_-(x_0)
存在。同理可证明f_+'(x_0)
存在,且易见 $f_-'(x_0)\leq f_+'(x_0)$,然后利用这个再类似引理 10.7.3 证明f_-',f_+'
(严格)单调增即可。 -
推论 10.7.7:设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$。那么f
在\overgroup I
上连续。证明:
f
在\overgroup I
上每一点左侧可微且右侧可微,从而在这一点左连续且右连续,从而在这一点连续。
注意上述结论只适用于 \overgroup I
而非 I
的范围内。一个反例是定义在 [0,1]
上的函数 f(x):=\begin{cases}\sqrt x&x>0\\-1&x=0\end{cases}
是上凸函数,但在 0
处右侧不可微,且在 0
处也不连续。
-
引理 10.7.8:设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$,$x_0\in \overgroup I$。若f'_-
在x_0
处连续,那么f
在x_0
处可微。证明:对任意
x\in I
且 $x>x_0$,我们知道 $k(x_0,x)\leq f'-(x)$,而 $\lim\limits{x\to x_0^+}f_-'(x)=f_-'(x_0)$,那么 $f'+(x_0)=\lim\limits{x\to x_0^+}k(x_0,x)\leq f'-(x_0)$,于是 $f'+(x_0)=f'_-(x_0)$,f
在x_0
处可微。 -
推论 10.7.9:设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是下凸函数,那么f
在至多可数个位置不可微。证明:
f_-'
在\overgroup I
上是单调函数,故f_-'
的间断点只有可数多个,从而f
在\overgroup I
上只有至多可数个位置不可微,即f
在I
上也只有至多可数个位置不可微。
凸函数的最值可以借助其导数判断。
-
引理 10.7.10:设
I\subseteq\mathbb R
是区间,f:I\to\mathbb R
是下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$,$S:={x\in\overgroup I:f'_-(x)\leq 0}$。若S
非空且 $\sup S\neq \sup I$,那么S
有最大值且 $\max S=\max{x\in I:x\text{ 是 }f\text{ 的最小值点}}$。证明:记 $x_0:=\sup S$,那么对任意
x\in \overgroup I\land x<x_0
有 $f'-(x)\leq 0$。对任意 $x,y\in I\land x<y<x_0$,若 $f(x)<f(y)$,由于 $f'-(y)\leq 0$,所以存在x<z<y
使得 $f(z)\geq f(y)$,容易发现这与凸性矛盾。所以f
在I\cap (-\infty,x_0)
上单调减。容易证明 $x_0\in\overgroup I$,从而
f_-'
在x_0
处有定义且f
在x_0
处连续,又f
在x_0
左侧单调减,故 $f(x_0)=\inf{f(x):x\in I\cap(-\infty,x_0)}$,从而f'_-(x_0)\leq 0
那么x_0\in S
且是S
的最大值。对任意 $x\in \overgroup I\land x_0<x$,$f'+(x)\geq f'-(x)>0$,那么可以类似地证明
f
在I\cap (x_0,+\infty)
上严格单调增,从而x_0
是f
的最小值点,且x_0
右侧不再有任何f
的最小值点。
注意到引理 10.7.10 中证明 f
在 x_0
左侧单调减时用到了 f
的凸性,但实际上也可以把条件约束变得更强。
- 设
f
是区间上的连续函数,f
在定义域上任意处左侧可微且左导数恒小于等于 $0$,那么f
是单调减的。
该命题不需要用到 f
的凸性,但仍然是正确的。读者可以尝试自证。
-
定理 10.7.11(凸函数在其任意一条切线之上):设
I\subseteq\mathbb R
是区间,$x_0\in I$,f:I\to\mathbb R
是下凸函数,f
在x_0
处左侧可微。那么对于任意 $x\in I$,$f(x)\geq f(x_0)+f'_-(x_0)(x-x_0)$。证明:定义
g:I\to\mathbb R
满足 $g(x):=f(x)-(f(x_0)+f'-(x_0)(x-x_0))$。由于g
是凸函数减一次函数,求导后就是导函数再减去一个常数,从而单调性保持,那么g
仍然是凸函数。而 $g'-(x_0)=f'-(x_0)-f'-(x_0)=0$,那么g(x_0)=0
是g
的最小值。
在推论 10.7.7 中,我们说了 f
在 \overgroup I
上是连续的。接下来我们说明,闭区间上的凸函数在端点处有极限,从而它几乎是连续的(只需把端点处的值修正)。
-
引理 10.7.12:设 $a,b\in\mathbb R\land a<b$,
f:[a,b]\to\mathbb R
是下凸函数。那么f
在a
处有极限且其不超过 $f(a)$。证明:我们先证明
f
在a
附近是有界的:任取 $a<c<b$,对任意 $x\in(a,c)$,一方面,根据f
的凸性,有 $f(x)\leq \max{f(a),f(c)}$;一方面,根据引理 10.7.11,$f(x)\geq f(c)+f'-(c)(x-c)\geq \min{f(c)+f'-(c)(a-c),f(c)+f'_-(c)(c-c)}$。然后再证明
f
在a
附近是单调的:设 $L=\inf{f'_-(x):x\in (a,b)}$,若 $L<0$,那么存在a
的右去心邻域V
使得f'_-
在V
内都为负;若 $L\geq 0$,那么f_-'
恒非负,从而f_+'
恒非负。再类似引理 10.7.10 中的证明,即可证明存在a
的某个右去心邻域 $V$,使得f
在V
内单调。最后根据单调有界收敛性质,可知
f
在a
处有极限 $L$。若 $f(a)<L$,任取 $0<\varepsilon<L-f(a)$,任取 $a<c<b$,那么
f
图像应当在a,c
两点线段下方,这与f
在a
附近任意足够近处都能将函数值控制在>L-\varepsilon
的范围内矛盾。
牛顿迭代法适用在凸函数上。
-
定理 10.7.13(牛顿迭代法):设 $a,b\in\mathbb R\land a<b$,
f:[a,b]\to\mathbb R
是连续的凸函数,$f(a)<0<f(b)$,f
在(a,b)
上可微且导数恒正。那么对于任意x_0\in(a,b)
且 $f(x_0)>0$,存在序列(x_n)_{n=0}^{\infty}
满足x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)}
对任意n
成立,且该序列收敛到f
的唯一零点。证明:归纳地假设
x_n \in(a,b)
且 $f(x_n)\geq 0$。x_{n+1}
是f
在x_n
处的切线与x
轴的交点,由于导数为正,所以 $x_{n+1}\leq x_n$。同时 $x_{n+1}>a$,否则根据函数图像在该切线上方说明函数图像整体在x
轴上方,矛盾。于是 $x_{n+1}\in(a,b)$,而f(x_{n+1})\geq 0
是由函数图像在切线上方得到的。从而
(x_n)_{n=0}^{\infty}
单调有界收敛,设极限为 $x^$。易证x^*\in(a,b)
且 $f(x^)\geq 0$。由于
f'
在(a,b)
上是单调的,而根据推论 10.2.11 可知f'
不存在第一类间断点,而开区间上的单调函数本身不应该存在第二类间断点,从而f'
在(a,b)
上连续,那么x-\frac{f(x)}{f'(x)}
也在(a,b)
上有定义且连续,从而:x^*-\frac{f(x^*)}{f'(x^*)}=\lim_{n\to+\infty}x_n-\frac{f(x_n)}{f'(x_n)}=\lim_{n\to+\infty}x_{n+1}=x^*
这蕴含 $f(x^*)=0$。
最后,我们推广凸函数的定义。
- 定义 10.7.14(凸集):设
n
是正整数,$C\subseteq\mathbb R^n$,称C
是凸集,当且仅当对任意x_1,x_2\in C
和 $t\in(0,1)$,有 $(1-t)x_1+tx_2\in C$。
凸集的几何直观解释是:凸集中任意两点为端点的线段也在 C
中。\mathbb R
中的凸集就是区间。
- 定义 10.7.15(凸函数):设
n
是正整数,C\subseteq\mathbb R^n
是凸集,f:C\to\mathbb R
是函数。称f
是下凸的,当且仅当对任意x_1,x_2\in C
和 $t\in(0,1)$,有 $f((1-t)x_1+tx_2)\leq(1-t)f(x_1)+tf(x_2)$。称f
是上凸的,当且仅当-f
是下凸的。
那么定义 10.7.1 与上述定义是相容的。
- 引理 10.7.16:设
n
是正整数,C\subseteq\mathbb R^n
是凸集,f:C\to\mathbb R
是函数。那么f
是下凸的,当且仅当\{(x,y):x\in C,y\in \mathbb R,y\geq f(x)\}
是凸集。
引理 10.7.16 中所述的集合有时被称为 f
的 “上镜图”。