lcw-analyze/src/第10章 函数的微分.md
2023-11-04 13:44:58 +08:00

38 KiB
Raw Blame History

\renewcommand{\overgroup}[1]{\overparen{#1}}

10.1 基本定义

  • 定义 10.1.1(在一点处的可微性):设 $X\subseteq \mathbb R$x_0\in X 且是 X 的聚点(非孤立点),f:X\to\mathbb R 是函数。

    fx_0 处可微且具有导数 $L$,记作 $f'(x_0):=L$,当且仅当 \lim\limits_{x\to x_0}\dfrac{f(x)-f(x_0)}{x-x_0} 收敛到 $L$。

    若极限不存在,或 $x_0\not\in X$,或 x_0 不是 X 的聚点,则称 fx_0 处不可微。

  • 命题 10.1.2(牛顿逼近):设 $X\subseteq \mathbb R$x_0\in X 且是 X 的聚点,f:X\to \mathbb R 是函数,L 是实数。

    那么 fx_0 处可微且导数为 $L$,当且仅当,对于任意 $\varepsilon>0$,都存在 $\delta>0$,使得对于任意 x\in X 且 $|x-x_0|\leq\delta$,都有 $|f(x)-(f(x_0)+L(x-x_0))|\leq\varepsilon|x-x_0|$。

    证明:根据定义可得。

  • 命题 10.1.3(可微性蕴含连续性):设 $X\subseteq \mathbb R$x_0\in X 且是 X 的聚点,f:X\to\mathbb R 是函数。若 fx_0 处可微,则 fx_0 处连续。

    证明:设 fx_0 处导数为 $L$。

    \varepsilon>0 是任意正实数。任取 $\varepsilon'>0$,根据命题 10.1.2,存在 $0<\delta\leq \frac \varepsilon {\varepsilon'+|L|}$,使得对于任意 x\in X 且 $|x-x_0|\leq \delta$,都有 $|f(x)-(f(x_0)+L(x-x_0))|\leq\varepsilon'|x-x_0|$,得到 $|f(x)-f(x_0)|\leq(\varepsilon'+|L|)|x-x_0|\leq (\varepsilon'+|L|)\delta\leq \varepsilon$。证毕。

连续不一定可微。例如绝对值函数 f(x):=|x|0 处连续但不可微。另一个反例是,构造 f:[0,+\infty)\to \mathbb R 满足 $f(x):=\begin{cases}x&\exists_{n\text{为正偶数}},x=\frac1n\-x&\exists_{n为正奇数},x=\frac1n\0&\text{true}\end{cases}$,那么 f 同样是在 0 处连续但不可微(斜率存在 0,-1,1 三种)的。”图像有切线“ 也不一定可微,因为切线可能是垂直的,例如 f(x):=\sqrt x0 处就连续但不可微。

连续(极限)和微分在某种意义上是相似的:考虑函数 fx_0 处是连续的,其实等价于 $f(x)=f(x_0)+o(1),x\to x_0$;而 fx_0 处有导数 $f'(x_0)$,就等价于 $f(x)=f(x_0)+f'(x_0)(x-x_0)+o(x-x_0),x\to x_0$。这说明 “极限” 实际上描述了 fx_0 附近的常数近似(从而 ”连续“ 或 ”有极限“ 是在说明 fx_0 附近有常数近似),而 “微分” 实际上描述了 fx_0 附近的线性近似(从而 ”可微“ 是在说明 fx_0 附近有线性近似),进一步地,如果存在 a_0,a_1,\cdots,a_n 使得 $f(x)=a_0+a_1(x-x_0)+a_2(x-x_0)^2+\cdots+a_n(x-x_0)^n+o((x-x_0)^n)$,我们就找到了 fx_0 附近的多项式近似(注意这与所谓的 ”高阶导数“ 是完全不同的概念)。所以无论如何,极限、导数、多项式近似,都是为了用更简单的方式刻画 f 在某一点附近的函数性质。当然,作为推论,可微性蕴含连续性是极其合理的。

可微函数的导函数不一定连续:$f(x):=\begin{cases}x^2\sin \frac 1x &x\neq 0\0&x=0\end{cases}$,其导数为 $f'(x)=\begin{cases}2x\sin \frac 1x-\cos \frac 1x&x\neq 0\0& x=0\end{cases}$,那么对于任意正整数 k 有 $f'(\frac 1{2k\pi})=\frac{1}{k\pi}\sin(2k\pi)-\cos(2k\pi)=-1$,则 f'0 处不连续。

  • 定义 10.1.4:设 $X\subseteq \mathbb R$f:X\to \mathbb R 是函数。称 f 是可微的,当且仅当对于任意 x_0\in X 且是 X 的聚点,都有 fx_0 处可微。

  • 推论 10.1.5:设 $X\subseteq \mathbb R$f:X\to \mathbb R 是函数。若 f 是可微的,则 f 是连续的。

    证明:联合定义 10.1.4 和 “f 在任何孤立点 x_0 处都连续” 这一事实。

  • 定理 10.1.6(微分算律):设 $X\subseteq \mathbb R$x_0\in X 且是 X 的聚点,f:X\to\mathbb Rg:X\to \mathbb R 是函数。

    1. f 是常值函数,则 f 可微且 $f'(x_0)=0$。
    2. 若对于任意 x\in X 有 $f(x)=x$,则 f 可微且 $f'(x_0)=1$。
    3. f,gx_0 处均可微,则 f+g 也在 x_0 处可微,且 $(f+g)'(x_0)=f'(x_0)+g'(x_0)$。
    4. f,gx_0 处均可微,则 f-g 也在 x_0 处可微,且 $(f-g)'(x_0)=f'(x_0)-g'(x_0)$。
    5. c 是实数。若 fx_0 处可微,则 cf 也在 x_0 处可微,且 $(cf)'(x_0)=cf'(x_0)$。
    6. f,gx_0 处均可微,则 fg 也在 x_0 处可微,且 $(fg)'(x_0)=f'(x_0)g(x_0)+f(x_0)g'(x_0)$。
    7. gx_0 处可微,且 $g(x_0)\neq 0$,则 \frac1g 也在 x_0 处可微,且 $\left(\frac1g\right)'(x_0)=-\frac{g'(x_0)}{g^2(x_0)}$。
    8. f,gx_0 处均可微,且 $g(x_0)\neq 0$,则 \frac fg 也在 x_0 处可微,且 $\left(\frac fg\right)'(x_0)=\frac{f'(x_0)g(x_0)-f(x_0)g'(x_0)}{g^2(x_0)}$。

    证明:使用函数的极限算律即可。以 10.1.6.8 的证明为例:

    
    \begin{aligned}
    \left(\frac{f}{g}\right)'(x_0)&=\lim\limits_{x\to x_0}\frac{\frac{f(x)}{g(x)}-\frac{f(x_0)}{g(x_0)}}{x-x_0}\\
    &=\lim\limits_{x\to x_0}\frac{\frac{f(x)g(x_0)-f(x_0)g(x)}{x-x_0}}{g(x)g(x_0)}\\
    &=\frac{\lim\limits_{x\to x_0}\frac{(f(x)g(x_0)-f(x_0)g(x_0))-(f(x_0)g(x)-f(x_0)g(x_0))}{x-x_0}}{g^2(x_0)}\\
    &=\frac{\left(\lim\limits_{x\to x_0}g(x_0)\frac{f(x)-f(x_0)}{x-x_0}\right)-\left(\lim\limits_{x\to x_0}f(x_0)\frac{g(x)-g(x_0)}{x-x_0}\right)}{g^2(x_0)}\\
    &=\frac{f'(x_0)g(x_0)-f(x_0)g'(x_0)}{g^2(x_0)}
    \end{aligned}
    

    当然,正确的方向应该是从后往前推,这样才是正确使用极限算律的方向。

  • 定理 10.1.7(链式法则):设 $X,Y\subseteq \mathbb R$x_0\in X 且是 X 的聚点,f:X\to Y 是在 x_0 处可微的函数,y_0:=f(x_0)\in YY 的聚点,g:Y\to \mathbb R 是在 y_0 处可微的函数。那么函数 g\circ f:X\to \mathbb Rx_0 处可微,且 $(g\circ f)'(x_0)=g'(y_0)f'(x_0)$。

    证明:设 k_1:=f'(x_0) 和 $k_2:=g'(y_0)$。设 \varepsilon>0 是任意正实数。

    存在 \varepsilon_1,\varepsilon_2>0 满足 $\varepsilon_1|k_2|+\varepsilon_2|k_1|+\varepsilon_1\varepsilon_2\leq \varepsilon$(见 5.3.4 的证明)。

    存在 \delta_2>0 满足,对于任意 y\in Y 且 $|y-y_0|\leq\delta_2$,记 $\Delta y=|y-y_0|,\Delta z=|g(y)-g(y_0)|$,有 $|\Delta z-k_2\Delta y|\leq\varepsilon_2\Delta y$。

    存在 \delta_1>0 满足,对于任意 x\in X 且 $|x-x_0|\leq \delta_1$,记 $\Delta x=|x-x_0|,\Delta y=|f(x)-f(x_0)|$,有 $|\Delta y-k_1\Delta x|\leq \varepsilon_1 \Delta x$。

    存在 \delta_3>0 满足,对于任意 x\in X 且 $|x-x_0|\leq\delta_3$,有 $|f(x)-f(x_0)|\leq \delta_2$。

    设 $\delta:=\min(\delta_1,\delta_3)$,那么 $\delta>0$。那么对于任意 x\in X 且 $|x-x_0|\leq \delta$,记 $\Delta x=|x-x_0|,\Delta y=|f(x)-f(x_0)|,\Delta z=|g(f(x))-g(f(x_0))|$,有 $\Delta x\leq \delta_1,\Delta y\leq \delta_2$,从而 |\Delta y-k_1\Delta x|\leq \varepsilon_1 \Delta x 且 $|\Delta z-k_2\Delta y|\leq\varepsilon_2\Delta y$,那么:

    
    \begin{aligned}
    |\Delta z-k_2\Delta y|&\leq\varepsilon_2\Delta y\\
    |\Delta z-k_2k_1\Delta x|&\leq \varepsilon_2\Delta y+|k_2|\varepsilon_1\Delta x\\
    &\leq \varepsilon_2(|k_1|\Delta x+\varepsilon_1\Delta x)+|k_2|\varepsilon_1
    \Delta x\\
    &=(\varepsilon_1|k_2|+\varepsilon_2|k_1|+\varepsilon_1\varepsilon_2)\Delta x\\
    &\leq \varepsilon\Delta x
    \end{aligned}
    

10.2 局部极值和导数

  • 定义 10.2.1(局部极值):设 $X\subseteq \mathbb R$f:X\to \mathbb R 是函数,$x_0\in X$。

    fx_0 处达到局部最大值,当且仅当存在 \delta>0 使得 f|_{X\cap (x_0-\delta,x_0+\delta)}x_0 处达到最大值。

    fx_0 处达到局部最小值,当且仅当存在 \delta>0 使得 f|_{X\cap (x_0-\delta,x_0+\delta)}x_0 处达到最小值。

显然 f 的孤立点是同时达到局部最大值和局部最小值的。

  • 命题 10.2.2(局部极值是稳定的):设 a,b\in\mathbb R 且 $a<b$f:(a,b)\to \mathbb R 是函数,$x_0\in (a,b)$。若 fx_0 处可微,且 fx_0 处达到局部最大值或局部最小值,那么 $f'(x_0)=0$。

    证明:不妨设 fx_0 处达到局部最大值,那么存在 \delta_1>0 使得对于任意 x\in (a,b)|x-x_0|\leq\delta_1 有 $f(x)\leq f(x_0)$。

    反证。若 $f'(x_0)\neq0$。不妨设 $f'(x_0)>0$,记为 $L$。

    任取 $0<\varepsilon<L$,那么存在 $\delta_2>0$,使得对于任意 x\in (a,b) 且 $|x-x_0|\leq \delta_2$,都有 $\left|\frac{f(x)-f(x_0)}{x-x_0}-L\right|\leq\varepsilon$,于是一定有 $\frac{f(x)-f(x_0)}{x-x_0}>0$。

    存在 $x_0<x<\min(b,x_0+\delta_1,x_0+\delta_2)$,此时同时有 f(x)>f(x_0) 和 $f(x)\leq f(x_0)$,矛盾。

在命题 10.2.2 中,用闭区间 [a,b] 代替 $(a,b)$,该命题不一定成立。因为当区间的端点是局部极值时,其导数不一定为 $0$。

该命题的逆命题也不一定成立,导数为 0 并不一定是局部极值,而应当出现导数正负性变化才行,例如 f(x):=x^30 处导数为 0 但并非局部极值。

  • 定理 10.2.3(罗尔定理):设 a,b\in\mathbb R 且 $a<b$f:[a,b]\to\mathbb R 是连续函数,且 f(a,b) 上可微。若 $f(a)=f(b)$,那么存在 x\in (a,b) 使得 $f'(x)=0$。

    证明:根据极值定理,f 在某点 x_{\max} 处达到最大值,那么它也是局部最大值。若 x_{\max}=a 或 $x_{\max}=b$,那么就找 f 的最小值 $x_{\min}$,若还是有 x_{\min}=a 或 $x_{\min}=b$,那么可以证明 f 是常值函数,对于任意 x\in [a,b] 都有 $f'(x)=0$;若 $x_{\max}\in(a,b)$,根据命题 10.2.2$f'(x_{\max})=0$。

注意 “f:[a,b]\to\mathbb R 是连续函数,且 f(a,b) 上可微” 并不蕴含 “f[a,b] 上可微”,一个反例是由 f(x):=x^{\frac 12} 定义的连续函数 f:[0,+\infty)\to\mathbb R(0,+\infty) 上可微,但在 0 处不可微。

  • 定理 10.2.4(拉格朗日中值定理):设 a,b\in\mathbb R 且 $a<b$f:[a,b]\to\mathbb R 是连续函数,且 f(a,b) 上可微,那么存在 x\in(a,b) 使得 $f'(x)=\frac{f(b)-f(a)}{b-a}$。

    证明:设 k:=\frac{f(b)-f(a)}{b-a} 和由 g(x):=f(x)-kx 定义函数 $g:[a,b]\to \mathbb R$。那么 g 也是连续函数,且 g|_{(a,b)} 也可微,且 $g(a)=g(b)$。根据罗尔定理,存在 x\in(a,b) 使得 $g'(x)=0$,那么 $f'(x)=g'(x)+k=k$。证毕。

拉格朗日中值定理有很明显的几何解释。

  • 命题 10.2.5:设 f:I\to\mathbb R 是实区间 I 上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足 f 在任意 x\in \overgroup I 处可微且 $|f'(x)|\leq M$。那么对于任意 $x,y\in I$,有 $|f(x)-f(y)|\leq M|x-y|$。

    证明:反证,不妨假设存在 x<y 且 $|f(y)-f(x)|>M(y-x)$。根据拉格朗日中值定理,存在 z\in(x,y) 使得 $f'(z)=\frac{f(y)-f(x)}{y-x}$,那么 $|f'(z)|>M$,矛盾。

  • 推论 10.2.6:设 f:I\to\mathbb R 是实区间 I 上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足 f 在任意 x\in \overgroup I 处可微且 $|f'(x)|\leq M$。那么 f 是一致连续函数。

  • 引理 10.2.7:设 F:I\to\mathbb RG:I\to\mathbb R 都是实区间 I 上的连续函数,它们在任意 x\in \overgroup I 处可微且导数相同。那么存在 $C\in\mathbb R$,使得对于任意 x\in I 有 $G(x)=F(x)+C$。

    证明:考虑函数 $H=G-F$,再结合命题 10.2.5。

事实上,罗尔定理可以推广到无限区间。

  • 定理 10.2.8(广义罗尔定理):设 a,b\in \mathbb R^* 且 $a< b$f:(a,b)\to\mathbb R 是可微函数,且 $\lim\limits_{x\to a}f(x)=\lim\limits_{x\to b}f(x)=A\in\mathbb R\cup{\pm\infty}$。那么存在 x\in(a,b) 使得 $f'(x)=0$。

    证明:只证明 a=-\infty,b=+\infty 的情况。排除 f 是常值函数的特殊情况,那么存在 x_0\in\mathbb R 使得 $f(x_0)\neq A$。不妨假设 $f(x_0)<A$。显然存在 x_1<x_0<x_2 使得 $f(x_1),f(x_2)>f(x_0)$。不妨假设 $f(x_0)<f(x_1)<f(x_2)$,那么存在 x_3\in (x_0,x_2) 使得 $f(x_3)=f(x_1)$,再根据普通的罗尔定理,可知一定存在 x\in [x_1,x_3] 使得 $f'(x)=0$。

由于拉格朗日中值定理涉及到 $b-a$,所以拉格朗日中值定理没有对应的推广版本,但是我们有一个类似的且更强的定理。

  • 定理 10.2.9(柯西微分中值定理):设 a,b\in \mathbb R^* 且 $a< b$f,g:(a,b)\to\mathbb R 是可微函数,$A_f,B_f,A_g,B_g\in\mathbb R$,且

    
    \lim_{x\to a}f(x)=A_f\quad\lim_{x\to b}f(x)=B_f\quad\lim_{x\to a}g(x)=A_g\quad\lim_{x\to b}g(x)=B_g
    

    那么存在 x\in (a,b) 使得 $f'(x)(B_g-A_g)=g'(x)(B_f-A_f)$。

    证明:考虑由 h(x):=f(x)(B_g-A_g)-g(x)(B_f-A_f) 定义的函数 $h:(a,b)\to\mathbb R$,那么 $\lim\limits_{x\to a}h(x)=\lim\limits_{x\to b}h(x)=A_fB_g-A_gB_f$,再根据广义罗尔定理即可。

柯西微分中值定理的几何直观可能并不明显:将 f,g 分别看作平面上的 x,y 坐标,那么它实际上描述了一条平面上的曲线,起点在 A 终点在 $B$,而 (f'(x),g'(x)) 实际上描述的是曲线在 x 这一点的切向量(速度向量),那么 f'(x)(B_g-A_g)-g'(x)(B_f-A_f)=0 就解释为 (f'(x),g'(x))(B_f-A_f,B_g-A_g) 这两个向量的叉积是零,即这两个向量平行。所以微分中值定理实际上是在说这条曲线上一定有一点处的切向量和起点到终点的向量平行。这和拉格朗日中值定理是很相似的。

我们上面介绍了很多定理,它们的条件是不同但相似的,这里介绍一下它们之间的细微差别:

  • 若条件是 “fI 上定义且连续,在 \overgroup I 上可微”,这是最强的条件,它只要求 f\overgroup I 上可微,而且不关心 f 是否在端点处有定义。

  • 若条件是 “f[a,b] 上定义且连续,在 (a,b) 上可微”,这相比于上一个条件,要求 f 在端点处有定义,一般是因为该定理的描述和 f 在端点处的值有关。

  • 若条件是 “f(a,b) 上定义且可微(从而连续),在 a,b 两点有极限”,这里的 a,b 的选取范围应该是 $\mathbb R^*$,所以它相比于上一个条件更强,因为这允许 a,b 是无限的情况。

导函数不一定连续,但区间上的导函数仍然满足介值性质。

  • 定理 10.2.10(达布定理):设 a,b 是实数满足 $a<b$f:[a,b]\to\mathbb R 是可微函数,k 是介于 f'(a)f'(b) 之间的实数。那么存在 c\in[a,b] 使得 $f'(c)=k$。

    证明:不妨设 $f'(a)<k<f'(b)$。

    定义函数 g:[a,b]\to\mathbb R 满足 $g(x):=f(x)-kx$,那么 $g'(a)<0<g'(b)$,从而 a,b 都不是 g 的最小值。闭区间上的函数 g 有最小值,设最小值点为 $c$,那么 $a<c<b$,从而 g'(c)=0 即 $f'(c)=k$。

  • 推论 10.2.11:设 f:I\to\mathbb R 是实区间 I 上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足 f 在任意 x\in \overgroup I 处可微,那么 f' 不存在第一类间断点。

10.3 单调函数和导数

  • 命题 10.3.1:设 $X\subseteq \mathbb R$x_0\in X 且是 X 的聚点,f:X\to\mathbb R 是单增函数。若 fx_0 处可微,那么 $f'(x_0)\geq 0$。

    证明:由于 f 是单增函数,可以证明,对于任意 x\in X 且 $x\neq x_0$,都有 $\frac{f(x)-f(x_0)}{x-x_0}\geq 0$,那么根据命题 9.3.2,有 $f'(x_0)=\lim\limits_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}\geq 0$。

  • 命题 10.3.2:设 f:I\to\mathbb R 是实区间 I 上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足 f 在任意 x\in \overgroup I 处可微且导数恒正,则 f 是严格单调增的。

    证明:若存在 x,y\in Ix<y 使得 $f(x)\geq f(y)$,那么根据拉格朗日中值定理,存在 z\in (x,y) 使得 $f'(z)=\frac{f(y)-f(x)}{y-x}\leq 0$,矛盾。

注意命题 10.3.2 的逆命题并不成立,即函数严格增不能说明导数为正(如 x^30 处导数为 $0$),其本质原因是极限的非严格保序引起的(取极限的内容为正并不能说明极限为正)。

  • 命题 10.3.3:设 f:I\to\mathbb R 是实区间 I 上的连续函数,$\overgroup I=I\setminus{\inf I,\sup I}$,满足 f 在任意 x\in \overgroup I 处可微且导数恒不为 $0$,则 f 是严格单调的。

    证明:结合达布定理和命题 10.3.2 可知。

10.4 反函数和导数

  • 引理 10.4.1:设 $X,Y\subseteq \mathbb R$f:X\to Y 是双射,x_0\in X 且是 X 的聚点,y_0=f(x_0) 且是 Y 的聚点。若 fx_0 处可微且 f^{-1}y_0 处可微,那么 $(f^{-1})'(y_0)=\frac{1}{f'(x_0)}$。

    证明:根据链式法则,有 $(f^{-1}\circ f)'(x_0)=(f^{-1})'(y_0)\cdot f'(x_0)$,又 (f^{-1}\circ f)'(x_0)=1 可得。

反函数定理将上述引理加强,将 f^{-1}y_0 处的要求从可微降为连续。

  • 定理 10.4.2(反函数定理):设 $X,Y\subseteq \mathbb R$f:X\to Y 是双射, x_0\in X 且是 X 的聚点,$y_0=f(x_0)$。若 fx_0 处可微且 $f'(x_0)\neq 0$f^{-1}y_0 处连续,那么 f^{-1}y_0 处可微,且 $(f^{-1})'(y_0)=\frac{1}{f'(x_0)}$。

    证明:首先可以证明出 y_0Y 的聚点。然后设任意 Y\setminus\{y_0\} 上的收敛到 y_0 的序列 $(y_n)_{n=1}^{\infty}$,记 $x_n=f^{-1}(y_n)$,那么由于 f^{_-1}y_0 处连续,可知 (x_n)_{n=1}^{\infty} 收敛到 $x_0$。那么:

    
    \lim_{n\to\infty}\frac{f^{-1}(y_n)-f^{-1}(y_0)}{y_n-y_0}=\lim_{n\to\infty}\frac{x_n-x_0}{f(x_n)-f(x_0)}=\frac{1}{\lim\limits_{n\to\infty}\frac{f(x_n)-f(x_0)}{x_n-x_0}}=\frac{1}{f'(x_0)}
    

    注意正确的顺序是从后往前推。

注意定理 10.4.2 中 “f^{-1}y_0 处连续” 的条件不可省略。例如由 f(x):=\begin{cases}x+1&-1\leq x<0\\x-1&0\leq x<1\end{cases} 定义的函数 f:[-1,1)\to[-1,1) 并取 x_0=-1 就是一个反例。

10.5 洛必达法则

  • 命题 10.5.1(洛必达法则 1:设 X\subseteqq \mathbb RX 的聚点 $x_0$,函数 f:X\to\mathbb R 和 $g:X\to\mathbb R$,满足 $f(x_0)=g(x_0)=0$fg 都在 x_0 处可微且 $g'(x_0)\neq 0$。那么:

    
    \lim_{x\to x_0}\frac{f(x)}{g(x)}=\frac{f'(x_0)}{g'(x_0)}
    

    证明:正确的顺序是从后往前推:

    
    \begin{aligned}\lim_{x\to x_0}\frac{f(x)}{g(x)}&=\lim_{x\to x_0}\frac{\frac{f(x)-f(x_0)}{x-x_0}}{\frac{g(x)-g(x_0)}{x-x_0}}\\&=\frac{\lim\limits_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}}{\lim\limits_{x\to x_0}\frac{g(x)-g(x_0)}{x-x_0}}\\&=\frac{f'(x_0)}{g'(x_0)}\end{aligned}
    
  • 命题 10.5.2(洛必达法则 2:设实数 a,b 满足 $a<b$f:[a,b]\to\mathbb Rg:[a,b]\to\mathbb R 都是在 [a,b] 上连续且在 (a,b) 上可微的函数,满足 $f(a)=g(a)=0$,且对于任意 x\in(a,b) 有 $g'(x)\neq 0$,且满足:

    
    \lim_{x\to a}\frac{f'(x)}{g'(x)}=L
    

    那么对于任意 x\in (a,b] 有 $g(x)\neq 0$,且:

    
    \lim_{x\to a}\frac{f(x)}{g(x)}=L
    

    证明:若存在 x\in (a,b] 使得 $g(x)=0$,根据拉格朗日中值定理,存在 y\in(0,x) 使得 $g'(y)=0$,矛盾。

    设任意 (a,b] 上的收敛到 a 的序列 $(x_n)_{n=0}^{\infty}$。

    n\geq 0 和由 h_n(x):=f(x)g(x_n)-g(x)f(x_n) 定义的函数 $h_n:[a,x_n]\to\mathbb R$。那么 h_n(a,x_n) 上可微,且对于任意 x\in(a,x_n) 有 $h_n'(x)=f'(x)g(x_n)-g'(x)f(x_n)$,同时我们知道 $h_n(a)=h_n(x_n)=0$,于是根据拉格朗日中值定理,存在 y_n\in(a,x_n) 使得 $h_n'(y_n)=0$,即 $\frac{f(x_n)}{g(x_n)}=\frac{f'(y_n)}{g'(y_n)}$。

    根据选择公理,存在一组 (y_n)_{n=0}^{\infty} 满足条件。注意到 (y_n)_{n=0}^{\infty} 应收敛到 $a$,那么 \left(\frac{f'(y_n)}{g'(y_n)}\right)_{n=0}^{\infty} 收敛到 $L$,即 \left(\frac{f(x_n)}{g(x_n)}\right)_{n=0}^{\infty} 收敛到 $L$。

10.6 高阶导数

  • 定义 10.6.1(高阶导数):设 $X\subseteq \mathbb R$f:X\to\mathbb R 是函数。那么称 f0 阶可微的,且有 0 阶导函数 $f^{(0)}:=f$。然后递归地定义函数的高阶可微性,设 $n\in\mathbb N$

    fn 阶可微的。若 x_0\in XX 的聚点且 f^{(n)}x_0 处可微,那么称 fx_0n+1 阶可微,且记其在 x_0 处的 n+1 阶导数为 $f^{(n+1)}(x_0):=(f^{(n)})'(x_0)$。若 f 在任意 x_0\in Xn+1 阶可微,那么称 fn+1 阶可微的,f^{(n+1)} 记为其 n+1 阶导函数。

    定义 $\mathscr C^n(X):={f\in \mathbb R^X:f\text{ 是 }n\text{ 阶可微的且 }f^{(n)}\text{ 是连续函数}}$$\mathscr C^{\infty}(X):=\bigcap\limits_{n\in\mathbb N}\mathscr C^n(X)$。

  • 引理 10.6.2(函数加乘的高阶导数算律):设 $X\subseteq\mathbb R$x_0\in XX 的聚点,$n\in\mathbb N$f,g:X\to\mathbb R 是在 x_0n 阶可微的函数。那么:

    1. f+gx_0n 阶可微且 $(f+g)^{(n)}(x_0)=f^{(n)}(x_0)+g^{(n)}(x_0)$。
    2. kfx_0n 阶可微且 $(kf)^{(n)}(x_0)=kf^{(n)}(x_0)$。
    3. fgx_0n 阶可微且 $(fg)^{(n)}(x_0)=\sum\limits_{i=0}^n\binom ni f^{(i)}(x_0)g^{(n-i)}(x_0)$。

    证明:对 n 归纳即可。直观的看法是1,2 的原因是求导是线性变换(这是因为微分是函数的线性近似,那么对函数做线性组合,它们对应的微分也应做对应的线性组合),而线性变换的复合仍然是线性变换。而对于 3函数乘起来求导可以看作是选一个求导再加起来那么 n 次求导就可以看作是选 n 次、选完之后再将所有的结果加起来(这也依赖于求导的线性性)。

  • 引理 10.6.3(复合函数的高阶导数算律):设 $X,Y\subseteq \mathbb R$x_0\in X 且是 X 的聚点,$n\in\mathbb N$f:X\to Y 是在 x_0n 阶可微的函数,y_0:=f(x_0)\in YY 的聚点,g:Y\to \mathbb R 是在 y_0n 阶可微的函数。

    那么函数 g\circ f:X\to \mathbb Rx_0n 阶可微,且是关于 f'(x_0),f''(x_0),\cdots,f^{(n)}(x_0),(g'\circ f)(x_0),(g''\circ f)(x_0),\cdots,(g^{(n)}\circ f)(x_0) 的多项式。进一步地:

    
    (g\circ f)^{(n)}(x_0)=\left.\sum_{1 m_1+2m_2+\cdots+nm_n=n}\frac{\binom{n}{\underbrace{1,\cdots,1}_{m_1\text{个}},\underbrace{2,\cdots,2}_{m_2\text{个}},\cdots,\underbrace{n,\cdots,n}_{m_n\text{个}}}}{m_1!\cdots m_n!}(g^{(m_1+\cdots+m_n)}\circ f)\cdot (f')^{m_1}\cdot (f'')^{m_2}\cdots (f^{(n)})^{m_n}\right|_{x_0}
    

    证明:对 n 归纳。假设命题关于 n 成立,$(g\circ f)^{(n+1)}(x_0)=((g'\circ f)\cdot f')^{(n)}(x_0)$,由于 g',fx_0n 阶可微,所以 (g'\circ f)x_0n 阶可微,而 f' 也在 x_0n 阶可微,于是根据引理 10.6.2.3(g'\circ f)\cdot f' 也在 x_0n 阶可微,从而 g\circ fx_0n+1 阶可微。

    而那个式子实际上就是一个组合问题:每次为形如 (g^{(m_1+\cdots+m_n)}\circ f)\cdot (f')^{m_1}\cdot (f'')^{m_2}\cdots (f^{(n)})^{m_n} 的每一项求导,那要么在后面的 m_1+\cdots+m_n 个形如 f^{(i)} 的可区分的函数中选一个出来求一次导变成 $f^{(i+1)}$,要么为第一项 g^{(m_1+\cdots+m_n)}\circ f 求导,变成 g^{(m_1+\cdots+m_n+1)}\circ f 再往后多添一个 $f'$。所以枚举最后乘积中的函数构成:m_1 个 $f'$、m_2 个 $f''$、……、m_n 个 $f^{(n)}$,对应的在最前面乘着的就应该是 $g^{(m_1+\cdots+m_n)}\circ f$,因为每多添一项 g 的导数就多一阶。然后为后面的每个 f^{(i)} 分配是 n 次操作中的哪 i 次操作让它依次变成 $f',f'',\cdots,f^{(i)}$,但是对于每个 $i$,这 m_if^{(i)} 在出现时不应被加以区分(或者说它们出现时是被 g^{(\cdots)}\circ f 求导创造出来的,而不是从一堆 f^{(0)} 中选一个求导得到的),所以最后要除以 $m_i!$。

作为引理 10.6.3 的推论,$(g(ax+b))^{(n)}=g^{(n)}(ax+b)a^n$,这是因为 ax+b 求两次导就变成 0 了。

  • 引理 10.6.4(函数相除的高阶导数算律):设 $X\subseteq\mathbb R$x_0\in XX 的聚点,$n\in\mathbb N$f,g:X\to\mathbb R 是在 x_0n 阶可微的函数,$g(x_0)\neq 0$。那么 \frac fgx_0n 阶可微。

    证明:记 $h(y):=\frac 1y$,那么 $\frac fg=f\cdot (h\circ g)$,而 h 任意阶可微(归纳并利用多项式的微分),所以 \frac fgx_0n 阶可微。

  • 引理 10.6.5(反函数的高阶导数算律):设 $X,Y\subseteq \mathbb R$x_0\in XX 的聚点,$n\in\mathbb N$f:X\to Y 是双射,$y_0=f(x_0)$。若 fx_0n 阶可微且 $f'(x_0)\neq 0$f^{-1}y_0 处连续,那么 f^{-1}y_0n 阶可微。

    证明:对 n 归纳。假设命题关于 n 成立,$(f^{-1})^{(n+1)}(y_0)=(\frac{1}{f'\circ f^{-1}})^{(n)}(y_0)$,由于 f',f^{-1} 分别在 x_0,y_0n 阶可微且 $(f'\circ f^{-1})(y_0)=f'(x_0)\neq 0$,故 \frac{1}{f\circ f^{-1}}y_0n 阶可微,从而 f^{-1}y_0n+1 阶可微。

高阶导数的一个直接应用是判断极值。

  • 定理 10.6.6:设 $X\subseteq \mathbb R$x_0\in XX 的聚点,n\geq 2 是正整数,f:X\to\mathbb R 是在 x_0n 阶可微的函数,且 $f'(x_0)=\cdots=f^{(n-1)}(x_0)=0,f^{(n)}(x_0)>0$。

    n 是偶数,则 x_0f 的严格极小值点;若 n 是奇数,则 fx_0 附近严格单调增。

    证明n 阶导数 $>0$,说明 n-1 阶导函数在 x_0 附近左侧为负、右侧为正,说明 n-2 阶导数在 x_0 处是严格极小值点(从而左右侧附近都为正),说明 n-3 阶导数在 x_0 附近严格单调增(从而附近左侧为负、右侧为正),陷入循环。

对于 f^{(n)}(x_0)<0 的情况,也有类似的结论。

10.7 凸函数

  • 定义 10.7.1(凸函数):设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是函数。称 f 是下凸的,当且仅当对任意 x_1,x_2\in I \land x_1\neq x_20<t<1 有 $f((1-t)x_1+tx_2)\leq(1-t)f(x_1)+tf(x_2)$。若不等式中的 \leq 从不取等,那么称 f 是严格下凸的。

    f 是(严格)上凸的,当且仅当 -f 是(严格)下凸的。

$(1-t)A+tB=A+(B-A)t$,于是 t01 实际上是从 A 匀速地走到 $B$。于是下凸函数就有一个很直观的理解:连接函数图象上任意两点形成一条线段,那么函数在这两点间的图像都应在这条线段下方。换言之,在下凸函数图像上任取三点形成一个三角形,那么三角形一定是尖点向下的。

  • 引理 10.7.2:设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是下凸函数,x_1,x_2,x_3\in I 且 $x_1<x_2<x_3$。对任意 a,b\in I\land a\neq b 定义 k(a,b):\frac{f(a)-f(b)}{a-b} 为这两点的斜率(显然不可能为 $\infty$)。那么 $k(x_1,x_2)\leq k(x_1,x_3)\leq k(x_2,x_3)$。若 f 是严格下凸的,那么等号永远取不到。

    证明:只证明 $k(x_1,x_2)\leq k(x_1,x_3)$,另一侧类似。记 $t=\frac{x_2-x_1}{x_3-x_1}$,那么 $(1-t)x_1+tx_3=x_2$。

    
    k(x_1,x_2)=\frac{f(x_2)-f(x_1)}{x_2-x_1}\leq \frac{\bigg(f(x_1)+t(f(x_3)-f(x_1))\bigg)-f(x_1)}{x_2-x_1}=\frac{f(x_3)-f(x_1)}{x_3-x_1}=k(x_1,x_3)
    

可微的凸函数与其导数有很密切的关系。

  • 定理 10.7.3(凸函数与其一阶导函数):设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是可微函数。那么 f 是(严格)下凸函数,当且仅当 f' 是(严格)单调增的。

    证明:若 f 是下凸函数。设 $x_1,x_2\in I \land x_1<x_2$。那么当 x_3\in (x_1,x_2) 时,$k(x_1,x_3)\leq k(x_1,x_2)$,从而 $f'(x_1)=\lim\limits_{x_3\to x_1}k(x_1,x_3)=\lim\limits_{x_3\to x_1^+}k(x_1,x_3)\leq k(x_1,x_2)$。同理可证明 $f'(x_2)\geq k(x_1,x_2)$。那么 $f'(x_1)\leq f'(x_2)$。

    f' 是单调增的,若 f 不是下凸的,即存在 x_1,x_2\in I\land x_1<x_20<t<1 使得 $f((1-t)x_1+tx_2)>(1-t)f(x_1)+tf(x_2)$,记 $x_3=(1-t)x_1+tx_2$,类似引理 10.7.2 的证明,可以证明 $k(x_1,x_3)>k(x_1,x_2)>k(x_3,x_2)$,根据拉格朗日中值定理,存在 a\in (x_1,x_3),b\in (x_3,x_2) 使得 $f'(a)=k(x_1,x_3)>k(x_3,x_2)=f'(b)$,与 f' 单调增矛盾。

    严格下凸推严格单调增时,由于极限的非严格保序,所以需要在 (x_1,x_2) 间随便多找一个中间点严格地把 f'(x_1),f'(x_2) 隔开。而严格单调增推严格下凸是类似的。

  • 推论 10.7.4(凸函数与其二阶导函数):设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R2 阶可微函数。那么 f 是下凸函数当且仅当 f'' 是恒非负的。若 f'' 是恒正的,那么 f 是严格下凸函数。

注意 f' 严格单调增并不能推出 f'' 恒正,从而 f 严格下凸并不能推出 f'' 恒正。例如 x^4 是严格下凸函数,其导函数 4x^3 是严格单调增的,但其 2 阶导函数 12x^2 就不是恒正的。

  • 定义 10.7.5(单侧的可微性):设 $X\subseteq \mathbb R$$x_0\in X$f:X\to\mathbb R 是函数。

    x_0X\cap(-\infty,x_0) 的附着点,称 fx_0 处左侧可微且具有左导数 $L$,记作 $f'_-(x_0):=L$,当且仅当 \lim\limits_{x\to x_0^-}\dfrac{f(x)-f(x_0)}{x-x_0} 收敛到 $L$。

    x_0X\cap(x_0,+\infty) 的附着点,称 fx_0 处右侧可微且具有右导数 $L$,记作 $f'_+(x_0):=L$,当且仅当 \lim\limits_{x\to x_0^+}\dfrac{f(x)-f(x_0)}{x-x_0} 收敛到 $L$。

  • 引理 10.7.6:设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是(严格)下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$。那么 f\overgroup I 上每点左侧可微且右侧可微,f'_-(x_0)\leq f'_+(x_0) 对任意 x_0\in \overgroup I 成立,且 f'_-,f'_+ 均(严格)单调增。

    证明:设 $x_0\in \overgroup I$,对任意 $x_1,x_2\in I\land x_1<x_2<x_0$,由引理 10.7.2 可知 $k(x_1,x_0)\leq k(x_2,x_0)$,故 k(x,x_0) 关于 xx_0 左侧是单调增的。同时,在 x_0 右侧任取一点 $x'$,那么对于 x_0 左侧的任意 x 有 $k(x,x_0)\leq k(x',x_0)$,从而 k(x,x_0) 关于 xx_0 左侧有上界,那么 f'_-(x_0) 存在。同理可证明 f_+'(x_0) 存在,且易见 $f_-'(x_0)\leq f_+'(x_0)$,然后利用这个再类似引理 10.7.3 证明 f_-',f_+' (严格)单调增即可。

  • 推论 10.7.7:设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$。那么 f\overgroup I 上连续。

    证明f\overgroup I 上每一点左侧可微且右侧可微,从而在这一点左连续且右连续,从而在这一点连续。

注意上述结论只适用于 \overgroup I 而非 I 的范围内。一个反例是定义在 [0,1] 上的函数 f(x):=\begin{cases}\sqrt x&x>0\\-1&x=0\end{cases} 是上凸函数,但在 0 处右侧不可微,且在 0 处也不连续。

  • 引理 10.7.8:设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$$x_0\in \overgroup I$。若 f'_-x_0 处连续,那么 fx_0 处可微。

    证明:对任意 x\in I 且 $x>x_0$,我们知道 $k(x_0,x)\leq f'-(x)$,而 $\lim\limits{x\to x_0^+}f_-'(x)=f_-'(x_0)$,那么 $f'+(x_0)=\lim\limits{x\to x_0^+}k(x_0,x)\leq f'-(x_0)$,于是 $f'+(x_0)=f'_-(x_0)$fx_0 处可微。

  • 推论 10.7.9:设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是下凸函数,那么 f 在至多可数个位置不可微。

    证明f_-'\overgroup I 上是单调函数,故 f_-' 的间断点只有可数多个,从而 f\overgroup I 上只有至多可数个位置不可微,即 fI 上也只有至多可数个位置不可微。

凸函数的最值可以借助其导数判断。

  • 引理 10.7.10:设 I\subseteq\mathbb R 是区间,f:I\to\mathbb R 是下凸函数,$\overgroup{I}=I\setminus{\inf I,\sup I}$$S:={x\in\overgroup I:f'_-(x)\leq 0}$。若 S 非空且 $\sup S\neq \sup I$,那么 S 有最大值且 $\max S=\max{x\in I:x\text{ 是 }f\text{ 的最小值点}}$。

    证明:记 $x_0:=\sup S$,那么对任意 x\in \overgroup I\land x<x_0 有 $f'-(x)\leq 0$。对任意 $x,y\in I\land x<y<x_0$,若 $f(x)<f(y)$,由于 $f'-(y)\leq 0$,所以存在 x<z<y 使得 $f(z)\geq f(y)$,容易发现这与凸性矛盾。所以 fI\cap (-\infty,x_0) 上单调减。

    容易证明 $x_0\in\overgroup I$,从而 f_-'x_0 处有定义且 fx_0 处连续,又 fx_0 左侧单调减,故 $f(x_0)=\inf{f(x):x\in I\cap(-\infty,x_0)}$,从而 f'_-(x_0)\leq 0 那么 x_0\in S 且是 S 的最大值。

    对任意 $x\in \overgroup I\land x_0<x$$f'+(x)\geq f'-(x)>0$,那么可以类似地证明 fI\cap (x_0,+\infty) 上严格单调增,从而 x_0f 的最小值点,且 x_0 右侧不再有任何 f 的最小值点。

注意到引理 10.7.10 中证明 fx_0 左侧单调减时用到了 f 的凸性,但实际上也可以把条件约束变得更强。

  • f 是区间上的连续函数,f 在定义域上任意处左侧可微且左导数恒小于等于 $0$,那么 f 是单调减的。

该命题不需要用到 f 的凸性,但仍然是正确的。读者可以尝试自证。

  • 定理 10.7.11(凸函数在其任意一条切线之上):设 I\subseteq\mathbb R 是区间,$x_0\in I$f:I\to\mathbb R 是下凸函数,fx_0 处左侧可微。那么对于任意 $x\in I$$f(x)\geq f(x_0)+f'_-(x_0)(x-x_0)$。

    证明:定义 g:I\to\mathbb R 满足 $g(x):=f(x)-(f(x_0)+f'-(x_0)(x-x_0))$。由于 g 是凸函数减一次函数,求导后就是导函数再减去一个常数,从而单调性保持,那么 g 仍然是凸函数。而 $g'-(x_0)=f'-(x_0)-f'-(x_0)=0$,那么 g(x_0)=0g 的最小值。

在推论 10.7.7 中,我们说了 f\overgroup I 上是连续的。接下来我们说明,闭区间上的凸函数在端点处有极限,从而它几乎是连续的(只需把端点处的值修正)。

  • 引理 10.7.12:设 $a,b\in\mathbb R\land a<b$f:[a,b]\to\mathbb R 是下凸函数。那么 fa 处有极限且其不超过 $f(a)$。

    证明:我们先证明 fa 附近是有界的:任取 $a<c<b$,对任意 $x\in(a,c)$,一方面,根据 f 的凸性,有 $f(x)\leq \max{f(a),f(c)}$;一方面,根据引理 10.7.11$f(x)\geq f(c)+f'-(c)(x-c)\geq \min{f(c)+f'-(c)(a-c),f(c)+f'_-(c)(c-c)}$。

    然后再证明 fa 附近是单调的:设 $L=\inf{f'_-(x):x\in (a,b)}$,若 $L<0$,那么存在 a 的右去心邻域 V 使得 f'_-V 内都为负;若 $L\geq 0$,那么 f_-' 恒非负,从而 f_+' 恒非负。再类似引理 10.7.10 中的证明,即可证明存在 a 的某个右去心邻域 $V$,使得 fV 内单调。

    最后根据单调有界收敛性质,可知 fa 处有极限 $L$。

    若 $f(a)<L$,任取 $0<\varepsilon<L-f(a)$,任取 $a<c<b$,那么 f 图像应当在 a,c 两点线段下方,这与 fa 附近任意足够近处都能将函数值控制在 >L-\varepsilon 的范围内矛盾。

牛顿迭代法适用在凸函数上。

  • 定理 10.7.13(牛顿迭代法):设 $a,b\in\mathbb R\land a<b$f:[a,b]\to\mathbb R 是连续的凸函数,$f(a)<0<f(b)$f(a,b) 上可微且导数恒正。那么对于任意 x_0\in(a,b) 且 $f(x_0)>0$,存在序列 (x_n)_{n=0}^{\infty} 满足 x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)} 对任意 n 成立,且该序列收敛到 f 的唯一零点。

    证明:归纳地假设 x_n \in(a,b) 且 $f(x_n)\geq 0$。x_{n+1}fx_n 处的切线与 x 轴的交点,由于导数为正,所以 $x_{n+1}\leq x_n$。同时 $x_{n+1}>a$,否则根据函数图像在该切线上方说明函数图像整体在 x 轴上方,矛盾。于是 $x_{n+1}\in(a,b)$,而 f(x_{n+1})\geq 0 是由函数图像在切线上方得到的。

    从而 (x_n)_{n=0}^{\infty} 单调有界收敛,设极限为 $x^$。易证 x^*\in(a,b) 且 $f(x^)\geq 0$。

    由于 f'(a,b) 上是单调的,而根据推论 10.2.11 可知 f' 不存在第一类间断点,而开区间上的单调函数本身不应该存在第二类间断点,从而 f'(a,b) 上连续,那么 x-\frac{f(x)}{f'(x)} 也在 (a,b) 上有定义且连续,从而:

    
    x^*-\frac{f(x^*)}{f'(x^*)}=\lim_{n\to+\infty}x_n-\frac{f(x_n)}{f'(x_n)}=\lim_{n\to+\infty}x_{n+1}=x^*
    

    这蕴含 $f(x^*)=0$。

最后,我们推广凸函数的定义。

  • 定义 10.7.14(凸集):设 n 是正整数,$C\subseteq\mathbb R^n$,称 C 是凸集,当且仅当对任意 x_1,x_2\in C 和 $t\in(0,1)$,有 $(1-t)x_1+tx_2\in C$。

凸集的几何直观解释是:凸集中任意两点为端点的线段也在 C 中。\mathbb R 中的凸集就是区间。

  • 定义 10.7.15(凸函数):设 n 是正整数,C\subseteq\mathbb R^n 是凸集,f:C\to\mathbb R 是函数。称 f 是下凸的,当且仅当对任意 x_1,x_2\in C 和 $t\in(0,1)$,有 $f((1-t)x_1+tx_2)\leq(1-t)f(x_1)+tf(x_2)$。称 f 是上凸的,当且仅当 -f 是下凸的。

那么定义 10.7.1 与上述定义是相容的。

  • 引理 10.7.16:设 n 是正整数,C\subseteq\mathbb R^n 是凸集,f:C\to\mathbb R 是函数。那么 f 是下凸的,当且仅当 \{(x,y):x\in C,y\in \mathbb R,y\geq f(x)\} 是凸集。

引理 10.7.16 中所述的集合有时被称为 f 的 “上镜图”。