大音希声，大象无形；胜者无迹，故无可乘。

总结

好像推了个简单的定理出来, 姑且叫 沉默稳定定理 吧.

Theorem

在可伪造、非承诺、利益冲突的消耗战中，若信号本身有成本，解读信号也有成本，则唯一严格稳定且不可剥削的信号结构是：

$(a^{*}, b^{*}) = (不发信号, 不解读信号)$

对任意其它策略：

$(a, b) \neq = (a^{*}, b^{*})$

都有：

$(a, b) 可剥削 \lor (a, b) 不稳定$

信号若有用, 就会被伪造;
信号若无用, 就没人发出;
没人发信号, 解读机制就只剩成本;
所以稳定状态只能是沉默.

1. 基本对象

1.1 信号空间

令：

M

表示所有非空信号。

例如：

M = {竖毛, 抖胡须, 叫声, \dots}

加入一个特殊符号：

\emptyset

表示“不发信号”。

完整信号空间为：

M_{0} = M \cup {\emptyset}

1.2 行动空间

令：

X

表示真实行动空间。

在消耗战里，可以理解为：

x = 准备坚持的时间

或者更一般地， $x$ 是真实的对抗行动。

1.3 底层收益函数

令：

u : X \times X \to R

表示真实行动带来的收益。

如果自己采取行动 $x$ ，对方采取行动 $y$ ，自己的底层收益为：

u (x, y)

这里的 $u$ 可以包含全部交叉影响，例如：

谁坚持更久；
谁获得资源；
谁付出时间成本；
双方行动组合带来的收益差异。

我们不把这些影响拆成几个简单相加的项。

2. 无信号基准行为

设无信号消耗战中的基准稳定行动分布为：

q^{*} \in Δ (X)

当没有任何信号时，个体按照 $q^{*}$ 行动。

定义：

V_{0} = E_{x \sim q^{*}} E_{y \sim q^{*}} [u (x, y)]

这是无信号基准收益。

我们需要一个底层稳定假设：

E_{x \sim q} E_{y \sim q^{*}} [u (x, y)] \leq E_{x \sim q^{*}} E_{y \sim q^{*}} [u (x, y)] = V_{0}

对任意：

q \in Δ (X)

成立。

也就是：

q^{*}

在无信号消耗战中不可被单方行动偏离剥削。

如果要得到严格稳定，则再假设：

q \neq = q^{*} \Rightarrow E_{x \sim q} E_{y \sim q^{*}} [u (x, y)] < V_{0}

这表示 $q^{*}$ 是底层严格稳定行为。

道金斯那段“退却时间不能被预估”的意思，正是在说明消耗战里稳定行为不是固定行动，而是某种不可预知的随机行动。任何提前暴露未来行为的迹象都会被利用。

3. 策略

一个完整策略写作：

s = (a, b)

其中 $a$ 是发信号规则， $b$ 是行动规则。

3.1 发信号规则

在这个简化模型里，发信号规则就是一个分布：

a \in Δ (M_{0})

玩家按：

m \sim a

发出信号。

特殊规则：

a^{*} = δ_{\emptyset}

即：

a^{*} (\emptyset) = 1

所以：

a^{*} = 永远不发信号

3.2 行动 / 解读规则

行动规则写成：

b : M_{0} \times M_{0} \to Δ (X)

其中：

b (m, n)

表示：

自己发出了 $m$ ，观察到对方发出了 $n$ ，然后采取的行动分布。

这里第一项 $m$ 是自己的信号，第二项 $n$ 是对方的信号。

这样可以表达信号和后续行动的绑定。

例如：

b (h, n) = 高坚持时间分布

表示发出 $h$ 之后真的死磕。

而：

b (h, n) = 低坚持时间分布

表示发出 $h$ 之后其实不死磕。

3.3 无信号归一化

为了让模型只研究“信号层”，我们规定：

b (\emptyset, \emptyset) = q^{*}

意思是：

如果双方都没有发信号，那么行动回到无信号基准行为。

否则，某个策略可以通过 $b (\emptyset, \emptyset) \neq = q^{*}$ 改变底层行动，这就不是信号问题了，而是在换一个消耗战策略。

3.4 不解读信号规则

定义：

b^{*} (m, n) = q^{*}, \forall m, n \in M_{0}

也就是：

b^{*} = 无论自己发了什么、对方发了什么，都执行无信号基准行为

扑克脸策略为：

s^{*} = (a^{*}, b^{*})

即：

s^{*} = 不发信号，也不解读信号

4. 成本

4.1 信号成本

定义信号成本：

c : M_{0} \to R_{\geq 0}

满足：

c (\emptyset) = 0

并且：

c (m) > 0, \forall m \in M

发信号分布 $a$ 的期望成本为：

C (a) = E_{m \sim a} [c (m)]

所以：

C (a^{*}) = 0

若：

a \neq = a^{*}

则：

C (a) > 0

4.2 规则成本

定义行动 / 解读规则成本：

d : B \to R_{\geq 0}

满足：

d (b^{*}) = 0

并且：

d (b) > 0, \forall b \neq = b^{*}

这里 $d (b)$ 可以理解为：

维护信号—行动对应关系的成本；
认知成本；
误判风险；
策略复杂度成本。

如果不接受这条假设，那么可以得到弱稳定，但不能得到唯一严格稳定。

5. 总期望收益

设玩家 1 使用：

s = (a, b)

玩家 2 使用：

t = (α, β)

过程如下：

玩家 1 发出：

m \sim a

玩家 2 发出：

n \sim α

玩家 1 行动：

x \sim b (m, n)

玩家 2 行动：

y \sim β (n, m)

注意玩家 2 的行动规则写作 $β (n, m)$ ，因为对玩家 2 来说， $n$ 是自己的信号， $m$ 是对方的信号。

于是玩家 1 的期望收益定义为：

U ((a, b), (α, β)) = E_{m \sim a} E_{n \sim α} E_{x \sim b (m, n)} E_{y \sim β (n, m)} [u (x, y) - c (m)] - d (b)

这个式子没有把收益强行拆成“发送影响 + 解读影响”。

所有交叉影响都留在：

u (x, y)

里面。

6. 稳定、不可剥削、可剥削

6.1 严格稳定

策略 $s$ 称为严格稳定，如果对任意：

t \neq = s

都有：

U (s, s) > U (t, s)

意思是：

当种群全都使用 $s$ 时，任何突变策略 $t$ 都不能入侵。

如果存在：

t \neq = s

使得：

U (t, s) \geq U (s, s)

则称 $s$ 不稳定。

6.2 不可剥削

策略 $s$ 称为不可剥削，如果对任意策略 $t$ ，都有：

U (t, s) \leq U (s, s)

意思是：

没有任何外部策略能在面对 $s$ 时获得高于 $s$ 自身的收益。

严格稳定蕴含不可剥削。

6.3 信号可剥削

策略 $s$ 称为信号可剥削，如果存在某个发信号分布 $\tilde{a}$ 和某个行动规则 $β$ ，使得：

U ((\tilde{a}, β), s) > U ((a^{*}, β), s)

意思是：

面对 $s$ ，某个突变者在保持同一套信号—行动规则 $β$ 的前提下，选择发出信号，比选择沉默更有利。

这正好表达“你的信号系统给了对方一个可利用入口”。

若对任意：

\tilde{a}, β

都有：

U ((\tilde{a}, β), s) \leq U ((a^{*}, β), s)

则称 $s$ 信号不可剥削。

7. 定理

在上述模型与假设下：

s^{*} = (a^{*}, b^{*})

严格稳定，且不可剥削。

并且，对任意：

s = (a, b) \neq = s^{*}

都有：

s 信号可剥削

或者：

s 不稳定

即：

\forall s \neq = s^{*}, s 信号可剥削 \lor s 不稳定

8. 证明第一部分： $s^{} = (a^{}, b^{*})$ 稳定且不可剥削

先计算：

U (s^{*}, s^{*})

双方都使用：

a^{*} = δ_{\emptyset}

所以：

m = n = \emptyset

双方都使用：

b^{*} (m, n) = q^{*}

所以：

x \sim q^{*}

y \sim q^{*}

且：

c (\emptyset) = 0

d (b^{*}) = 0

因此：

U (s^{*}, s^{*}) = E_{x \sim q^{*}} E_{y \sim q^{*}} [u (x, y)] = V_{0}

现在取任意突变策略：

t = (a, b)

计算：

U (t, s^{*}) = U ((a, b), (a^{*}, b^{*}))

因为对方使用 $a^{*}$ ，所以：

n = \emptyset

因为对方使用 $b^{*}$ ，所以无论自己发出什么 $m$ ，对方行动都是：

y \sim q^{*}

突变者自己的行动分布由：

m \sim a, x \sim b (m, \emptyset)

共同决定。

把突变者面对无信号对手时诱导出的行动分布记为：

q_{a, b} = m \in M_{0} \sum a (m) b (m, \emptyset)

这是一个 $X$ 上的分布。

于是：

U (t, s^{*}) = E_{x \sim q_{a, b}} E_{y \sim q^{*}} [u (x, y)] - C (a) - d (b)

由底层稳定假设：

E_{x \sim q_{a, b}} E_{y \sim q^{*}} [u (x, y)] \leq V_{0}

所以：

U (t, s^{*}) \leq V_{0} - C (a) - d (b) \leq V_{0}

而：

U (s^{*}, s^{*}) = V_{0}

因此：

U (t, s^{*}) \leq U (s^{*}, s^{*})

所以：

s^{*} 不可剥削

若：

t \neq = s^{*}

则至少有：

a \neq = a^{*}

或：

b \neq = b^{*}

如果 $a \neq = a^{*}$ ，则：

C (a) > 0

如果 $b \neq = b^{*}$ ，则：

d (b) > 0

因此：

C (a) + d (b) > 0

再结合底层稳定假设，得到：

U (t, s^{*}) < V_{0} = U (s^{*}, s^{*})

所以：

s^{*} 严格稳定

第一部分证毕。

9. 证明第二部分：其它策略要么可剥削，要么不稳定

取任意：

s = (a, b) \neq = s^{*}

分两种情况。

情况一： $s$ 信号可剥削

如果存在：

\tilde{a}, β

使得：

U ((\tilde{a}, β), s) > U ((a^{*}, β), s)

那么按照定义：

s 信号可剥削

结论成立。

情况二： $s$ 信号不可剥削

现在假设 $s$ 信号不可剥削。

即：

\forall \tilde{a}, β, U ((\tilde{a}, β), s) \leq U ((a^{*}, β), s)

因为：

s \neq = s^{*}

所以分两种可能。

情况二 A： $a \neq = a^{*}$

考虑突变策略：

\overset{s}{ˉ} = (a^{*}, b)

它和 $s = (a, b)$ 使用同一个行动规则 $b$ ，但不发信号。

由信号不可剥削定义，对任意 $\tilde{a}, β$ 有：

U ((\tilde{a}, β), s) \leq U ((a^{*}, β), s)

令：

\tilde{a} = a

β = b

得到：

U ((a, b), s) \leq U ((a^{*}, b), s)

也就是：

U (s, s) \leq U (\overset{s}{ˉ}, s)

且：

\overset{s}{ˉ} \neq = s

因为：

a \neq = a^{*}

于是存在突变体 $\overset{s}{ˉ} \neq = s$ ，使得：

U (\overset{s}{ˉ}, s) \geq U (s, s)

这违反严格稳定定义。

所以：

s 不不稳定

直觉是：

如果面对 $s$ ，任何发信号都不比沉默更好，那么一个“不发信号但保留同样行动规则”的突变体至少不差。

情况二 B： $a = a^{}$ ，但 $b \neq = b^{}$

此时：

s = (a^{*}, b)

也就是：自己不发信号，但保留一个非平凡行动 / 解读规则。

因为双方都不发信号，所以：

m = n = \emptyset

根据无信号归一化：

b (\emptyset, \emptyset) = q^{*}

所以：

x \sim q^{*}

y \sim q^{*}

因此：

U (s, s) = V_{0} - d (b)

由于：

b \neq = b^{*}

所以：

d (b) > 0

于是：

U (s, s) < V_{0}

现在考虑扑克脸突变体：

s^{*} = (a^{*}, b^{*})

它面对 $s$ 时，双方仍然都不发信号：

m = n = \emptyset

双方行动仍为：

q^{*}

但扑克脸没有规则成本：

d (b^{*}) = 0

所以：

U (s^{*}, s) = V_{0}

于是：

U (s^{*}, s) = V_{0} > V_{0} - d (b) = U (s, s)

因此：

s 不稳定

第二部分证毕。

10. 结论

在这个更适合表达“诚实 / 说谎”的模型里：

x \sim b (m, n)

即行动同时依赖于自己的信号和对方信号。

这时仍然可以证明：

s^{*} = (a^{*}, b^{*}) 严格稳定且不可剥削

并且：

\forall s \neq = s^{*}, s 信号可剥削或不稳定

其中：

a^{*} = δ_{\emptyset}

表示：

永远不发信号

b^{*} (m, n) = q^{*}

表示：

不管自己发了什么，也不管对方发了什么，都不根据信号改变行动

11. 这个模型如何表达“诚实 / 说谎”

设：

h \in M

表示“竖毛”。

设：

X_{H} \subseteq X

表示“死磕行动”，例如坚持时间超过某个阈值。

那么：

诚实竖毛

b (h, n) (X_{H}) \approx 1

表示：

一旦自己发出 $h$ ，之后确实采取死磕行动。

此时 $h$ 是诚实信号。

虚假竖毛

b (h, n) (X_{H}) \approx 0

表示：

自己发出 $h$ ，但之后并不真的死磕。

此时 $h$ 是虚假信号。

不动声色

a = a^{*}

表示：

根本不发 $h$ ，也不发任何其它信号。

并且：

b = b^{*}

表示：

即使看到别人发 $h$ ，也不改变自己的行动。

所以，你这个改法是成立的。

它比上一版更好的一点是：

b (m, n)

可以直接把“自己发了什么”和“自己之后做什么”绑定起来。

这样“诚实”不再依赖外生状态 $Θ$ ，而是变成一个内生关系：

信号 m 与 后续行动 x 是否一致

最后的证明结构仍然不变：

信号若有利，就可被利用；

信号若无利，发信号者会被沉默者替代；

不发信号却保留解读规则，则规则闲置且有成本；

∴ (a^{*}, b^{*})

稳定且不可剥削。

每个时刻随机有一定的退让概率.

About the Tao

Explorer

沉默稳定定理

总结

1. 基本对象

1.1 信号空间

1.2 行动空间

1.3 底层收益函数

2. 无信号基准行为

3. 策略

3.1 发信号规则

3.2 行动 / 解读规则

3.3 无信号归一化

3.4 不解读信号规则

4. 成本

4.1 信号成本

4.2 规则成本

5. 总期望收益

6. 稳定、不可剥削、可剥削

6.1 严格稳定

6.2 不可剥削

6.3 信号可剥削

7. 定理

8. 证明第一部分： $s^{} = (a^{}, b^{*})$ 稳定且不可剥削

9. 证明第二部分：其它策略要么可剥削，要么不稳定

情况一： $s$ 信号可剥削

情况二： $s$ 信号不可剥削

情况二 A： $a \neq = a^{*}$

情况二 B： $a = a^{}$ ，但 $b \neq = b^{}$

10. 结论

11. 这个模型如何表达“诚实 / 说谎”

诚实竖毛

虚假竖毛

不动声色

Table of Contents

Graph View

Backlinks

About the Tao

Explorer

沉默稳定定理

总结

1. 基本对象

1.1 信号空间

1.2 行动空间

1.3 底层收益函数

2. 无信号基准行为

3. 策略

3.1 发信号规则

3.2 行动 / 解读规则

3.3 无信号归一化

3.4 不解读信号规则

4. 成本

4.1 信号成本

4.2 规则成本

5. 总期望收益

6. 稳定、不可剥削、可剥削

6.1 严格稳定

6.2 不可剥削

6.3 信号可剥削

7. 定理

8. 证明第一部分：s∗=(a∗,b∗) 稳定且不可剥削

9. 证明第二部分：其它策略要么可剥削，要么不稳定

情况一：s 信号可剥削

情况二：s 信号不可剥削

情况二 A：a=a∗

情况二 B：a=a∗，但 b=b∗

10. 结论

11. 这个模型如何表达“诚实 / 说谎”

诚实竖毛

虚假竖毛

不动声色

Table of Contents

Graph View

Backlinks

8. 证明第一部分： $s^{} = (a^{}, b^{*})$ 稳定且不可剥削

情况一： $s$ 信号可剥削

情况二： $s$ 信号不可剥削

情况二 A： $a \neq = a^{*}$

情况二 B： $a = a^{}$ ，但 $b \neq = b^{}$