历史

第八章 概率(1/2)

    在这一章,我将只讨论事件的概率以及它引起的问题。这些问题的产生同博奕论和物理学的概率定律有关。我将什么可称之为假说的概率问题——例如一个经常受到检验的假说是否比一个很少受到检验的假说更可几等问题——留到第79至85节在“验证”题目下进行讨论。

    与概率论有关的观念在现代物理学中起着决定性的作用。然而我们仍然缺乏一个满意的、前后一致的概率定义;也就是说,我们仍然缺乏一个满意的概率计算的公理系统。概率和经验之间的关系也仍然需要澄清。在研究这个问题时,我们将发现对我的方法论观点几乎不能克服的反对意见最初是什么。因为虽然概率陈述在经验科学中起着如此重要的作用,可是结果它们却在原则上不受严格证伪的影响。然而,这块绊脚石将成为检验我的理论,以便查明它有什么价值的试金石。

    因此我们面临两项任务。第一项任务是为概率计算提供新的基础。我将试图通过把概率论发展为频率理论做到这一点,沿着Richard

    von Mises所遵循的路线,但不用他称之为的“收敛公理”(或“极限公理”),而使用有点削弱了的“随机公理”。第二项任务是阐明概率和经验之间的关系。这是指解决我所说的概率陈述的可判定性问题。

    我希望这些研究将有助于减轻目前的不满意的情况,物理学家在这种情况下大量使用概率,而未能前后一致地说明他们所说的“概率”是什么。

    47.概率陈述的解释问题

    我将从区别两类概率陈述开始:相数字表示某一概率的陈述——我称之为数值概率陈述——以及不用数字表示的概率陈述。

    例如,“用两颗骰子掷11的概率为1/18”,这种陈述就是数值概率陈述一个例子。非数值概率陈述可以有各种各样。“把水和酒精混合获得均匀的混合物是十分可几的”,这类陈述如得到适当阐明,就能转变为数值概率陈述(例如,“获得……的概率很接近1”)。另一种很不同的数值概率陈述例如“发现一种与量子论相矛盾的物理效应是高度不可几的”;我认为这种陈述不可能转变为数值概率陈述,或者与某种数值概率陈述等价,而不歪曲它的意义。我将首先讨论数值概率陈述;非数值概率陈述,我认为不那么重要,容后再考虑。

    与每一个数值概率陈述有联系的是这样一个问题:“我们应如何解释这类陈述,特别是这类陈述所作出的数值方面的断言?”

    48.主观解释和客观解释

    古典的(Laplace的)概率理论把某一概率的数值定义为用同样可能的情况数除有利的情况数所得的商。我们可以不理会已经提出来的反对这个定义的逻辑上的异议,如“同样可能的”不过是“同样可几的”另一种说法。但是甚至在那时我们也很难承认这个定义提供了一个可毫不含糊地应用的解释。因为其中隐含着若干种不同的解释,我要把这些解释分为主观的和客观的两类。

    概率论的主观解释常常使用的带有心理学味道的说法,如“数学期望”,或者比方说,“误差的正态定律”等等,使人想起概率论的主观解释;其最初的形式是心理学主义的。它把概率的大小看作为确定或不确定、相信或怀疑的感觉的量度,这些感觉可由某些断言或推测在我们心中引起。关于某些非数值陈述,“可几的”一词可用这种方法颇为满意地加以转译;但是我认为沿着这些路线对数值概率陈述所作的阐释是十分不能令人满意的。

    然而,主观解释的较新变种应该在这里给予更认真的考虑。还不是在心理学上,而是在逻辑上把概率陈述解释为关于可称之为陈述“逻辑近似”的断言。正如我们全都知道的那样,陈述能互相处于各种逻辑关系中,如可推演性、不相容性或相互依赖性;而逻辑-主观理论(Keynes是它的主要阐述者)把概率关系看作是两个陈述之间的特种逻辑关系。这种概率关系的两个极端情况是可推演性和矛盾:有人说,如陈述p从陈述q推导出,则q把概率1“给予”p。如p和q相互矛盾,则q给p的概率为0。在这两个极端之间有其他概率关系,大概可以下列方法解释:陈述声(给定q)的数值概率越大,则它的内容超出陈述q已包含的内容越少,p的概率依赖q(并且q把某种概率“给予”p)。

    从Keynes把概念定义为“理性信仰程度”这一事实可看出这个理论与心理学主义理论之间的密切关系。他的“理性信仰程度”是指信赖量,可以根据我们从”给予”陈述p概率的那个陈述q中得到的信息或知识赋予p以信任量。

    第三种解释,客观解释,把每一个数值概率陈述看作为一种相对频率的陈述,某一种类事件在一偶发事件序列内以这种频率发生。

    根据这种解释,“用这颗骰子下一次掷五的概率等于1/6”这陈述实际上不是一个关于下一次掷骰子的断言;宁可说,它是一个关于整个一类掷骰子的断言,下一次掷骰子不过是其中一个元素。这个陈述所说的不过是在这类掷骰子中得5的相对频率等于1/6。

    按照这个观点,如果我们能够对数值概率陈述作出濒率阐述,这些陈述才是可接受的。不能作出频率解释的那些概率陈述,尤其是非数值概率陈述,常常被频率理论家回避。

    下面我将尝试重新把概率理论作为一种(经过修改的)频率理论建立起来。因此我宣布我信仰客观解释;主要是因为我相信只有客观理论才能解释概率计算在经验科学中的应用。大家承认,主观理论能够给如何判定概率陈述的问题提供一个前后一致的解决办法;并且一般地说,它面临的逻辑困难比客观理论少。但是它的解决办法是:概率陈述是非常经验的;它们是重言的。当我们想起物理学利用概率论时,这种解决办法就证明是完全不能接受的了。(我摈弃主观理论的这种变种:认为客观频率理论应从主观假定中推导出来——也许利用Bernoulli定理作为“桥梁”;由于逻辑上的理由我认为这种纲领是不能实现的。)

    49.机遇理论的基本问题

    概率理论的最重要应用是用于我们可称之为“似相遇的”(chance-like)或“随机的”事件,或偶发事件。它们的特征是一种特殊的不可计算性,这使得人们经过许多次不成功的尝试后倾向于相信,一切已知的理性预测方法用于这些事件必定失败。可以说,我们感觉到除了先知以外没有一个科学家能够预测它们。然而正是这种不可计算性使我们得出这样的结论:概率的计算能够应用于这些事件。

    如果我们接受主观理论,那么从不可计算性达到可计算性(即达到某种计算的可应用性)这个有点悖论性质的结论,确实不再具有悖论性质了。但是这种避免悖论的方法是极不令人满意的。因为它包含着这样的观点:概率计算与经验科学的所有其他方法相反,不是一种计算预测的方法。按照主观理论,它不过是一种使我们已知的东西或者更确切地说,使我们未知的东西实行逻辑变换的方法;因为正是在我们缺乏知识时我们实行这些变换。这种观念确实使悖论消解,但它不能解释被解释为频率陈述的无知陈述如何能够在经验上受到检验和得到验证。然而这正好是我们的问题。我们如何能够解释这个事实:我们可从不可计算性——即从无知——中作出能够解释为经验频率陈述的结论,并且尔后我们发现它们在实践中得到光辉的验证呢?

    甚至频率理论直到现在还不能对这个问题——我将称之为机遇理论的基本问题——提供一个令人满意的解答。在第67节将表明这个问题与“收敛公理”有联系,后者是目前形式的这个理论的一个组成部分。但是在这个公理消除后,在频率理论框架内找到一个令人满意的解决办法是可能的。通过分析这样一些假定就会找到这种解答,这些假定使我们能够从单个偶发事件不规则序列推论到它们频率的规则性或稳定性。

    50.von Mises 的频率理论

    为概率计算的所有主要定理提供基础的频率理论首先由Richard von

    Mises提出的。他的基本思想如下。

    概率计算是似机遇的或随机的事件或偶发事件序列,即例如连续掷骰子那种重复**件序列的理论。借助两个公理条件把这些序列定义为“似机遇的”或“随机的”:收敛公理(或极限公理),和随机公理。如果一个事件序列满足这两个条件,von

    Mises就称它为一个“集合”(collective)。

    大体上说,一个集会就是一个事件或偶发事件的序列,它在原则上可以无限地延续下去;例如掷骰子序列。假设骰子是破坏不了的。在这些事件中,每一个都有一定的特性和性质;例如可以掷个5,因而具有性质5。如果我们选取直到序列某一元素以前已出现的所有具有性质5的掷骰子次数,除以直到那个元素以前掷骰子的总数(即序列中它的基数),那么我们就获得直到那个元素以前的5的相对频率。如果我们确定了直到这个序列每个元素以前5的相对频率,我们就用这种方法获得一个新的序列——5的相对频率序列。这种频率序列不同于它与之相应的原先的事件序列,后者可称为“事件序列”或“性质序列”。

    我选取我们称之为“二择一”(alternative)作为一个集合的简单例子。我们用这个词指假定只有两种性质的事件序列——例如掷一个钱币猜正反面的序列。一种性质(正面)用“1”表示,另一种性质(反面)用“0”来表示。于是事件序列(或性质序列)可用下式表示:

    (A) 0 1 1 0 0 0 1 1 1 0 1 0

    1 0……

    与这种“二择一”相应——或更精确地说,与这种二择一的性质“1”相关——的是下列“相对频率序列”,或“频率序列”:

    ……

    收敛公理(或“极限公理”)假定,随着事件序列越来越长。频率序列将趋向一个确定的极限值。von

    Mises使用这个公理是因为我们必须弄清楚我们能够借以工作的某个固定的频率值(即使实际的频率值有一些波动)。在任何集合中至少有两种性质;如果我们得到与某个集合所有性质相应的频率极限值,那么我们就得到集合的“分布”。

    随机公理或有时称之为“排除赌博系统原理” (the

    principle of the excluded gambling

    system),是打算用来为序列的似机遇性质提供数学表现。显然,如果掷硬币的序列有规律性,比方说在每三次掷正面后就出现反面相当有规律,那么一个赌徒就会用某种赌博系统来改善他的运气。随机公理就一切集合假定,不存在能够成功地应用于这种集合的赌博系统。它假定,不管我们可以选取何种赌博系统以选择认为有利的掷猜(tosses),我们将发现,如果赌博有足够长的时间继续下去,认为有利的掷猜序列中的相对频率接近的极限值与所有掷猜序列的极限值是一样的。因此存在着一种赌徒能借以改善他运气的赌博系统的序列不是von

    Mises意义上的集合。

    对于von Mises来说,概率是“集合中相对频率极限度”的另一个术语。所以概率概念仅应用于事件序列;从Keynes等人的观点看来,这样的限定大概是完全不能接受的。对于批评他的解释太窄的人,von

    Mises的回答是强调科学的使用概率(例如在物理学中)与一般的使用概率之间的不同。他指出要求定义恰当的科学术语非要在一切方面去适应不确切的、前科学的用法是个错误。

    按照von Mises的意见,概率计算的任务只不过在于此:从具有某些给定“初始分布”(initial

    distributions)的某些给定“初始集合”(initial collectives)推论出具有“导出分布”(derived

    distributions)的“导出集合”(derived collectives);简言之,根据给定的概率计算出那些没有给定的概率。

    von Mises把他的理论的独特特点概括为四点:集合概念先于概率概念;定义概率概念为相对频率的极限值;提出随机公理;以及规定概率计算的任务。

    51.新的概率理论计划

    von Mises提出的两条公理或公设以定义集合概念曾遇到强烈的批评——我认为这个批评不是没有道理的。特别是反对把收政公理和随机公理结合起来,理由是不允许把极限或收敛的数学概念应用于按照定义(即由于随机公理)必定不服从任何数学规则或定律的序列。因为数学极限值不过是决定序列的数学规则或定律的特有性质。数学极限值不过是这种数学规则或定律的一种性质,如果任意选定一个接近于零的分数,序列中都有一个元素,使得在它之后的所有元素与某个一定的值的差小于这个分数——于是这个值称为它们的极限值。

    为了对付这些反对意见,有人建议不要把收敛公理和随机公理结合起来,仅假定收敛,即被限值的存在。至于随机公理,建议或者全然放弃它(Kamke),或者用较弱的要求代替它(Reichenbach)。这些意见的前提是认为引起麻烦的是随机公理。

    与这些观点相对照,我倾向于责怪收敛公理不亚于责怪随机公理。因此我认为有两项任务要做:改进随机公理——主要是一个数学问题;以及完全消除收敛公理——认识论家特别关心的一个问题(参阅第66节)。

    下面我首先讨论数学问题,然后讨论认识论问题。

    这两项任务中的第一项,即数学理论的重建,其主要目的是从一个修改了的随机公理推导出Bernoulli定理——第一个“大数定律”;修改为实现这个目的所需,不要求更多。更确切地说,我的目的是推导出二项式公式(Binomial

    Formula,有时称为“Newton公式”),我称为“第三式”。因为能用通常的方法从这个公式中获得Bernoulli定理和概率论的其他极限定理。

    我的计划是首先制定一个有穷类(finite class)的频率理论,并且尽量在这个框架内发展这个理论——即直至推导出(“第一”)二项式。这个有穷类频率理论原来是类理论(thetheory

    of classes)一个十分基本的部分。它之得到发展只是为了获得讨论随机公理的基础。

    接着我将通过引入收敛公理的老方法进而到无穷序列,即能够无限延续的事件序列,因为我们需要它来讨论随机公理。在推导出和考察Bernoulli定理之后,我将考虑如何能消除收敛公理,以及哪一类公理系统我们应该作为结果保留下来。

    在数学推导的过程中,我将使用三个不同的频率符号:F”示有穷类的相对频率;F’示无穷频率-序列相对频率的极限值;最后F示客观额率,即在“不规则”或“随机”或“似机遇”序列中的相对频率。

    52.有穷类内的相对频率

    让我们考虑一类α的有穷数目的偶发事件,例如昨天用这粒特定的骰子掷猜这类偶发事件。设这类α为非空类(non-empty),可以说它起着参考系的作用,将称之为(有穷的)参考类(reference-class)。属于α的元素数目,即它的基数,用“N(α)”表示,读作“α数”。另一类β,可以是有穷的,也可以不是有穷的。我们称β为性质类(property-class)。例如它可以是所有掷5的类,或(如我们将要说的)所有具有性质5的掷猜类。

    属于α又属于β的那些元素类,例如昨天用这粒特定的骰子掷并有性质5的掷类被称为α和β的乘积类(product-

    class),用“α·β”表示,读作“α和β”。由于α·β是α的子类,它至多能含有有穷的元素数(它可以是空类)。α·β中的元素数用“N(α·β)”表示。

    当我们用N表示(有穷)的元素数时,用F”示相对频率。例如,“在有穷参考类α内性质β的相对频率”写作“αF”(β)”,可读作“β的α频率”。我们现在能定义

    (定义1) αF”(β)=N(α·β)/N(α)

    根据我们的例子这意味着:“昨天用这骰子掷时出现5的相对频率,按照定义等于昨天用这骰子掷5的数被昨天用这骰子掷的总数来除所得的商。”

    从这个颇为平凡的定义中,能够十分容易地推导出有穷类中频率计算的定理(更具体地说,一般乘法定理;加法定理;以及除法定理,即Bayes规则)。在这种频率计算的定理中,以及在一般的概率计算中,其特征是基数(N数)从不在其中出现,出现的是相对频率,即比值,或F数。N数仅发生在一些基本定理的证明中,这些基本定理是直接从这个定义中演绎出来的;但N数并不发生在定理自身中。

    ”(读作“β的补数”或简单地读作:“非β”)来表示不属于β的一切元素类。于是我们可写出:

    )=1

    虽然这个定理仅包含F数,它的证明要利用N数。因为这定理认定义(1)中得出,借助于来自断言N(α·β)十N(α·β)=N(α)的类的计算的一个简单定理。

    53.选择、独立、无影响、无关

    在能够用有穷类相对频率作的运算中,选择(selection)的运算对以下所述有特殊重要性。

    设给定一个有穷参考类α,例如一只匣子中的钮扣类,以及两个性质类,β(比方说,红钮扣)和γ(比方说,大钮扣)。我们现在可把乘积类α·β看作一个新的参考类,并提出α·βF”(γ)值的问题,即在新的参考类内γ的频率的问题。新的参考类α·β可称为“从α中选择β元素的结果”或“按照性质β从α中选择”;因为我们可以想到它是通过从α中选择那些具有性质β(红)的一切元素(钮扣)。

    γ发生在新的参考类α·β中的频率与发生在原先的参考类α中的频率相同,这恰恰是可能的;即

    α·βF”(γ)=αF”(γ)是正确的。在这种情况下,我们(遵循Hausdorff)说性质β和γ“在参考类a内是相互独立的”。独立关系是三项关系,在性质β和γ上是对称的。如果两种性质α和β在参考类α内是(相互)独立的,我们也可说性质γ在α内不受β元素的选择的影响;也许可说参考类α,就性质γ而言,不受按照性质β所作的选择的影响。

    β和γ在α内相互独立或不受影响也可——按照主观理论的观点——解释如下:如果我们被告知类α的某一特定元素具有性质β,那么这个信息是无关的,如果β和γ在α内是相互独立的话;也就是对于这个元素是否也有性质γ这个问题是无关的。如果另一方面我们知道,γ更经常(或不那么经常)发生在子类α·β(已根据β从α中选择出来)中,那么某个元素有性质β的信息对于这个元素是否也有性质γ的问题便是有关的了。

    54.有穷序列、顺序选择和邻域选择

    设有穷参考类α的元素是编了号的(例如盒子中的每一个钮扣都写上一个数目),并且把它们按照序数排列成序列。在这种序列中我们可以区分出两类具有特殊重要性的选择,即按照元素的序数进行选择,或简称顺序选择,以及按照它的邻域进行选择。

    顺序选择是根据依赖于元素序数的性质β从序列α中进行选择,元素的选择必须根据序数决定。例如β可以是性质偶数(even),因此我们从a中选择的一切元素,其序数是偶数。因此选择出来的元素形成一个所选子序列(selected

    sub-sequence)。如果性质γ独立于根据β的顺序选择,那么我们也可说,顺序选择对γ而言是独立的;或者我们也可说序列α就γ而言,不受β元素的选择的影响。

    邻域选择之有可能是由于这个事实:在把元素排列为编号序列时,某些邻域关系就形成了。这使我们例如有可能选择那些其直接先行者具有性质γ的所有成员;或者比方说,选择那些其第一和第一个先行者,或其第一个后续者具有性质Y的所有成员,如此等等。

    因此如果我们有一个事件序列——比方说掷钱币猜正反面——,我们就必须区分两类性质:如“正面”或“反面”那样一些的主要性质,这些性质属于与其在序列中位置无关的每一个元素;以及如“偶数”或“反面的后续者”等那样一些次要性质,这些性质是一个元素由于它在序列中的地位而获得的。

    具有两个主要性质的序列称为“二择一”。正如von Mises业已表明的(如果我们小心仔细),有可能把概率论的基本点发展为二择一理论,而不牺牲普遍性。用“1”和“0”表示二择一的两种主要性质,每一种二择一可表示为许多1和0的序列。

    一种二择一的结构可以是有规律的,或者它也可能是多少不规则的。下面我将更周密地研究某些有穷二择一的这种规律性或不规则性。

    55.有穷序列的n-自由度

    让我们以有穷二择一α为例,它由一个个1和0组成,有规律地排列如下:

    (α)

    1 1 0 0 1 1 0 0 1 1 0 0 1 1 0

    0……在这种二择一中,我们有均等的分布,即1和0的相对频率是均等的。如果我们用“F”(1)”示性质1的相对频率,用“F”(0)”示性质0的相对频率,我们可写:

    (1)αF”(1)=αF”(0)=1/2

    现在我们从α中选择(在α序列内)具有直接接在1后面的邻域性质的所有项。如果我们用“β”表示这种性质,我们可称为所选子序列“α·β“。它有这样的结构:

    (α·β)

    1 0 1 0 1 0 1 0 1 0……

    这个序列又是具有均等分布的一种二择一。而且,1和0的相对频率都没有变化;即

    (2)α·βF”(1)=αF”(1);α·βF”(0)=αF”(0)

    用第53节采用的术语,我们可以说二择一α的主要性质不受根据性质β作的选择的影响;简言之,α不受根据β作的选择的影响。

    的元素,我们得到这样的二择一:

    )

    0 1 0 1 0 1 0 1 0 1 0……

    作的选择的影响;所以我们可以说,α都不受根据直接先行者的性质所作的每一种选择的影响。

    并非不受根据先行者的性质所作的选择的影响。

    现在我们可以研究二择一α,看看它是否也不受其他选择,尤其是根据一对先行者的性质所作的选择的影响。例如,我们可从α中选择那些是一对1,1的后续者的所有元素。并且我们马上看到α并非不受四种可能的对即1,1;1,0;01;0,0中任何一对后续者的选择的影响。在这些情况下,得到的子序列都没有均等分布;反之,它们全都由不间断的块(blocks,或“反复”iterations)组成,即只由1,或只由0组成。

    α不受根据单个先行者作的选择的影响,但是并非不受根据成对先行者的选择的影响,这个事实可用主观理论的观点表述如下。关于α中任何元素一个先行者性质的信息,对于这个元素的性质问题是无关的。另一方面,关于元素的成对先行者的性质的信息则是高度有关的;因为给定α据以建立的定律,它使我们能够预测所讨论的元素的性质:关于元素成对先行者性质的信息,可以说给我们提供演绎出预测所需的初始条件。(a据以建立的定律要求一对性质作为初始条件;因此就这些性质而言,它是“二维的”。详细说明一种性质仅是在成为复合时作为初始条件不充分时才是“无关的”。参阅第38节。)

    我没有忘记因果性——原因和结果——概念与预测的演绎的关系是多么密切,同时我要利用下列术语。以前作出的关于二择一α的断言:“α不受根据单个先行者作的选择的影响”,我现在用下列说法来表示:“α不受单个先行者任何后效的约束”,或简言之,“α的自由度为1(1-free)”。不像以前那么说α“不受(或受)根据成对先行者所作的选择的影响”,我现在说:“a不受(或受)成对先行者后效的约束”,或简言之,“α的自由度是(不是)2”。

    用自由度为1的二择一作为我们的原型,我们现在能够容易地建立也具有均等分布的其他序列,这些序列不仅不受一个先行者的后效约束,即(像α一样)自由度为1,而且还不受一对先行者后效的约束,即自由度为2;此后,我们可以继续达到自由度为3等等的序列。这样把我们引导到对下述是基本的一般概念。这就是不受直至某个数n的一切先行者后效约束的自由度概念;或者如我们将要说的,n-自白度概念。更精确地说,我们称一个序列“自由度为n”,当且仅当它的主要性质的相对频率是“n重无影响”,即不受根据单个先行者和根据成对先行者和根据三个一组的先行者……和根据n个一组先行者作的选择的影响。

    自由度为1的二择一α可以用重复任何倍数的生成周期(generating

    period)。

    (A)

    1 1 0 0……

    来建立。同样我们获得具有均等分布的自由度为2的二择一,如果我们把

    (B)

    1 0 1 1 1 0 0 0……

    作为它的生成周期,自由度为3的二择一从生成周期

    (C)

    1 0 1 1 0 0 0 0 1 1 1 1 0 1 0 0……

    中获得,而自由度为4的二择一从生成周期

    (D)

    0 1 1 0 0 0 1 1 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 1……

    中获得。将会看到:面临一个不规则序列的直觉印象随它n自由度的数n的增长而越强烈。

    具有均等分布的一个具n自由度的二择一的生成周期必须包含至少2n+1个元素,作为例子给定的周期,当然可以开始于不同的位置;(C)例如可从它的第四个元素开始,于是我们获得的不是(C),而是

    (C’)

    1 0 0 0 0 1 1 1 1 0 1 0 0 1 0 1……

    有使序列的n-自由度不变的其他变换。为每一个数目n建立n-自由度序列生成周期的方法则在别处描述。

    如果我们把下一生成周期的最初的n个元素加在一个自由度为n的二择一上,于是我们得到一个长度为2[n+1]+n的序列。除了其他性质外,这个序列还有以下的性质:n+1个0和1的每一种排列,即每一个可能的n+1个组,至少在其中发生过一次。

    56.节段序列 二项式的第一形式

    给定一个有穷的序列α,我们称由n个连续元素组成的α的子系列为‘’α的n长度节段”;或更简单地说,“α的n-节段”。如果除了序列α以外,还给定某个定数n,那么我们能够把α的n-节段排列在一个序列中——α的n-节段序列。给定一个序列α,我们就可以从α的最初的n个元素的节段开始这种方式,建立一个新的序列,即α的n-节段序列。其次是α的2到n+1的元素的节段。一般地说,我们把α的从x到x+n-1的诸元素组成的节段看作新序列的第x个元素。如此获得的新序列可称为“α的交迭n-节段(overlapping

    n一segments)序列”。这个名称表示,新序列的任何两个连续元素(即节段)以这种方式交迭;使它们共有原先序列α的n-1元素。

    现在我们通过选择可以从一个交迭节段的序列中,获得其他序列,尤其是毗邻n-节段(adjoining

    n-segments)的序列。

    一个毗邻n-节段序列只含这样一些n-节段,它们在不交迭的α中,互相直接接续。例如开始也许是原先序列α的编号为1至n的元素的n-节段,续在后面的是n+1至2n,2n+1至3n如此等等的元素的n-节段。一般来说,一个毗邻节段的序列将以α的第k个元素开始,而它的节段将包含α的编号为直至n+k-1,n+k至2n+k-1,2n+k至3n+k-1如此等等的元素。

    下面将用“α(n)”示α的交迭n-节段的序列,用“αn”示毗邻n-节段序列。

    现在让我们更详细一点考虑交迭节段α(n)的诸序列。这样一种节段的每一个元素是α的一个n-节段。我们可以把例如组成节段的n个一组的有序的0和1看作是α(n)一个元素的主要性质。或者我们可以更为简单地把它的1的数目看作是这个元素(不管1和0的次序)的主要性质。如果我们用“m”表示1的数目,则显然m≤n。

    ”(非m)赋予α(n)的所有其他元素的话。因此α(n)的每一个元素必定有这两个性质中的一个或另一个。

    现在让我们再次设想,给定一个具有主要性质“1”和“0”的一个有穷二择一。设1的频率αF”(1)等于p,0的频率αF”(0)等于q。(我们设分布是不均等的,即p≠q。)

    现在让这个二择一α至少有n-1个自由度(n是任意挑选的自然数)。于是我们可向下列的问题:性质m在序列α(n)中出现的频率是多少?换言之,α(n)F”(m)的值是多少?

    除了α至少有n-1个自由度外,我们什么也不假定,我们就能用初等算术解决这个问题。答案包含在下列公式中:

    “二项”式(1)的右边是由Newton在论述有关别的问题时提出的(有时称为Newton公式)。我将称它为“二项式的第一形式”。

    由于推导出了这个公式我就不再在有穷参考类内考察频率理论。这个公式将提供给我们一个基础来讨论随机公理。

    57 无穷序列 频率的假说性估计

    把为n-自由度有穷序列获得的结果推广到用生成周期(参阅第55节)定义的n-自由度无穷序列是十分容易的。起着参考类(我们的相对频率与此有关)作用的一个无穷的元素序列可称为“参考序列”。它多少与von

    Mises意义上的“集合”相对应。

    n-自由度的概念以相对频率的概念为前提;因为n-自由度的定义要求不受影响——不受根据一定的先行者所作的选择的影响——的是一种性质在其中发生的相对频率。在我们讨论有穷序列的定理中,我将暂时使用(直到第64节)相对频率极限值(用F’表示)概念代替有穷类的相对频率(F”)。只要我们把自己限于根据某个数学规则建立的参考序列,这个概念的使用就不会发生问题。对于这些序列我们总可以确定相应的相对频率序列是否是收敛的。相对频率极限值概念只是在没有数学规则只有经验规则(与例如钱卜序列有关的)的序列的情况下才会引起麻烦;因为在这些情况下,极限值概念是未定义的(参阅第51节)。

    建立序列的数学规则的一个例子如下:“序列α的第n个元素应该是0,当且仅当n可被4除”。它定义的无穷二择一是

    (α)

    1 1 1 0 1 1 1 0……

    其相对频率的极限值αF’(1)=3/4; αF’(0)=1/4。借助数学规则用这种方法定义的序列我简称为“数学序列”。

    与之相对照,建立经验序列的规则是例如“序列α的第n个元素将是0,当且仅当硬币c的第n次掷猜出现反面时”。但是经验规则不一定总是定义随机性质的序列。例如,我应该把下列规则称为经验规则:“序列的第n个元素将是1,当且仅当第n秒(从某个零时算起)时,发现摆p摆到这标记的左方时”。

    这个例子表明有时——例如根据与摆有关的一些假说和测量——可用数学规则代替经验规则。用这种方法我们会找到一个数学序列,它以按我们的目的也许使我们满意,也许不能使我们满意的精确度接近于我们的经验序列。有可能(我们的例子可用来建立这种可能)获得一个其各种频率接近于那些经验序列的频率,在我们目前的情况下具有特殊的意义。

    我把序列分为数学序列和经验序列时,我利用的是“内包”上的差别,不是“外延”上的差别。因为如果用“外延”方法,即用一个接一个地列举其元素的方法使我们得一个序列--因此我们就只能知道它的一个有穷的片段,一个有穷的节段,不管它有多长——,那么就不可能根据这个节段的性质确定其一部分的序列是学序列还是经验序列。仅当给定一个建构规则——即“内包”规则—一时,我们就能判定一个序列是否是数学的还是经验数的。由于我们希望借极限值(相对频率)概念之助处理我们的无穷序列,我们必须把我们的研究限于数学序列,实际上就是限于相应的相对频率序列是收敛的那些数学序列。这种限制等于引入收敛公理。(与这公理有关的问题到第63-66节再讨论,因为与“大数定律”一起讨论它们比较方便。)

    因此我们将只谈数学序列。然而我们将只谈那些数学序列:我们期望或推测它们就频率而言接近于具有似机遇或随机性质的经验序列,因为它们是我们的主要兴趣所在。但是期望或推测一个数学序列,就频率而言它接近于经验序列,不过是提出一个假说——一个关于经验序列频率的假说。

    我们对经验随机序列的频率的估计是假说这一事实,对我们用以计算这些频率的方法没有任何影响。显然,在有穷类方面,它对我们如何获得我们的计算由此开始的频率,丝毫没有关系。这些频率可借实际计算获得,或根据一条数学规则,或根据某种假说获得。或者我们简直可以虚构一些频率。在计算频率时我们接受某些频率作为给定的,并从中推导出其他频率。

    无穷序列中的概率估计同样如此。因此关于我们频率估计的来源问题不是一个频率计算问题;然而这并不是说把这个问题从我们关于概率论问题的讨论中排除出去。

    在无穷经验序列的情况中,我们能区分出我们假说性频率估计的两种主要“来源”——就是说两种方法,我们用这两种方法就可估计出频率。一是基于“均等-机遇假说”(equal

    chance hypothesis),(或等概率假说equi-probability

    hypothesis)的估计,另一是基于统计结果的外推(extrapolation of statisticalfndings)。

    我用“均筹-机遇假说”,是指这样一种假说,它断言各种主要性质的概率是均等的:它是断言均等分布的假说。均等-机遇假说常常基于对称性的考虑。最典型的例子是掷骰子时均等频率的推测,其根据是立方体六面的对称性和几何等值。

    至于基于统计学外推的频率假说,死亡率的估计提供一个很好的例子。在这里关于死亡率的统计资料是用经验查明的,并且根据过去的趋势将继续足十分接近稳定的,或者它们不会有很大变化——至少在最近时期内——的假说从已知事例,即从已用经验加以分类和计算的偶发事件外推到未知事例。

    具有归纳主义倾向的人容易忽视这些估计的假说性质,他们会把假说性估计,即基于统计外推的频率预测同它们的经验“来源”之——过去的偶发事件和偶发事件序列的分类与实际计算混为一谈。往往提出这样的主张;我们从已加以分类和计算的过去的偶发事件(如死亡统计)中“推导出”概率估计——即频率预测。但是从逻辑观点看,这个主张并没有得到证明。我们根本没有作什么逻辑推导。我们已经做的是提出一个不可证实的假说,这个假说在逻辑上是永远得不到证明的,这个假说就是推测频率仍将稳定不变,因此允许外推。甚至均等-机遇假说也被一些相信归纳逻辑的人认为是“经验上可推导的”,或“经验上可说明的”,他们认为这些假说基于统计经验,即基于经验上观察到的频率。然而就我来说,我相信,我们在作出这种假说性估计时,往往单独爱关于对称意义的想法以及类似的考虑的引导。我看不出有任何理由为什么这些推测应该只是由于积累大量归纳观察而产生的。然而,我并不赋于我们估计的起源或“来源”这些问题以很大意义(参阅第2节)。我认为,更重要的是对这个事实要十分清晰,即频率的一切预测性估计,包括我们从统计外推中得到的频率——当然还有所有与无穷经验序列有关的频率——总是纯粹的推测,因为它总是超出我们有权根据观察肯定的任何东西。

    我对均等-机遇假说和统计外推的区分与“先验”和“后验”概率的经典区分是完全符合的。但是由于这些术语是用于如此多的不同意义。而且由于这些术语因哲学上的联想而被严重玷污,最好还是避免用它们。

    我在下面考察随机公理时,将试图寻找逼近随机经验序列的数学序列;这就是说我将考察频率假说。

    58 随机公理的考察

    顺序选择(即按位置选择)的概念和邻域选择的概念均已在第55节中引入和说明。我现在将借助这些概念检查vonMises的随机公理——排除赌博系统原理——以希望找到一个能代替这个公理的较弱的要求。在von

    Mises的理论中,这个公理是他的集合概念的定义的一部分:他要求一个集合中频率的极限一定要对任何种类的系统选择(systematic

    Selection)不敏感(他指出,赌博系统总是可被认为是一种系统选择。)。

    对这个公理提出的大多数批评集中于它的表述的相对不重要的和表面的方面。这与下列事实有关,即在各种可能的选择中,会有这样的选择:比方说选择那些接近5的掷;显然在这种选择内,5的频率会与在原先序列内5的频率迥然不同。这就是为什么von

    Mises在他的随机公理表述中谈到他所说的“选择”或“选取”是“独立于”掷的“结果”,因而不用所选元素的性质去定义。但是只要指出我们可以根本不用成问题的措词来表述von

    Mises的随机公理,就可以完全答复针对这种表述的许多非难。因为例如我们可以表述如下:在一个集合中频率的极限一定都不受顺序选择和邻域选择的影响,而且也不受可用作赌博系统的这两种选择方法的所有组合的影响。

    上述困难随这个表述而消失。然而其他困难仍保留。因此也许不可能证明,借助如此强的随机公理定义的一个集合概念,不是自相矛盾的;换言之,不可能证明“集合”的类不是空的。(Kamke曾强调证明这一点的必要)至少,建构某个集合的例子,并用这种方式说明集合的存在,这似乎是不可能的。这是因为满足一定条件的某一无穷序列的例子只可能由数学规则来提供。但是对于von

    Mises意义上的集合,根据定义不可能有这种规则,因为能够把任何规则都用作一种赌博系统或选择系统。如果所有可能的赌博系统都被排除,这种批评确实是无法驳斥的。

    然而也可提出另外的异议来反对排除所有赌博系统的概念:它的要求实在太多了。如果我们要使某个陈述系统公理化——在这个场合是概率计算定理,尤其是特殊的乘法定理或Bernoulli定理——,那么所选的公理不仅应该对系统定理的推导是充分的,而且也是(如果我们能这样推导出定理)必要的。然而可以表明排除所有选择系统对Bernoulli定理及其系统定理是不必要的。要求排除特殊类的邻域选择是十分充分的:它是以要求序列应该不受根据任意选取的n个一组的先行者所作的选择的影响;也就是说,它应该有n个自由度,不受每个n的后效的约束,或简言之,它应该是“绝对自由的。”

    所以我建议用不那么严格的“绝对自由”的要求(对每一个n有n-自由度的意义上)来代替von Mises的排除赌博系统原理,并且相应地把似机遇的数学序列定义为满足这个要求的序列。其主要优点是不排除所有赌博系统,因此有可能提供建构在我们的意义上“绝对自由的”序列的数学规则,从而有可能建构实例。因此也就满足了上面讨论的Kamke的异议。因为我们现在能够证明似机遇数学序列的概念不是空的,所以是前后一致。

    也许有点奇怪:我们应该试图借助必须符合最严格规则的数学序列来勾划机遇序列极不规则的特点。von Mises的随机公理起初似乎使我们的直觉更为满意。一个机遇序列必定是完全不规则的,因此只要我们继续努力试图通过把这个序列延伸得足够长来证伪这个推测的话,任何推测的规则性一定会在序列的后面部分遇到失败,知道这一点是颇为令人满意的。但是这个直觉的论证也有利于我的建议。因为如果机遇序列是不规则的,那么,不容置疑,它们就不会是某种特殊类型的规则序列。而我们的“绝对自由”要求不过是排除一种特殊类型的规则序列,尽管是一种重要的类型。

    它是一种重要的类型这一点可以从这个事实中看出,即根据我们的要求不言而喻地排除下述三种典型的赌博系统(参阅下一节)。首先我们排除“正态的”或“纯粹的”邻域选择,在其中我们根据邻域的某种恒定的特征进行选择。其次,我们排除“正态的”顺序选择,这种选择选取的元素,它们的间距是恒定的,例如标号为是k,n+k,2n+k……等等的元素;最后,我们排除这两种类型选择的许多组合(例如一切第n个元素的选择,假如它的邻域具有某种具体的恒定特征)。所有这些选择的独特性质是,它们与序列的绝对的第一元素无关;如果原先的序列从另一个(相应的)元素开始标号,它们就可产生同样的所选的子序列。因此被我的要求排除的赌博系统是那些无需知道序列的第一元素而可使用的赌博系统。被排除的系统总涉及某些(线性)变换。它们是简单的赌博系统。(参阅第43节)。我的要求不予排除的只是涉及诸元素与绝对的(初始的)元素间有绝对距离的赌博系统。

    对一切n有自由度n——“绝对自由”——的要求也与我们大多数自觉地或不自觉地认为对机遇序列也适用的东西完全一致;例如一粒骰子下一次掷的结果不依赖以前几次掷的结果(掷以前摇摇骰子的做法就是想要保证这种“独立性”)。

    59.似机遇序列 客观概率

    鉴于我已说过的那些东西,我现在提出下列定义。

    我们说一个事件序列或性质序列,尤其是一个二择一,是“似机遇”或“随机的”,当且仅当它的主要性质的频率极限是“绝对自由的”,即不受根据任何n个一组的先行者的性质所作的一切选择的影响。与随机的序列相应的频率极限被称为在有关序列内该性质的客观概率;用F表示。这也可表述如下。设α为具有主要性质B的似机遇或似随机序列;这时下式成立:

    αF(β)=αF’(β)

    现在我们必须证明我们的定义足以推导出数学概率论的主要定理,尤其是Bernoulli定理。随后——在第64节——这里给定的定义将予以修改使之独立于频率极限的概念。

    60.Bernoulli问题

    在第56节提到的第一个二项式公式,即

    适用于交迭节段的有限序列。它可根据这样的假定推导出来,即有限序列α至少有n-1个自由度。根据同样的假定,我们直接获得一个有限序列的正好相应的公式;那就是说,如果α是有限的,并且至少有n-1个自由度,那么

    由于似机遇序列是绝对自由的,即对于每一个n有n个自由度,公式(2),即第二个二项式公式也必须适用于那些序列;并且确实它必须适用于它们,不管我们选择的n的值是多少。

    下面我们将只涉及似机遇序列,或随机序列(如在前节中定义的那样)。我们就要证明,对于似机遇序列,除了公式(2),第三个二项式公式(3)也必定适用;这个公式是

    公式(3)在两个方面不同于公式(2):第一,它所断言的涉及毗邻节段αn的序列,不是交迭节段α(n)的序列。第二,它不包含符号F’,而包含符号F。这意味着,根据蕴涵它断言邻近节段序列也是似机遇或随机的;因为从F,即客观概率的定义仅涉及似机遇序列。

    (3)所回答的在邻近节段序列中性质m的客观概率问题——即αnF(m)的值的问题——,我效法von

    Mises,称之为“Bernoulli问题。对于这个问题的解决,从而对于第三个二项式公式(3)的推导,假定α是似机遇或随机的也就够了。(我们的任务等于说明特殊的乘法定理适用于一个随机序列α的毗邻节段序列。)

    公式(3)的证明可用两步实现。首先,我们证明公式(2)不仅适用于交迭节段α(n)的序列,而且也适用于毗邻序列αn的序列。第二,我们证明后者是“绝对自由的”。(这两步的次序可以颠倒,因为交迭节段α的序列肯定不是“绝对自由的”;事实上,这种序列提供了一个可称之为“具有后效的序列”的典型例子。)

    第一步。毗邻节段αn的序列是α(n)的子序列,它们可通过正态顺序选择从α(n)中获得。因此如果我们能证明在交迭序列α(n)F’(m)中频率的极限不受正态顺序选择的影响,我们就是已经采取了第一步(以及甚至走得更远一点);因为我们将证明这个公式:

    (4)

    αnF’(m)=α(n)F’(m)

    我将首先以n=2为例概述这个证明;即我将证明

    (4a)

    α2F’(m)=α(2)F’(m) (m≤2)

    为真;因此很容易概括这个公式以适用于一切n。

    从交迭节段α(2)的序列中,我们能够选择毗邻节段的两个以及仅仅两个不同的节段α(2);一个用(A)表示,包含α(2)的第一,第三,第五……节段,即由数1,2;3,4;5,6;……组成的α的元素对另一个用(β)表示,包含α(2)的第二,第四,第六,……,节段,即由数2,3;4,5;6,7;……等组成α的元素对。现在假定公式(4a)不适用于两个序列中的一个,(A)或(B),结果节段(即对)0,0太经常出现在比方说序列(A)中;于是在序列(B)中必须出现一个余离差(complementary

    deviation);即节段0, 0将不很经常出现(“太经常”,或“不很经常”是与二项式公式相比较而言的)。但是这与所假定的α的“绝对自由”是矛盾的。因为如果0,0对在(A)中出现比在(B)中更经常,那么在α的足够长的节段中,0,0对在某些表示特征的间距内出现比在其他间距内出现更经常。如果0,0对属于两个α2序列中的一个,更为经常出现的间距就是那些占优势的间距,如果0,0对均属于两个α2-序列,不那么经常出现的序列就是那些占优势的序列。但是这与所假定的α的“绝对自由度”是矛盾的;因为根据第二个二项式公式,α的“绝对自由度”意味着,在任何α(n)序列中一个特定的长度为n的序列出现的频率只依赖在该序列中出现的1和0的数目,而不是依赖它们在序列中的排列。

    这证明(4a);由于这个证明能容易推广到任何n,(4)也就得到证明;这就完成了证明的第一步。

    第二步。αn序列是绝对自由的这一事实可用一个类似的论据来说明。我们仍可以首先只考虑α2序列;而就这些序列而言,开始只会证明它们的自由度为1。设两个α2序列中的一个,即节段(A)并不是自由度为1。那么在(A)中,在至少由两个元素(一个特定的α对)组成的一个节段之后,比方说在0,0节段之后,另一个节段比方说1,1,必须比如果(A)是“绝对自由的”时更为经常地跟随着;这就是说,节段1,1出现在根据先行节段0,0从(A)中选择的子序列中的频率比二项式公式使我们期望更大。

    然而,这个假定与序列α的“绝对自由度”是矛盾的。因为如果节段1,1在(A)中跟随节段0,0过分经常,那么通过补整(compensation),相反情况也必须出现在(B)中;因为否则四个一组0,0,1,1在α的一个足够长的节段中,会太经常地出现在某些特征性间距内——即在如果所说的两对属于同一α2序列就会占优势的那些间距内。此外,在其他特征性间距内,四个一组会不那么经常地出现——即在那些如果它们均属于两个α2序列就会占优势的间距内。因此我们面临的正好是与以前同样的情况;而且我们能用类似的考虑证明,假定事件在一些特有的间距内优先发生,是所假定的α的“绝对自由度”是不相容的。

    这个证明又可加以推广,结果我们可以说α序列不仅自由度为1,而且对每一个n,自由度为n,因而它们是似机遇的,或随机的。

    这就完成了我们对这两步的概述。因此我们现在有权在(4)中用F代替F’;这就是说,我们可以同意这个主张:第三个二项式公式解决了Bernoulli问题。

    顺便说一句,我们已证明交迭节段的序列α(n)不受正态顺序选择的影响,只要α是“绝对自由”时。

    这同样适用于毗邻节段序列αn,因为从αn中作的任何一个正态顺序选择可被认为是从α(n)中作正态顺序选择;所以它必须应用于序列α本身,因为α与α(1)和α1都是等同的。

    因此我们也还证明了,不受正态顺序选择的影响是从“绝对自由度”——它意指不受某一特殊类型的邻域选择的影响——中得出的必然结论。容易看出,更进一步的结论是不受任何“纯”邻域选择(即根据它的邻域的某个恒定的特征——不随元素序数而变化的特征——进行选择)的影响。最后它的必然结论是“绝对自由度”蕴含着不受这两类选择的所有组合的影响。

    61.大数定律(Bernoulli定理)

    在假定我们能使n趋向极限。即n→∞的条件下,Bernoulli定理,或(第一)“大数定律”可以用纯粹数学的推理从第三个二项式方式中推导出来。所以它能断言的只是无限的序列α;因为正是仅仅在这些序列中αn-序列的n-节段长度能无限增加。并且它能断言的只是这些“绝对自由”的序列,因为正是仅在假定对每一个n自由度为n的条件下,我们能使n趋向极限,n→∞。

    -p]<δ时;换言之,节段具有性质‘△p’。现在Bernoulli定理回答了频率或概率值的问题,在αn序列内这种节段——具有性质△p的节段的值的问题;因此它回答了αnF(△p)值的问题。

    人们在直观上可以猜测:如果值δ(δ>0)是固定的,如果n增加,那么具有性质△p的这些节段的值,因此αnF(△P)的值,也将增加(并且它的增加将是千篇一律的)。Bernoulli的证明(在任何一本概率计算教科书中都可以找到这种证明)接着下去便是借助二项式公式来评价这种增加。他发现如果n的增加没有极限,αnF(△P)值便逼近最大值1,不管&的固定值有多少。这可用下式来表示。

    F(△p)=1

    (对任何△p值)

    这个公式从改变毗邻节段序列的第三个二项式公式而来。对于交迭节段的序列,类似的第二个二项式公式用同样的方法直接导附相应的公式。

    F’(△p)=1

    这个公式对于交迭节段序列以及从它们之中作正态顺序选择是正确的,因此对于具有后效的序列(Smoluchowski曾研究过这些序列)也是正确的。公式(2)本身产生(1),假如所选的序列不交迭,所以自由度为n。(2)可描述为Bernoulli定理的一种变式;而我在这里将要就Bemoulli定理所说的话经过必要的修正(mutatis

    mutandis)以适用于这种变式。

    Bernoulli定理,即公式(1),可用下面的话表示。让我们称从一随机序列α中选择的长度固定的一个长的有穷节段为一“中等样本”(fair

    sample),当且仅当在这个节段内1的概率,即在随机序列内1的概率值与p的离差只有某一小的固定的分数(我们可以自由挑选这个分数)。因此我们可以说,只要我们使这些节段有足够长,偶然碰到一个中等样本的概率如我们所喜欢的那样逼近于1。

    在这个表述中,“概率”(或“概率值”)一词出现两次。在这里如何解释或翻译它?在我的频率定义的意义上,这词不得不翻译如下(我将“概率”一词译为频率语言的两种译法用黑体表示):所有足够长的有限节段中绝大多数有“中等样本”;即它们的相对频率与该随机序列频率值p的离差为一任意固定的很小的量;或简言之:频率p近似地实现在几乎所有足够长的节段中。(我们如何达到p值与我们现在的讨论是无关的;比方说它可以是一种假说性估计的结果。)

    记住Bernoulli频率αnF(△p)一成不变地随节段的长度n的增加而增加,一成不变地随n的减少而减少,所以,相对频率值在短的节段中实现是比较罕见的,我