下面我将详细解释随机分配的核心原则、具体方法、实施步骤以及常见误区。

核心原则:为什么必须随机?
在解释“怎么分”之前,必须先理解“为什么这么分”,随机分配的核心目的有两个:
-
消除选择偏倚:如果研究者根据主观判断(如“看起来病情较轻的”分到A组,“看起来病情重的”分到B组)来分配受试者,那么两组从一开始就不具有可比性,这会严重干扰对干预效果的评估,随机分配则像一个“抽签”或“抛硬币”的过程,让每个受试者都有完全相等的机会被分到任一组,避免了人为因素的干扰。
-
平衡混杂因素:研究中存在许多可能影响结果的“混杂因素”,如年龄、性别、疾病严重程度、生活习惯等,有些是我们知道的(已知混杂因素),有些是我们不知道的(未知混杂因素),随机分配通过大数定律,能够将这些已知和未知的混杂因素在各个研究组中得到均衡分布,就像洗牌一样,确保各组在这些特征上“势均力敌”。
随机分配是因果推断的金标准,它为我们提供了“ apples-to-apples ”(苹果对苹果)的比较基础,而不是“ apples-to-oranges ”(苹果对橙子)。

具体方法:如何进行随机分配?
随机分配不是简单地抛硬币,尤其是在大样本研究中,需要更严谨的方法,主要分为三类:
简单随机
这是最基本的方法,类似于抛硬币。
- 方法:为每个符合纳入标准的受试者生成一个随机数,然后根据随机数的奇偶数或大小(如大于0.5分到A组,小于等于0.5分到B组)来决定其分组。
- 工具:可以使用计算机程序(如R, Python, SPSS)、随机数表或抛硬币。
- 优点:方法简单,易于理解和实施。
- 缺点:
- 样本量较小时,组间不平衡风险高:比如连续10次抛硬币,出现8次正面2次反面的概率并不低,在样本量小的研究中,这可能导致重要的基线特征在组间分布不均。
- 无法预先设定各组人数:在研究结束时,两组人数可能相差较大。
区组随机
这是最常用、最推荐的随机方法之一,能有效克服简单随机的缺点。
- 方法:将受试者分成一个个“区组”(Block),每个区组内包含固定数量的受试者(如4人或6人),并预先设定好每个区组内各组的人数分配(在一个4人区组中,预设为2人A组和2人B组),在每个区组内,对受试者进行随机排列。
- 举例:设定区组大小为4,区组内分配为
AABB,在一个新的区组开始时,计算机随机打乱这个顺序,可能得到ABAB或BAAB等,研究者按此顺序依次纳入受试者。 - 优点:
- 保证组间人数平衡:无论何时,两组的人数都不会相差超过区组大小的一半。
- 适用于多中心研究:可以按中心进行分层区组随机,确保每个中心内各组人数也基本平衡。
- 缺点:
- 如果区组大小和分配方案被破译,可能导致分组被预测:研究者如果知道区组大小是4,且当前已经纳入了3人(2A1B),那么他就能预测第4个人必定是B,这在开放标签试验中尤其需要注意。
分层随机
当某个或某几个已知的重要混杂因素对结果影响很大时,使用分层随机。

- 方法:
- 确定分层因素:如年龄(<60岁 vs. ≥60岁)、性别、疾病分期等。
- 创建层:根据分层因素的不同组合创建“层”,可以创建“年轻男性”、“年轻女性”、“老年男性”、“老年女性”四个层。
- 在每层内进行随机:在每个层内,再使用简单随机或区组随机的方法进行分组。
- 优点:
- 能确保关键基线特征在组间高度均衡,这是其最大优势。
- 缺点:
- 操作复杂:当分层因素过多时,会导致层数激增,有些层可能样本量很少,甚至没有受试者,使随机分配无法进行。
- 通常与区组随机结合使用,即“分层区组随机”,这是临床试验的黄金标准。
实施步骤:一个完整的随机分配流程
一个严谨的随机分配过程通常包括以下几个关键步骤:
-
生成随机序列:
- 由一个不直接参与受试者招募和评估的、独立的统计师或方法学家来完成。
- 使用专业的统计软件(如SAS的PROC PLAN, R的
randomizr包)生成不可预测的随机序列。
-
隐藏随机序列:
- 这是至关重要的一步,称为“随机化隐藏”(Allocation Concealment),目的是防止研究者在分配受试者时预先知道或猜测出下一个受试者会被分到哪一组,否则会引入严重的选择偏倚。
- 方法:
- 中心电话/网络随机:最理想的方法,研究者通过电话或登录一个安全的网站,输入受试者的唯一ID,系统自动返回分组信息。
- 不透光、密封的信封:按顺序编号,每个信封内装有写有分组信息的纸条,在确定受试者符合入组标准后,才能打开对应编号的信封,必须在受试者完成所有基线评估后才能打开。
-
执行随机分配:
在受试者签署知情同意书并完成所有基线测量后,由研究助理或指定人员按照预设的流程(如打电话、开信封)获取分组信息,并将受试者分配到相应的干预组。
-
记录与盲法:
- 详细记录分配过程、日期和人员。
- 盲法:随机分配后,应尽可能采用盲法(单盲、双盲、三盲)来执行干预和评估结果,以减少测量偏倚,随机分配是实现盲法的前提。
常见误区与注意事项
-
误区1:随机抽样 = 随机分配
- 随机抽样:指从总体中随机抽取样本,目的是让样本能代表总体,结论可以推广到总体,这是观察性研究(如横断面调查、队列研究)的概念。
- 随机分配:指将已抽样的样本随机分到不同组别,目的是建立组间可比性,推断因果关系,这是实验性研究(RCT)的核心。
- 两者目的和方法完全不同,一个RCT可以是非随机抽样的(如方便抽样),但必须是随机分配的。
-
误区2:随机分配就是“随便”分
绝对不是。“随便”分带有主观性,而随机分配必须是一个基于概率的、严谨的、可重复的、预先设定的过程。
-
关键点:随机化隐藏
如果没有做到随机化隐藏,即使采用了复杂的随机方法,研究的内部效度也可能受到严重威胁,这是很多研究失败的重要原因。
| 方法 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 简单随机 | 简单易行 | 小样本时易不平衡,人数不可控 | 样本量大,或探索性研究 |
| 区组随机 | 保证组间人数平衡,操作相对简单 | 可能被预测,存在选择偏倚风险 | 最常用,尤其是样本量适中的研究 |
| 分层随机 | 确保关键基线特征均衡 | 操作复杂,层数过多时不可行 | 存在强混杂因素,且样本量足够大时 |
随机分配是确保研究结果可靠性的技术核心,选择哪种方法取决于研究目的、样本大小、是否存在重要混杂因素等因素,无论选择哪种方法,都必须严格遵循“生成-隐藏-执行”的流程,并尽可能实施盲法,才能最大限度地保证研究的科学性和可信度。
