◇◇新语丝(www.xys.org)(xinyusi.org)(groups.google.com/group/xinyusi)◇◇   像专家一样解读民意调查结果   ·方舟子·   在拜登退选之前,各种民意调查的结果都表明川普领先拜登,所以川普和川 粉那时很喜欢宣扬民意调查的结果有多么好,说我们要赢了。拜登交棒给哈里斯 后,哈里斯逐渐反超川普,而且差距越拉越大。现在哈里斯在全国范围内平均领 先川普3个点,而且距离还有可能进一步拉大,所以川普和川粉们不再相信民意 调查,认为民意调查都是假的。   有不少人并不是川普的支持者,但也觉得美国这么大,3亿人口只抽查了 1000人左右,民意调查的结果怎么能相信呢?其实只要有统计学知识,就知道在 全国范围内做民意调查应该抽查多少人。首先要设置一个“置信度”,也就是能 成立的概率,一般设在95%,也就是调查结果能成立的概率是95%。根据统计学的 公式算一下就知道,在全美国进行随机抽查,只需要抽查1000人左右就够了。这 样当然会有误差,误差大概是±3%。所以,哈里斯现在领先川普3个点,如果是 49%:46%,意思是有95%的概率,结果在52%:43%和46%:49%之间。但是,只有在很 理想的状态下才能这么理解。理想的状态指抽查是随机的,而且获得的样本具有 代表性,这样得到的民意调查结果才能比较真实地反映全国的民意。   实际生活中没有这么理想的状态,所以除了误差之外还会在统计上发生别的 错误。有一种统计错误是“覆盖错误”,指的是抽查的群体跟目标群体不完全重 叠。马斯克也在他的推特账号上做“民意调查”,让推特用户都来投票,看是支 持哈里斯还是川普。号称有几百万用户投票,支持川普的超过70%,川粉们很喜 欢拿这个数字来表明川普获得的支持比哈里斯高得多。而且强调这是好几百万人 投票的结果,比只抽查1000人的民意调查准确得多。其实不是这样的。首先,我 们不知道推特投票是不是真的代表了具体的人。现在推特上有很多机器人,有可 能就是水军在投票,并不能反映推特的真实用户。其次,即使几百万人都是真实 的用户,不是水军和机器人,也不能说明问题,因为推特的用户跟美国的选民不 重叠。大部分推特用户是国外的,不是美国选民,即使人在美国,也不都是美国 公民。而美国的选民大部分不用推特。推特用户跟美国选民不重叠,就是覆盖错 误。   即使不是马斯克这种只能当成娱乐的网络投票,科学的民意调查也存在着覆 盖错误的问题。比如以前的民意调查是随机抽取电话本里的电话号码打过去,但 是列在电话本上的名单跟美国选民的名单未必是重叠的。这是因为那上面的很多 电话号码不是美国选民的,而有一些美国选民并没有公布自己的电话号码,这就 出现了覆盖错误。现在很多调查是通过电子邮件或通过网站招募来做的,同样存 在着这个问题,虽然民意调查时会确认是否登记的选民,但并不能保证回答者就 会说真话。   还有一种统计错误叫做“不响应错误”。以前的民意调查都是打电话询问, 现在由于垃圾电话太多,大部分人不接陌生电话,或者接了之后听说是民意调查, 就说没时间或不愿意做,这就叫做“不响应”。现在完全靠电话做的民意调查还 有,但很少,大部分通过网络或发邮件做民意调查,或者在网上刊登广告吸引人 来做调查,有的还会给一点奖励。更多的是各种调查方式结合在一起,比如网上 和电话相结合。但不管用哪种方式做调查,都存在着“不响应”,因为不管什么 方式,大部分人都不会理睬民意调查,大概只有1%的人会接受民意调查。这就出 现了一个问题:愿意接受和不愿意接受的人群不一样。相对来说,年轻人比年纪 大的人、少数族裔比多数族裔、教育程度比较低的人比教育程度高的人更不愿意 接受民意调查,这就导致获得的样本有偏差,调查结果就不具有代表性。   具有代表性的样本必须反映整个人口的分布情况,所以做民意调查的人都会 参照人口的分布特征,根据年龄、性别、教育程度、种族、党派、意识形态等指 标进行加权调整,现在最多的用到了12个指标。但即使这样,也未必能够获得一 个很典型的样本。比如2016年和2020年两次美国大选,民意调查的结果都低估了 川普的支持率。人们一开始怀疑川普的支持者不好意思说自己支持川普,于是说 了假话,说自己支持第三方或者支持希拉里、拜登,或者说未确定支持谁;后来 研究的结果发现,川普的支持者并不害羞。发生偏差的主要原因在于川普的支持 者相对比较不愿意接受民意调查,因为他们信不过做民意调查的机构,特别是新 闻媒体。很多民意调查都是新闻媒体委托民意调查机构去做的,打电话或者发邮 件说,我们是《纽约时报》或者美联社,要做民意调查。以前一听是《纽约时 报》、美联社,觉得他们信誉很好,愿意接受民意调查;但川普粉们一听美联社、 《纽约时报》,认为是假新闻,就把电话掐了或把邮件删了,有的在掐了或删了 之前还先骂一顿。这就导致民意调查获得的样本里,川普的支持者比例偏低,也 就导致川普的支持率偏低。这是比较难解决的一个问题,现在虽有各种各样的办 法试图对此做出校正(例如询问被调查者上次大选投票给谁),但结果很难说。   美国大选的民意调查跟别的民意调查不一样,还有它的特殊性。首先,它要 调查的是人们未来的行为,问的是大选那一天怎么投票,而不是现在的看法。这 就存在问题了:人们的行为会发生改变,现在说要投给谁,到时候完全可能发生 变化。现在说要投给哈里斯,投票时投给川普;或者现在说要投给川普,投票时 却改投给哈里斯或者第三方。现在说自己会投票的,未必到时候就会去投票;现 在说不投票的,到时候说不定会去投票。美国的投票率很低,大概三分之一的选 民不去投票,而投票率的高低跟民意调查结果的准确性有很大的关系。民意调查 的结果会低估了川普的支持率的一个原因就跟投票情况有关,民意调查低估了川 普支持者的投票率。   美国大选的民意调查还有一个很特殊的问题,美国总统选举的结果并不由全 国的选票决定,而是由各州“选举人票”决定的。做美国全国民意调查的机构非 常多,平均下来,各种错误会相互抵消,所以美国全国的民意调查结果相对来比 较准确。但是,做州的民意调查的工作量和全国的一样,都要抽查1000人左右, 每做一个州就多一倍工作量,做州的民意调查的机构当然少多了,做得也没有全 国的那么频繁,结果也就没有全国的准确。   人们都说2016年的民意调查结果错得离谱,以为希拉里会赢,结果是川普赢, 所以川粉老拿2016年的民意调查说事,要人们不要相信民意调查的结果。其实, 2016年全国范围的民意调查结果相当准确,最后的调查结果希拉里平均领先川普 3个点,投票的结果是希拉里领先川普两个点。只不过具体到各州,特别是摇摆 州,民意调查的结果比较不准确,导致了预测出现错误。   虽然民意调查的结果并不是那么可靠,但毕竟还是能反映出大选的大致情况 及其趋势,除此之外也没有什么更好的办法。所以我们也不能因为民意调查不完 美,就觉得民意调查完全没有用,它还有相当大的参考价值。只不过在参考民意 调查结果时要注意,它是存在问题的,不能过于相信。现在说哈里斯领先川普3 个点,最后的投票结果未必就是领先3个点,要留有余地。如果哈里斯能够领先 川普6、7个点 或更多,距离拉得越大,获胜的可能性就越高,就更让人放心她 会获胜。   2024.08.29录制   2024.09.16整理 (XYS20241030) ◇◇新语丝(www.xys.org)(xinyusi.org)(groups.google.com/group/xinyusi)◇◇