唐驳虎：美国和中国的病毒，谁是爷爷辈？看图！

作者：唐驳虎来源：凤凰新闻

前面4篇，讲完了用一两句话总结就是：流行病学调查（简称“流调”）19世纪靠“猜”、20世纪靠“找”、21世纪靠“算”。

19世纪是马车、20世纪是汽车，21世纪是高铁、飞机、火箭。其他领域如此，生物领域更是如此。现在，我们要坐着飞机和火箭，从正确的起点出发去找了。

传统流调的贡献与极限

综合各媒体的报道，12月底，在武汉中心医院、新华医院（中西医结合）等医院，指示病例（Index Case）几乎同时爆发，各医院的6~7例非典型肺炎病例，都被尽职尽责的医生们注意到，并立即上报，拉开疫情序幕。

随后，各医院的医生，又在本院病例库里，追踪了本单位原发病例（Primary Case），找到了更多12月发病的病例，并描绘成曲线。

目前临床库里追踪到最早的病例，分别是12月初的华南果品市场摊贩、12月初附近小区常年瘫痪卧病在床的老年痴呆患者。显然，这些还都不是真正意义的“原发病例”。

如果公共卫生调查力量介入，在去年11月的武汉，理论上有可能找到所谓的“1号病人”——按流行文化和热门网文的定义，大致是人类世界里第一个患病的患者。

但想找到严格意义的“0号病人”——按流行文化和热门网文的定义，大致是人类世界里第一个被动物感染、但却没有生病的患者。然后又是他把病毒传播开来，最终产生了“1号病人”的感染-传染者 ——但这是不可能的。

从疫情发生到现在，武汉市中心医院急诊科主任艾芬，带领着近200人的团队，50多天不下火线，日夜坚守在发热门诊、留观病房(武汉广播电视台)

因为现在大家都知道了无症状感染者、病毒潜伏期的概念。无论你找到谁，你怎么证明，在他/她之前的1~2个最长潜伏期（14~28天）内，就一定没有别的疑似病例、没有无症状感染者？ “会不会还有上家”？这没法证明。

而且，由于当时的患者已经治愈、自愈或者病亡，做核酸检验已经是过去式。

就是做最灵敏、有记录的血清抗体检验——现在武汉好几万病愈患者、自愈的轻症患者、无症状感染者，如何确定感染时间先后？

如何确定谁是去年11月而不是今年1月不知不觉感染上的“无症状患者”？现在也完全区分不开了。

所以，传统流调的追溯极限大概就是这里了——它提供了病情溯源的起点。

但要继续局限在这个办法里“找”，那就是驾马车钻死胡同。如前所述，蠢得冒烟的行为。

要不仅掌握病毒在人类世界流传的“今生”，还要了解病毒之前在自然界演化的“前世”，必须用21世纪的分子生物学、生物信息学。

因为，在病毒序列里，记载着病毒传播演变的全部身份、历史。也正如钟南山老先生所说，必须要靠“溯源”。

溯源工作的三个目标

溯源工作的基本工具，以前已经讲过很多次了，就是基因测序（“测”）和生物信息学（“算”），最重要的分析手段，就是演化树定位。

这些都是全世界生物学界公认的基本标准，现代生物学的基础地基，也是实验室最常规的手段，而不是什么科学前沿。说白了，中国懂，美国也懂，俄罗斯也懂，一般国家都懂，所有的生物研究者都懂。

现在一台测序仪每天可完成 60 人的全基因组测序，把 60 个人每人 31.6 亿bp这么复杂的生物DNA全部测出来。新型冠状病毒只有不到 3万bp的单链RNA，不到一个人10万分之一的数据量，在现代基因测序技术面前如同裸奔一般。

以前没有基因测序，各种阴谋论还真不好反驳。

但有了基因测序技术之后，全序列清清楚楚，都袒露在全世界面前。

病毒的变异、留痕，都是公开透明的、可以追查的。不认可的国家、专家可以自己调查研究，样本现在全世界都有，只是发出来的报告不要被全世界沦为笑柄就好。

溯源工作至少有三个主要层面：

1、研究病毒如何从动物进入人体；搞清楚它从天然宿主到人类世界的路径，通过什么中间宿主，发生了什么基因变异、重组，最后在什么场景下传入人类世界。

2、研究病毒在自然世界的演化史（“前世”）；在自然界演化过程中，病毒的特性是否发生了明显的定向的变化。

3、研究病毒在人类世界的传播史（“今生”）；从武汉到全世界的扩散过程中，发生了什么样的变化，有没有出现传播能力和毒力的变异。

从关心程度来看，可能大部分人关注的程度是1、2、3。

但从病毒溯源的过程来看，逻辑步骤则应是3、2、1。我们今天先来谈3。

台湾节目揭露病毒来自美国？

这两天一条“台湾节目追溯新冠病毒源头，然后追到美国去了”的视频火了。

节目中，有关嘉宾判断新冠病毒源头可能在美国的主要依据，正是前不久几位研究者在ChinaXiv论文预印本网站上联合发布的一篇论文。

也正是我早就说过——“大错特错”、“哗众取宠”的一篇论文，发表于2月21日。

四位作者分别来自西双版纳热带植物园综合保护中心、韶关大学生物农业学院/华南农业大学林学与园林学院、中国脑科学研究所。

当时就被生物业界同行评价为——做研究跨界太大，结果存疑。当然，我们不因人废言。但所有科研成果，都需接受专家学者的交流和讨论。

当时的网友评论在这篇论文里，对病例、样本的命名极其混乱、拗口。什么mv1、H38、H3、H1、H56、mv2，编号乱得要命，数字大小既不代表时间顺序，也不代表空间与逻辑顺序，真不知道怎么命名的。

（顺带说一句，就我个人的行外感受，混乱混沌的生物，跟严谨有序的物理、工程，两种学科的思维模式非常不兼容。）

这篇论文，当时就被一般读者吐槽了。命名、逻辑颠三倒四，让人读起来、理解起来极其费劲。神马玩意啊！

当时的网友评论

经过令人头疼的阅读，终于能理解，他们的研究方式是，选取了GISAID数据库中覆盖了四大洲12个国家的93个新冠病毒样本的基因组数据（截止2月12日），通过数据解析，追溯传染源及扩散路径。

他们研究发现，93个样本包含58种类型，可以归纳为五组。结果他们发现，武汉居然只有三组！深圳有另外一组，美国有另外一组。

而且美国集齐了所有的五组！有阴谋！大阴谋！

哗众取宠不要太过啊……

这里，我先用普通读者就能读懂的视角来解析这篇论文。其实论文当时就承认，来自武汉的样本，取样截止日期早在1月5日之前，而全球大部分地区的样本，都是1月22日之后才获取的，当时最晚的取样日期是2月3日。

但就是这样的背景，还能得出结论——华南海鲜市场的患者可能是被传入的，不是原始来源。因为武汉/华南海鲜市场的类型单一，而武汉/华南海鲜市场之外的类型反而比较丰富。

所以这就是论据-推论-结论。我也是服了。

如果仔细研究数据来源，就发现研究的依据——武汉的样品完全采自早期几家定点医院，而且样品采集时间局限于12月24日~1月5日之间。

稍微有点记忆的读者就知道，当时公布的发现病例，不过是区区44~59人！实际上就是那几家医院发现的指示病例（Index Case）而已！

而中国疾控中心2月12日所做的回顾性研究已经显示，12月31日之前，湖北已出现104名发病者（还不包括感染者）；

到1月10日，已经出现653名发病者，分布在20个省份的113个县区，其中湖北占88.5%（578人）。

其他75人已经位于湖北省外的19个省。这显示大规模疫情传播已经开始，感染者还不止这几百人。

在武汉几百个已经发病的病例中只选几十个病例，那肯定类型不全啊！

至于拿1月20日已经流散到全球、开始演化的病毒，去比较1月5日之前的少数几个集中的早期病例，那就更是关公战秦琼了！论据选取就已经大错特错了，遑论其他。

当然，21日的这篇论文，还是承认全球包括美国早期的感染者，都有武汉旅行经历，是在武汉被感染的。所以论文得出的结论就是，可能源头在华南海鲜市场之外，但是还是在武汉。

而之后的媒体传播，就故意隐去了“武汉旅行史”，变成了美国凭空就有了所有五组病例。

所以……这形同造谣了。

更加惊世骇俗：湖北已经是第三代？

论文还认为，美国的第一例病例，在演化树上还属于中国的“祖先”，这就进一步辅助坐实了阴谋论。美国是“爷爷”，中国怎么是“孙子”，这不就是从美国传来的吗？

不仅如此，原论文认为广东（绿）、日本（蓝）、美国（粉红）的病例病毒是第一代，英国（灰黄）、澳大利亚（土黄）、美国（粉红）、韩国（青绿）、越南（土粉）是第二代。

原论文作者的解读

湖北（正红）病例在第二代才出现，第三代才扩散。这真是惊世骇俗啊！武汉是被广东、四川、云南、越南、韩国、英国传染输入的？这不是扯地吗！但真实的原因上一段已经说了，这里选取的湖北（也就是武汉）病例，都是1月5日前被收治的一小部分（比例约1/10）。

这是更正确一些的解读

而图上大量的外省、外国病例（1月底之前），则都是1月20日前，在武汉旅行、居住，被传染上的其他病毒子类型。

只要是专业研究者，一眼就看透问题了

且不说上面已经讲清楚的病例选取问题，我还就是一句话，你访问过他们做研究所用的数据库GISAID吗？

你只要上去看一眼，就知道他们错在哪了…… 这里先科普介绍一下，专业研究者做基因比较，最常利用的就是这么几组国际公开共享的基因数据库：

GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的基因序列数据库。

GISAID的全称是Global Initiative of Sharing All Influenza Data（全球共享所有流感数据倡议），由德国联邦食品和农业部及其下属的德国联邦动物研究所运营。

CNBG（China National GeneBank DataBase）中国国家基因库，则是由深圳华大基因运营。

由于病毒特性，在这次疫情中，德国的GISAID国际流感数据库是各国学者上传最集中的数据库。这个数据库最开始的时候专注于流感，后来则逐渐扩大为呼吸道传染病，及其他生物信息。

好，我们就来访问这个GISAID。现在已经有21个国家共享了128组病毒测序数据。从首页只需点击一下右侧导航栏，你发现了什么？

原来，GISAID已经直接把所有病毒的演化树，按时间、国家、特别是演化树的结论，直接呈现了……

GISAID的地区设色，中国大陆为深紫色，大致由近到远颜色变化，美国为深红色。

虽然中国的上传更新还是很慢，大部分序列还是1月24日之前的，外国的要快得多。但GISAID已经把所有序列的演化关系，初步自动计算呈现出来了。

可以看出，在繁衍、变异、传播的演化树上，的确总体上是中国早期的病毒是“爷爷”，亚太的是“儿子”、欧美的是“孙子”，呈现出由近到远演化的有序序列。

说实话，对于生物信息学我只是概括了解，我确实无力演算验证。但你要说，是最全专业数据库全自动生成的、清清楚楚的、可视化的、逻辑时间结构清晰的结果可信，还是跨界研究者手工计算、颠三倒四、令人费解的结果可信？

我当然是相信前者……

明明网络数据库直接就给出了最全、最现成、可视化的结果，谁还要你手工自己算…… 而且还算错了，算错了，算错了，算错了，算错了，算错了……

溯源3就这样在被一篇奇葩论文打乱的过程中大致完成了。其实，还有好几篇严肃、可信的论文，然而却无人问津。

比如南方医科大学（原第一军医大学）的研究者，就把病毒由动物传入人类的时间，初步确定为11月10日左右。

结合临床回顾，这个时间点应该是可信的。那下一步，我们就围绕这些严肃论文，展开对2和1的追踪。

来源时间：2020/3/2 发布时间：2020/3/3

旧文章ID：20825

作者

存档帖子



丛日云：我们为什么会误判美国和特朗普？

《美中科技合作协议》延长六个月：美国内不同派别如何看

李瑞秋：中国民众对世界和本国的看法

谁赢得了债务上限之争？

夹在美国和中国之间的东盟

作者

相关内容

皮尤最新调查显示美国人对中国看法有所回暖

美军扣押自中国出发的伊朗货轮 特朗普很不满

华盛顿鹰派为何“强拉”中国入伊朗危机？

外媒：伊朗局势冲击中美关系缓和进程

孙太一：中美稳定，不是因为信任，而是因为恐惧

“半懂”中国的美专家正将美中关系推向深渊？

关注我们：

美军扣押自中国出发的伊朗货轮特朗普很不满