3. 数据的基本格式

EMP包下游分析计算主要基于三类数据,微生物数据、分组数据和表型数据。

3.1 微生物数据data格式要求

微生物数据主要包含项目各个样本的微生物注释及丰度组成,可以由Qiime1/2、Usearch等微生物上游分析工具生成。输入数据表格行或者列均可为微生物注释,数据内容为微生物相对丰度或者绝对丰度(EMP计算过程中将自动将绝对丰度转换为相对丰度)。微生物注释不同级别,应用分号隔开;

注意:EMP可以自动判断微生物数据data的物种注释级别,因此用户无需刻意手动修改数据文件命名,但是需要统一文件格式为csv或者txt

格式一

SampeID A01 A02 A03 A04 A05
k__Bacteria;p__Actinobacteria 0.03121966 0.00920281 0.01498855 0.02058013 0.00489263
k__Bacteria;p__Bacteroidetes 0.56583699 0.35700695 0.3541335 0.47908981 0.37075292
k__Bacteria;p__Cyanobacteria 0.00031064 0.00023298 0.0003883 0.0003883 0.0003883
k__Bacteria;p__Deferribacteres 0.00015532 0.00481497 0.01184328 0.00298994 0.00372772

格式二

SampleID A01 A02 A03 A04 A05
k__Bacteria;p__Actinobacteria 804 237 386 530 126
k__Bacteria;p__Bacteroidetes 14572 9194 9120 12338 9548
k__Bacteria;p__Cyanobacteria 8 6 10 10 10
k__Bacteria;p__Deferribacteres 4 124 305 77 96

格式三

SampeID k__Bacteria;p__Actinobacteria k__Bacteria;p__Bacteroidetes k__Bacteria;p__Cyanobacteria
A01 0.03121966 0.00920281 0.01498855
A02 0.56583699 0.35700695 0.3541335
A03 0.00031064 0.00023298 0.0003883

格式四

SampeID k__Bacteria;p__Actinobacteria k__Bacteria;p__Bacteroidetes k__Bacteria;p__Cyanobacteria
A01 804 14572 8
A02 237 9194 6
A03 386 9120 10

3.2 表型数据meta格式要求

表型meta数据应包含项目中样本的表型相关数据,数据内容应为连续数值变量或者等级数值变量。

注意:由于微生物实验项目中,表型数据meta主要由患者临床数据、代谢质谱数据、转录组数据等组成,表型数据样本可能会少于微生物数据样本。因此EMP包在计算中将会采用样本交集的形式进行下游计算,表型数据meta的样本无须与微生物数据data的样本完全一致。

SampleID Body_Weight Hemoglobin Fecal_Iron Liver_iron
A01 27.00 15.0 7.9391279 34.410363
A02 29.40 14.8 8.2228562 36.203700
A03 28.50 13.5 10.8827860 36.427868
...... ...... ...... ...... ......

3.3 分组数据mapping格式要求

mapping文件主要记录了样本及分组情况,共包含两列信息。第一列为SampleID样本信息,需与微生物注释表中的样本名称完全一致,第二列Group为样本所对应的分组情况。

注意:EMP包在计算过程中将会根据mapping文件自动提取样本与分组信息,因此mapping文件内样本无须与微生物数据data完全一致。例如,当项目中需要剔除部分样本或者进行亚组分析时,只需要修改mapping文件或者创建新的mapping文件即可,无须修改微生物数据和表型数据内容。

SampleID Group
A01 CT
A02 CT
... ...
B01 ID
B02 ID

3.4 示例数据的内置与下载

在本教程中,EMB工具包采用了一篇SCI文章的真实数据进行示例分析。该文章利用16s技术观察分析了低铁饲料组,正常饲料组和高铁饲料组下小鼠肠道菌群的变化。(DOI: 10.1096/fj.201901635RR)

EMB包内置了教程中所需要的示例数据,可以在分析中直接调用。

# 调取EMP包内置示例数据
library(EasyMicroPlot) # 加载包
EMP$micro # 这里以list形式储存了27个小鼠粪便样本门纲目科属种级别微生物相对丰度的数据
EMP$mapping # 这里存储了27个小鼠粪便样本的分组信息
EMP$iron # 这里存储了27个小鼠表型数据,包含基本生理信息和不同组织的铁含量数据
EMP$meta # 这里存储了广东省微生物计划618个受试者基本信息、饮食资料及排便情况的数据
EMP$Sankey_data # 这里用list形式存储了为Charpter 16 多层相关性Sankey图的示例的三层数据

该教程也提供了原始数据文档,可以利用EMP包读取功能进行示例分析。

下载地址:Github地址

Copyright © 382983280@qq.com 2022 all right reserved,powered by Gitbook更新时间: 2022-09-06 17:06:17

results matching ""

    No results matching ""