3. 数据的基本格式
EMP包下游分析计算主要基于三类数据,微生物数据、分组数据和表型数据。
3.1 微生物数据data格式要求
微生物数据主要包含项目各个样本的微生物注释及丰度组成,可以由Qiime1/2、Usearch等微生物上游分析工具生成。输入数据表格行或者列均可为微生物注释,数据内容为微生物相对丰度或者绝对丰度(EMP计算过程中将自动将绝对丰度转换为相对丰度)。微生物注释不同级别,应用分号隔开;
。
注意:EMP可以自动判断微生物数据data的物种注释级别,因此用户无需刻意手动修改数据文件命名,但是需要统一文件格式为csv
或者txt
。
格式一
SampeID | A01 | A02 | A03 | A04 | A05 |
---|---|---|---|---|---|
k__Bacteria;p__Actinobacteria | 0.03121966 | 0.00920281 | 0.01498855 | 0.02058013 | 0.00489263 |
k__Bacteria;p__Bacteroidetes | 0.56583699 | 0.35700695 | 0.3541335 | 0.47908981 | 0.37075292 |
k__Bacteria;p__Cyanobacteria | 0.00031064 | 0.00023298 | 0.0003883 | 0.0003883 | 0.0003883 |
k__Bacteria;p__Deferribacteres | 0.00015532 | 0.00481497 | 0.01184328 | 0.00298994 | 0.00372772 |
格式二
SampleID | A01 | A02 | A03 | A04 | A05 |
---|---|---|---|---|---|
k__Bacteria;p__Actinobacteria | 804 | 237 | 386 | 530 | 126 |
k__Bacteria;p__Bacteroidetes | 14572 | 9194 | 9120 | 12338 | 9548 |
k__Bacteria;p__Cyanobacteria | 8 | 6 | 10 | 10 | 10 |
k__Bacteria;p__Deferribacteres | 4 | 124 | 305 | 77 | 96 |
格式三
SampeID | k__Bacteria;p__Actinobacteria | k__Bacteria;p__Bacteroidetes | k__Bacteria;p__Cyanobacteria |
---|---|---|---|
A01 | 0.03121966 | 0.00920281 | 0.01498855 |
A02 | 0.56583699 | 0.35700695 | 0.3541335 |
A03 | 0.00031064 | 0.00023298 | 0.0003883 |
格式四
SampeID | k__Bacteria;p__Actinobacteria | k__Bacteria;p__Bacteroidetes | k__Bacteria;p__Cyanobacteria |
---|---|---|---|
A01 | 804 | 14572 | 8 |
A02 | 237 | 9194 | 6 |
A03 | 386 | 9120 | 10 |
3.2 表型数据meta格式要求
表型meta数据应包含项目中样本的表型相关数据,数据内容应为连续数值变量或者等级数值变量。
注意:由于微生物实验项目中,表型数据meta主要由患者临床数据、代谢质谱数据、转录组数据等组成,表型数据样本可能会少于微生物数据样本。因此EMP包在计算中将会采用样本交集的形式进行下游计算,表型数据meta的样本无须与微生物数据data的样本完全一致。
SampleID | Body_Weight | Hemoglobin | Fecal_Iron | Liver_iron |
---|---|---|---|---|
A01 | 27.00 | 15.0 | 7.9391279 | 34.410363 |
A02 | 29.40 | 14.8 | 8.2228562 | 36.203700 |
A03 | 28.50 | 13.5 | 10.8827860 | 36.427868 |
...... | ...... | ...... | ...... | ...... |
3.3 分组数据mapping格式要求
mapping文件主要记录了样本及分组情况,共包含两列信息。第一列为SampleID
样本信息,需与微生物注释表中的样本名称完全一致,第二列Group
为样本所对应的分组情况。
注意:EMP包在计算过程中将会根据mapping
文件自动提取样本与分组信息,因此mapping
文件内样本无须与微生物数据data
完全一致。例如,当项目中需要剔除部分样本或者进行亚组分析时,只需要修改mapping
文件或者创建新的mapping
文件即可,无须修改微生物数据和表型数据内容。
SampleID | Group |
---|---|
A01 | CT |
A02 | CT |
... | ... |
B01 | ID |
B02 | ID |
3.4 示例数据的内置与下载
在本教程中,EMB工具包采用了一篇SCI文章的真实数据进行示例分析。该文章利用16s技术观察分析了低铁饲料组,正常饲料组和高铁饲料组下小鼠肠道菌群的变化。(DOI: 10.1096/fj.201901635RR)
EMB包内置了教程中所需要的示例数据,可以在分析中直接调用。
# 调取EMP包内置示例数据
library(EasyMicroPlot) # 加载包
EMP$micro # 这里以list形式储存了27个小鼠粪便样本门纲目科属种级别微生物相对丰度的数据
EMP$mapping # 这里存储了27个小鼠粪便样本的分组信息
EMP$iron # 这里存储了27个小鼠表型数据,包含基本生理信息和不同组织的铁含量数据
EMP$meta # 这里存储了广东省微生物计划618个受试者基本信息、饮食资料及排便情况的数据
EMP$Sankey_data # 这里用list形式存储了为Charpter 16 多层相关性Sankey图的示例的三层数据
该教程也提供了原始数据文档,可以利用EMP包读取功能进行示例分析。
下载地址:Github地址