3. 数据的基本格式

EMP包下游分析计算主要基于三类数据，微生物数据、分组数据和表型数据。

3.1 微生物数据data格式要求

微生物数据主要包含项目各个样本的微生物注释及丰度组成，可以由Qiime1/2、Usearch等微生物上游分析工具生成。输入数据表格行或者列均可为微生物注释，数据内容为微生物相对丰度或者绝对丰度（EMP计算过程中将自动将绝对丰度转换为相对丰度）。微生物注释不同级别，应用分号隔开;。

注意：EMP可以自动判断微生物数据data的物种注释级别，因此用户无需刻意手动修改数据文件命名，但是需要统一文件格式为csv或者txt。

格式一

SampleID	A01	A02	A03	A04	A05
k__Bacteria;p__Actinobacteria	0.03121966	0.00920281	0.01498855	0.02058013	0.00489263
k__Bacteria;p__Bacteroidetes	0.56583699	0.35700695	0.3541335	0.47908981	0.37075292
k__Bacteria;p__Cyanobacteria	0.00031064	0.00023298	0.0003883	0.0003883	0.0003883
k__Bacteria;p__Deferribacteres	0.00015532	0.00481497	0.01184328	0.00298994	0.00372772

格式二

SampleID	A01	A02	A03	A04	A05
k__Bacteria;p__Actinobacteria	804	237	386	530	126
k__Bacteria;p__Bacteroidetes	14572	9194	9120	12338	9548
k__Bacteria;p__Cyanobacteria	8	6	10	10	10
k__Bacteria;p__Deferribacteres	4	124	305	77	96

格式三

SampleID	k__Bacteria;p__Actinobacteria	k__Bacteria;p__Bacteroidetes	k__Bacteria;p__Cyanobacteria
A01	0.03121966	0.00920281	0.01498855
A02	0.56583699	0.35700695	0.3541335
A03	0.00031064	0.00023298	0.0003883

格式四

SampleID	k__Bacteria;p__Actinobacteria	k__Bacteria;p__Bacteroidetes	k__Bacteria;p__Cyanobacteria
A01	804	14572	8
A02	237	9194	6
A03	386	9120	10

3.2 表型数据meta格式要求

表型meta数据应包含项目中样本的表型相关数据，数据内容应为连续数值变量或者等级数值变量。

注意：由于微生物实验项目中，表型数据meta主要由患者临床数据、代谢质谱数据、转录组数据等组成，表型数据样本可能会少于微生物数据样本。因此EMP包在计算中将会采用样本交集的形式进行下游计算，表型数据meta的样本无须与微生物数据data的样本完全一致。

SampleID	Body_Weight	Hemoglobin	Fecal_Iron	Liver_iron
A01	27.00	15.0	7.9391279	34.410363
A02	29.40	14.8	8.2228562	36.203700
A03	28.50	13.5	10.8827860	36.427868
......	......	......	......	......

3.3 分组数据mapping格式要求

mapping文件主要记录了样本及分组情况，共包含两列信息。第一列为SampleID样本信息，需与微生物注释表中的样本名称完全一致，第二列Group为样本所对应的分组情况。

注意：EMP包在计算过程中将会根据mapping文件自动提取样本与分组信息，因此mapping文件内样本无须与微生物数据data完全一致。例如，当项目中需要剔除部分样本或者进行亚组分析时，只需要修改mapping文件或者创建新的mapping文件即可，无须修改微生物数据和表型数据内容。

SampleID	Group
A01	CT
A02	CT
...	...
B01	ID
B02	ID

3.4 示例数据的内置与下载

在本教程中，EMP工具包采用了一篇SCI文章的真实数据进行示例分析。该文章利用16s技术观察分析了低铁饲料组，正常饲料组和高铁饲料组下小鼠肠道菌群的变化。(DOI: 10.1096/fj.201901635RR)

EMP包内置了教程中所需要的示例数据，可以在分析中直接调用。

# 调取EMP包内置示例数据
library(EasyMicroPlot) # 加载包
EMP$micro # 这里以list形式储存了27个小鼠粪便样本门纲目科属种级别微生物相对丰度的数据
EMP$mapping # 这里存储了27个小鼠粪便样本的分组信息
EMP$iron # 这里存储了27个小鼠表型数据，包含基本生理信息和不同组织的铁含量数据
EMP$meta # 这里存储了广东省微生物计划618个受试者基本信息、饮食资料及排便情况的数据
EMP$Sankey_data # 这里用list形式存储了为Charpter 16 多层相关性Sankey图的示例的三层数据

该教程也提供了原始数据文档，可以利用EMP包读取功能进行示例分析。

下载地址：Github地址

Chapter 3 数据的基本格式

3. 数据的基本格式

3.1 微生物数据data格式要求

3.2 表型数据meta格式要求

3.3 分组数据mapping格式要求

3.4 示例数据的内置与下载

results matching ""

No results matching ""