数据集

数据集主要分为以下4种类型:

  1. Non-specific xxx-seq: 非特异性的数据。
  2. Specific xxx-seq: 针对某种细胞的特异性数据
  3. STRING:蛋白质-蛋白质相互作用数据库。可视为权威。
  4. LOF/GOF:基于基于敲除或基因过量表达的实验数据。可视为权威。

scATAC-seq :染色质的开放程度。
ChIP-seq:蛋白与基因关系的实验数据。

特异性

同一种基因在不同的细胞中可能具有不一样的调控关系。常常使用TFs+xx来表示top xx个特异性的TFs。
如TFs+1000表示最具有特异性的1000个TFs。

细胞类型

m开头的一般指老鼠(mouse),如:mDC、mESC

h开头的一般指人类(human),如:hESC、hDC

人造数据集

如果数据集不够多,可以使用算法生成假的GRN。

可视化技术

UMAP

这是一种在2018年提出的图降维算法,通过拓扑理论同时兼顾数据的局部和全局结构。

基因表达量

AD表示阿尔兹海默患者,CT表示对照组.from SCRN

同一种基因在不同的状态下的表达量不同,可以依次作为依据认为其具有特异性。

局部GRN

直接将部分GRN画出来。关联性越强,其中的线条就越粗。

评价指标

  1. AUROC:区分正负样本的能力
  2. AUPRC:应对正负样本不平衡的能力
  3. MCC
  4. F1,recall,precision,accuracy

KL散度

对于正负样本分布的问题,可以用KL散度来评估模型的预测能力。

超参数分析

如果超参数在2维及以下,可以画出超参数-评价指标的图。

如果超参数过多,就作为一维指标去画。

消融实验

使用5折交叉验证方法进一步增强说服力。并且这部分可以结合评价指标进行图示。

将提出的方法与其他方法进行对比

将state-of-the-art的方法进行对比
LineGRN

其中w/o指without

GCLink
画出箱形图​​,将置信度一起展示。

将提出的方法与去除该方法进行对比

LineGRN
将提出的模型进行变体,如图中的LineGRN-就表示去除线图化操作。

DeepFGRN:比较不同的特征组合
通过这种排列组合的方法就能画出一堆图。

鲁棒性实验/敏感度实验

  1. 针对不同的数据集
  2. 边扰动:随机添加或删除边
  3. 节点扰动:随机添加或删除节点

并且与已有的方法进行对比。还可以根据扰动的幅度做出图表。

network1...表示不同的GRN数据集
可以做出维度分析图

示例展示/案例研究

选择一个具体的示例,将模型的输出与权威的结果进行对比。

eg. 将计算出来的调控关系与已知的调控关系进行对比

应用实际:生物学应用

对尚未解决的问题,给出模型的输出结果

  1. 靶向药品的预测
  2. 基因疾病的分析(不同的表达量)