1、1 GEO数据检索
2、1.1搜索基因云馆分析平台 ,登录系统(或注册后登录),见PIC.1
3、1.2进入操作页面,检索数据GSE75037,见PIC.2
4、GSE75037检索结果是这样的,见PIC.3
5、2 芯片数据预处理
6、2.1进入数据预处理界面,做好准备工作,比如在GEO官网里查找GSE75037的数据信息:Platforms (1): GPL6884 Illumina HumanWG-6 v3.0 expression beadchip;在基因云馆平台上的芯片数据预处理中的Platform下拉框里面有对应的平台号,说明该数据可以在这个平台上自主分析,详情见PIC.4。
7、2.2找分组信息 找对分组信息是关键,打开第一步GEO数据检索结果里面的GSE75037_GPL6884pData.csv文件,见图PIC.5。很明显I列信息就是要找的分组信息,列名称source_name_ch1就是芯片数据预处理的groupName,另外,可以看出该数据只有两个分组,即Non-malignant lung和Lung cancer。
8、2.3芯片数据预处理,具体操作步骤见PIC.6。只要检索数据在平台上有对应的Platform,芯片数据预处理时Platform不用再单独选择(不用做任何处理)。
9、芯片数据预处理后,结果是这样的,见 PIC.7
10、3差异基因分析差异基因分析,上传上部结果里面的GSE75037_GPL6884RData文件,具体操作见PIC.8,colselect栏自动默认“groups”,control栏选好对照组,genenamesets栏有目的基因就填上,logFC和pvalue可以适当的调节。
11、结果是这样的,见PIC.9和PIC.10