序列分析

获取最新的人的所有miRNA的ID号

代码的作用

加载了mirbase.rds这个文件,里面保存了人的所有miRNA的成熟体ID和miRNA名字。这样的话,我们就可以从TCGA中提取出全部的miRNA

准备文件

①需要到miRBase - Downloads这个网站下载我们需要的miRNA的信息

[!NOTE]- 具体下载详情 image.png

代码

[!NOTE]- 具体的代码

setwd("D:/生信代码复现/1.新TCGA/1.新TCGA")#💚💚💚💚💚💚💚设置工作目录,改成自己的工作目录
#读取hsa.gff3的内容,跳过#开始的行
mir=read.table("hsa.gff3",comment.char = "#",sep="\t",stringsAsFactors = F)
#第三列为miRNA的行包含成熟体信息,具体在第九列
mature=mir[mir$V3=="miRNA",9]
#根据;Alias=,;Name=,;Derives_from=来拆分第九列的内容
#提取拆分开的向量中的第二和三个元素,MIMAT0027618  hsa-miR-6859-5p
#转置之后,强制转换成数据框,去除重复
human_mirs=data.frame(unique(t(sapply(strsplit(mature,";.*?=",fixed=F),"[",2:3))))
#将miRNA的ID号和名字保存到mirbase.rds中
saveRDS(human_mirs,file="mirbase.rds")

#读取mirbase.rds中的内容,可以赋给任意变量名
mirbase=readRDS("mirbase.rds")

#查看前几行
head(mirbase)

最终的效果

①在R语言中的效果

[!NOTE]- 在R中的效果 image.png

②在文件中的最终效果

[!NOTE]- 文件中的效果 image.png