说明
- 自动识别,批量拼接文件夹中的16S rRNA 正反向序列。
- 优化了前文中的方法,简化运行方式 。具体来说,
拖动文件夹和文件
取代 输入路径
。
- 在前面安装的包基础上,增加了
filesstrings
。
准备
- 根据前文安装所需软件和包 。
- 额外安装
filesstrings
。
install.packages("filesstrings")
R
代码文件 点击下载
- 文件夹包含成对的正反向序列。
- 例如 D20-27F.seq 和 D20-1492R.seq,为一对。
- 不严格要求为fasta格式,自动为缺少
>行
的序列文件添加这一行,名字使用文件名。
- 根据
D20
识别,与27F和1492R无关,会自动调整正反位置。
- 允许文件中有
D20
开头的 ab1
文件(峰图),会自动忽略。
运行
- 进入文件所在盘符。
- 输入
RScript
, 空格。
- 拖入 R代码,回车。
- 再拖入包含序列的
文件夹
,回车。
- 显示识别的路径,如果因为有中文出现乱码也会反应出来。
- CMD中显示合并的过程,联配的详情。
- 显示文件移动成功。
结果
- n 对序列生成 n 个文件夹,名字为
识别的名称_16SrRNA
。
- 文件夹中包括所有以
识别的名称
开头的文件,包括原始序列,合成序列和合成报告。
- 一个汇总所有合并序列信息:
- 序号
- 识别名字
- 序列1长度
- 序列1裁剪起点
- 序列1裁剪终点
- 序列2长度
- 序列2裁剪起点
- 序列2裁剪终点
- 联配的长度(裁剪后)
- 错配长度
- 合成序列长度
注意
- 根据第一次联配进行裁剪时,设置前后序列多裁剪了50个bp,减少错配的可能性。所以报告中显示100bp联配,实际上裁剪前有200bp的联配长度。
- 代码 文件夹中还有用来测试的序列。
- 可能不支持路径中包含中文。