自动批量裁剪+合成+整理正反向序列


说明

  • 自动识别,批量拼接文件夹中的16S rRNA 正反向序列。
  • 优化了前文中的方法,简化运行方式 。具体来说,拖动文件夹和文件 取代 输入路径
  • 在前面安装的包基础上,增加了 filesstrings

准备

  • 根据前文安装所需软件和包 。
  • 额外安装 filesstrings
install.packages("filesstrings")
  • R 代码文件 点击下载
  • 文件夹包含成对的正反向序列。
    • 例如 D20-27F.seq 和 D20-1492R.seq,为一对。
    • 不严格要求为fasta格式,自动为缺少 >行 的序列文件添加这一行,名字使用文件名。
    • 根据 D20 识别,与27F和1492R无关,会自动调整正反位置。
    • 允许文件中有 D20 开头的 ab1 文件(峰图),会自动忽略。

运行

  1. 进入文件所在盘符。
  2. 输入 RScript, 空格。
  3. 拖入 R代码,回车。
  4. 再拖入包含序列的 文件夹,回车。
  5. 显示识别的路径,如果因为有中文出现乱码也会反应出来。
  6. CMD中显示合并的过程,联配的详情。
  7. 显示文件移动成功。


结果

  • n 对序列生成 n 个文件夹,名字为 识别的名称_16SrRNA
  • 文件夹中包括所有以 识别的名称 开头的文件,包括原始序列,合成序列和合成报告。
  • 一个汇总所有合并序列信息:
    • 序号
    • 识别名字
    • 序列1长度
    • 序列1裁剪起点
    • 序列1裁剪终点
    • 序列2长度
    • 序列2裁剪起点
    • 序列2裁剪终点
    • 联配的长度(裁剪后)
    • 错配长度
    • 合成序列长度

注意

  • 根据第一次联配进行裁剪时,设置前后序列多裁剪了50个bp,减少错配的可能性。所以报告中显示100bp联配,实际上裁剪前有200bp的联配长度。
  • 代码 文件夹中还有用来测试的序列。
  • 可能不支持路径中包含中文。