生信Linux常用下令(更新中)

分享
计算机软件开发 2024-10-7 02:27:28 121 0 来自 中国
一、压缩息争压缩
1.“.tar.gz”末了的文件: tar
    tar -cf newfile.tar file1 file2#将file1,file2文件打包到newfile.tar
    tar-zcvf/GSE66507tar.gz#解压文件
    tar -xzvf test.tar.gz#将test.tar.gz文件解压并提取里边的文件
2.“.zip”末了的文件: zip
    zip newfile.zip file1 file2#将file1,file2举行压缩到newfile.zip内
    unzip newfile.zip#解压
3.“.gz”末了的文件: gzip
#将file压缩为file.gz
    gzip file
#解压
    gunzip file.gz
4.“.bz2”末了的文件: bzip2
#将file压缩为file.bz2并删除源文件
    bzip2 file
#解压
    bunzip2file.bz2
二、数据统计和处理惩罚
1.sort 将文本文件内容举行排序
参 数: -n/-g 将文件按数值巨细从小到大排序(默认按ascii码从小到大排序)
             -k按第num列内容对文件排序(默认按第一列)
             -r 反向排序
    sort file#对file文件按第一列内容ascii码值从小到大排序并输出。
    sort -n -k 3 file#对file文件按第3列内容数值巨细从小到大排序。
    sort -nr -k1,2 file#对file文件按数值巨细反向排序,优先思量第一列,再思量第二列
2.uniq 归并文件中相邻的雷同的行
参 数:-c 在每行第一列体现该行重复次数
            -d 仅体现有重复的行
    uniq -c file#归并雷同的行,并统计每行重复次数,输出到屏幕
    uniq -d file outfile#归并雷同的行,并体现file中有重复出现的行,输出到outfile文件中
#########
3.wc 统计文件中字节数
参 数:-c 只统计字节数/Bytes数
            -w 只统计字数(单词数)
            -l 只统计行数
    wc file#体现文件file的字节数,字数,行数
    wc -l file#体现文件file的行数
4.grep 查找文件中符合条件的行
参 数:-v 不匹配,体现文件中不匹配string的行
    grep world file#查找文件中含有“world”的行
    grep -v world file#查找文件中不含有“world”的行
5.awk 对特定的行中特定的列举行操纵
参 数:-F 指定列的分割符,可以使恣意字符,默认按空缺分割
    awk -F “:” ‘{print $1}’#按“:”来分割并打印出第一列
    awk ‘($1 > 100){print $0}’#对第一列大于100的行整行输出
    awk ‘($1 > 100){print $1”\t”$2}’#对第一列大于100的行输出第一列和第二列的结果并以“\t”分割
    awk ‘($3~/world/){ x+= $1}END{print x}’#对第三列匹配“world”的行的第一列求和,全部处理惩罚完之后输出结果x的值
6.sed 文本处理惩罚并可对文件举行编辑
参 数:-i 直接在原文件中修改(默认修改后屏幕输出,原文件稳固)
    sed -i ‘s/test/new_word/’ file#将file文件中的test字符更换为new_word
    sed -i ‘/pattern/ s/test/new_word/’ file#将file文件中匹配pattern字串的行举行更换操纵
    sed -i ‘/^$/ d’ file#将文件file中的空缺行删除(d)
7.du 体现目次或文件的巨细
参 数:-a 体现目次中个别文件巨细
            -s 只体现总计
            -h 以“K” ,“M” ,“G”为单元体现
    du -sh ./#体现当前目次的巨细
    du -ah --max-depth=1 dir#体现dir目次下全部文件巨细,不包括下一级目次
8.列出目次内容:ls
    ls-I grep"^-"|wc-l#当前文件夹文件数目
9.检察文件内容:less
参 数:-S 每行不体现长于屏幕宽度的字符(默认体现在下一行)
            -N 体现行号
            -e 体现竣过后主动离开 
            -f  欺凌打开文件
            -i    忽略搜刮时的巨细写 
    less -SN file
10.体现文件每行指定范围的字符:cut
    cut -c 1-10 file#体现文件file每行开头的10个字符
    cut -f 1-10 file#体现文件file每行开头10列(以“\t”分割)
    cut -d “ ” -f 2#体现文件file第二列(以空格分割)
11.man(检察指定的使用方法)
12.quota- uvs shift#当前存储空间
13.配景实验
    nohup sh XXX.sh 2>&1 &
    screen
14.配景下令检察及杀死
    Isof +D HA sort
    kill-9进程号
15.删除文件
rm:无法刪除"":目次非空
16.文件获取
paste、cat文件内容展示拼接
    cat 1.txt 2.txt      #将差别文件按照先后次序接起来
    cat -n 1.txt         #体现行号cat-A1.txt        #体现文件全部信息,包括换行符$  回车符^M(需特别留意win体系会多出回车符
    paste 1.txt 2.txt     #可将差别个文件中的内容按照文件次序从左往右排起来
    paste -d ':'#指定":"为文件间的分隔符
    cat 1.txt | paste - - - #将文件内容从左往右排为3大列
17.ps体现当进步程的状态
pstree 该下令列出进程的树状关系图
参数: -A # 列出全部进程,按照进程ID排序
            -a/e# 体现终端全部进程,包括其他用户进程
             -l #长格式输出类似top结果
            -u   用户名# 体现指定用户名进程     
            -x #  体现无控制的终端的进程
             -g  组名 # 体现一个组的使用情况
             -H#  列出树状结构,体现步伐间相互关系
             -f# 体现完备格式
             -ef #体现全部进程信息,连同下令行
            常用组合: -aux             -lax         -fx          -ef
    ps 与grep 常用组实用法,查找特定用户进程下令:
    ps -ef | grep  gu   
    jobs -l#可以检察当前终端收效的进程
    ps -ef | grep#进程关键字#查找指定进程格式
    ps -u root #体现root进程用户信息
18.文件比力diff cmp ,若三个以上则用diff3下令
        diff  1.fa 2.fa#                    比力两个文件差别 ,
    diff   1.fa 2.fa  -c# 体现成上下文比力的格式,!体现发生厘革
    diff   1.fa 2.fa  -u# 体现归并比力的格式,—体现1文件删除行,+体现2文件新增行
    cmp   1.fa 2.fa# 标示出两个文件第一个差别之处的字符和列数编号
三、对文件名的处理惩罚操纵小本领
1.只将fq文件的文件名输出而去除文件路径,若echo $i则会带有路径
          ls   ~/wk/fq/clean/*fq | while read id ; do echo $(basename $id); done
2.只将fq文件的文件名输出 , 删除.sam的后缀
    ls   ~/wk/fq/clean/*fq | while read id ; do echo   $(basename $id  '.sam' ); done
3.%删除文件名 . 之后的全部后缀, (如果是${id%.*}则删除末了一个.后的后缀)
    ls raw/fq/* | while read id ; do echo $(basename ${id%%.*});done
4.##删除文件名 _ 之前的全部前缀 , (如果是${id#*_}则删除第一个_前的前缀)
             ls raw/fq/* | while read id ; do  echo$(basename ${id##*_});done
四、文件处理惩罚
1.下令协作管道 |
| 可将上条指令的结果输入到下条指令举行操纵
echo -n "123456789" | wc -m #去除换行符后统计123456789字符数
ps -aux | less# 将ps结果放在less中检察
head -5 a | tail -2#体现a文件4、5行
五、下令行界面的一些常用快捷操纵
        history           列出1000条汗青下令,再用!数字  实验汗青中对应数字的下令
    !S# 重新实验前面以S开头的下令
    ;#  可按次序从左向右完成多个下令操纵,如cd  ../ ; ls         
    Ctrl + C# 制止当前操纵,重新开下令行   
    Ctrl + L# 举行清屏操纵
    Ctrl + Z#挂起下令(使用 bg 下令让其在配景继承运行;使用 fg 下令规复到前台)
    Ctrl + 左右键#在单词之间跳转
    Ctrl + A#跳到本行的行首
    Ctrl + E#  跳到行尾
    Ctrl + U# 删除当前光标前面的全部笔墨(另有剪切功能)
    Ctrl + K#删除当前光标后面的全部笔墨(另有剪切功能)
    Ctrl + Y#  粘贴Ctrl + U或Ctrl + K剪切的内容
    Ctrl + W和Alt + D# 对于当前的单词举行删除操纵,W删除光标前面的单词的字符,D则删除后面的字符
    Alt + Backsapce#删除当前光标后面的单词
     \#代码太长时使用  \ 可以将代码分成多段       
    bc#自带计算器,输入scale=4则保留4位小数
六、单、双引号区别
单引号:可以说是所见即所得:即将单引号内的内容原样输出,大概描述为单引号内里看到的是什么就会输出什么。单引号''是全引用,被单引号括起的内容不管是常量照旧变量者不会发生更换。
双引号:把双引号内的内容输出出来;如果内容中有下令、变量等,会先把变量、下令剖析出结果,然后在输出终极内容来。双引号""是部门引用,被双引号括起的内容常量照旧常量,变量则会发生更换,更换成变量内容。
不加引号:不会将含有空格的字符串视为一个整体输出, 如果内容中有下令、变量等,会先把变量、下令剖析出结果,然后在输出终极内容来,如果字符串中带有空格等特别字符,则不能完备的输出,须要改加双引号,一般一连的字符串,数字,路径等可以用。
使用规则:一般常量用单引号''括起即可,如果含有变量则用双引号""括起,无变量无空格无特别字符的一连字符串可不加引号
最大差别:单引号与双引号的最大差别在于双引号仍然可以保有变数的内容,但单引号内仅能是一般字符,而不会有特别符号
grep ">" a.txt | wc -l #搜刮文件中含有'>'的行,并统计行数
grep -c ">" a.txt # 统计有'>'的行数, 等价于同上
grep -w "chr1" a.txt # 搜刮全词准确匹配'chr1'的行,-w体现整个word都匹配上
grep -n "chr1" a.txt #搜刮含有字符'chr1'的行并列出行号
grep -vc "chr" a.txt #统计不含'chr'的行数的个数
grep 'chr' a.txt | grep -v 'chrX'# 搜刮文本中含有Chromosome的行并排除有Annotation 行     
grep -e "chrX" -e "chrY" a.txt # 参数-e举行多项操纵(指定多个匹配模式,只要符合一个都会被输出)
grep -w "chr1" a.txt -A 2# 搜刮全词准确匹配'chr1'的行行并列出下面两行。 -A体现after
grep -w "chr1" a.txt -B 2# 使用grep的-B选项,体现匹配内容及其前n行。-B体现before。
grep -w "chr1" a.txt -C 2# 使用grep的-C选项,体现匹配内容及其前n行和后n行。
ls /usr/bin/ | grep "\.py" #搜刮特定目次下名字包罗'.py'的文件('.'须要转义'./')
ls /usr/bin/ | grep "\.py\b"  或  "\.py$"# 搜刮特定目次中以'.py'末了的文件( '\b'或'$'体现末了)
ls /usr/bin/ | grep "^ht"#搜刮特定目次中以'ht'开头的文件
grep 1[1-9]  a.txt # 应用正则表达式搜刮包罗'11'-'19'的行
grep -vP "^\s*$" 1.txt # 去除空缺行
grep -P "^\d{11}$" 1.txt# 匹配含11位数字的行
七、sed (stream editor,流编辑器) (以每行为单元编辑)
留意sed结果默以为屏幕输出,并不改变原来文件内容,常用>重定向生存修改文件
参数: -e 默认模式,一般用于多项修改,之后常用>重定向生存修改文件
            -i 在原文件上直接举行修改
            -n 安静模式,仅体现处理惩罚后的结果,常与p连用,只输出发生更改的特定行
            -f 接脚本文件
sed   's/NC/nc/g'   1.txt>2.txt#     对文件中的NC更换成nc并另存为,s体现更换,g体现全局,下令一般用' '括起来
sed   's/A/a/2'   1.txt#              对文件中的每行第2个A更换成a
sed   's/b/B/g;s/a/A/g'   1.txt#        更换b和a为大写,同时举行多项操纵可用`;`分隔开
sed   '1,5s/:/?/g'   2.txt#               只对文件的1至5行内容举行更换':'为'?'
sed   '1,5!s/:/?/g'   2.txt#              只对文件的1至5行内容不举行更换,!体现非
sed   '/>/!s/A/a/g'   gene.fasta#      对含有>的行不举行操纵,其他行举行更换
sed   '/beat/,/ggle/s/o/O/g'   1.txt#   将含有'beat'和'ggle'字符行的中心行的'o'更换成'O',选择条件之间用`/`和`,`隔开# 
sed常用的应用:  将fastq格式转化为fasta格式zcatA.1.fq.gz|sed'0~4d'|sed'0~3d'|sed's/^@/>/1'|less
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-18 16:45, Processed in 0.171273 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表