那些将 Perl 用作编程语言的人经常忽视了:Perl 用作命令行操作的快速而又难看的脚本编制引擎时是很有用的。通过命令行,Perl 仅用一行就可以实现大多数其它语言需要数页代码才能完成的任务。跟着 Teodor,他会教给您一些有用的示例。
Teodor Zlatanov (tzz@iglou.com), 程序员, Gold Software Systems
2002 年 10 月 09 日
那些将 Perl 用作编程语言的人经常忽视了:Perl 用作命令行操作的快速而又难看的脚本编制引擎时是很有用的。通过命令行,Perl 仅用一行就可以实现大多数其它语言需要数页代码才能完成的任务。跟着 Teodor,他会教给您一些有用的示例。
为了完成这
一篇 how-to 文章,您需要在系统上安装 Perl 5.6.0。您的系统最好安装比较新(2000 或更新)的 Linux 或
Unix,但是其它操作系统也能照样工作。所有的示例都使用 tcsh shell(尽管 bash 及其它 shell
也能工作)。虽然这些示例也许可以和较早版本的 Perl、Linux
及其它操作系统一起工作,但是如果它们不能一起工作,那么它们无法工作的原因可以作为练习,让读者去解决。
我想说的第一点是:有经验的程序员不应回避快速而又难看的解决方案。在其它专栏文章中,我已经强调了文档编制和彻底性。本专栏文章将集中在编程的消极面,其中文档编制是可选的,而咖啡因却无从选择。因为我们已经身陷其中。
第二点和第一点一样重要:快速而又难看的解决方案很难正确完成。如果您知道如何记录、测试和调试完整的脚本,那么您就
非常有可能在一行程序中取得成功。如果您不知道怎样做,那么这就像是企图用鲱鱼来砍倒红杉树(而您的技能就是那条鲱鱼)。
第一步,您应该学习 shell 的特性:Unix 将命令行参数传递给 Perl 的方式及这些参数的 Perl 解释方法。
在
Unix
中您将看到可执行任务的概念,一个进程通常是装入内存的程序。除了初始进程外,进程都可以由其它进程来启动,初始进程通常是由内核(有时由内核进程)来启
动的。就用户的观点而言,启动进程需要 shell 或启动程序。因此,当用户在 shell 命令行输入"xeyes"或者从启动程序菜单(类似于
GNOME 任务栏)选择 X Eyes 应用程序时,shell 或启动程序创建新的进程以运行该程序。
进
程获得命令行参数。因此,例如,"perl"和"perl -w"是对同一个程序的两种不同调用。在内部,Perl(类似于 C)将参数传递给它用
@ARGV 数组解释的脚本。但是和 C 不同的是,Perl 偷偷地从脚本中"窃取"其中一些参数以用于自己的用途。例如,正在解释的脚本看不到传给
Perl 解释器的"-w"参数,除非脚本看来需要它。shell 用空格字符隔开参数。
传给
Perl 的"-e"参数告诉 Perl
获取命令行中"-e"后的任何内容并将它当作脚本来运行。"-M"参数表示获取其后的任何内容并将该内容作为模块导入,类似于正规脚本中的"use
ModuleName"。请参阅 perldoc perlrun 页面以获取有关 Perl 必须从命令行提供的开关的更多信息。
可能最好在这里举些示例。根据本专栏文章的精神,让我们使用一行程序。脚本的 -MData::Dumper -e'print Dumper -@ARGV' 部分只是打印出了 @ARGV 数组的内容。
清单 1. 命令行参数
# at the command line, type each line after the '>' |
除非您的 shell
限制了参数的数量或长度,不然您可以向 Perl 传递任意数量的参数。在 Perl
中打开神奇的文件句柄(filehandle)<>,这会将传送给 Perl
的每个参数作为文件名打开并逐行读取每个文件的内容。缺省情况下,$_ 变量会保存每一行。
Shell
使引号之间的所有内容都成为一个参数。这就是为什么在清单 1 中我们可以写成 -e'print Dumper \@ARGV' 并且 Perl
可以将其看成单个一行程序脚本的原因。单引号更好,因为使用单引号后您可以在一行程序内使用双引号。Perl
中的双引号用于解释双引号之间的任何内容。另一个示例或许会有助于进一步说明这一点:
清单 2. 单引号 vs. 双引号
# print the Perl process ID, followed by a newline |
用 bash 比用 tcsh 要好些,因为 bash 允许内部的双引号用 \ 字符进行转义。但是
shell仍然在将双引号内的 $$ 传递给 Perl 之前对其进行解释。结论是:不要使用双引号来指定以 -e 开始的一行程序脚本参数。请参阅 perldoc perlrun 以获取更多的详细信息,但是您主要应清楚什么在系统上有效并坚持下去。
到目前为止您已经了解了 -e 和 -M 开关所起的作用:导入模块和运行语句。下面我列出了一些有用的其它开关;为了不把您搞糊涂,所以省略了那些更复杂的开关。请参阅 perldoc perlrun 以获取完整的列表和一些使用想法。
整洁性
-w | 打开警告 |
-Mstrict | 打开严格编译指示(pragma) |
数据
-0 | (这是个零)指定输入记录分隔符 |
-a | 将数据分割成名为 @F 的数组 |
-F | 指定分割时 -a 使用的模式(请参阅 perldoc -f split) |
-i | 在适当的位置编辑文件(请参阅 perldoc perlrun 以获取大量详细信息) |
-n | 使用 <> 将所有 @ARGV 参数当作文件来逐个运行 |
-p | 和 -n 一样,但是还会打印 $_ 的内容 |
执行控制
-e | 指定字符串以作为脚本(多个字符串迭加)执行 |
-M | 导入模块 |
-I | 指定目录以搜索标准位置前的模块 |
假
定您在一个目录中有一些文件需要用特定的方式重命名。例如,所有包含单词"aaa"的文件应进行重命名,用单词"bbb"进行代替。我们将不使用
Unix"mv"命令,因为用 Perl 的 rename() 函数来重命名文件已经相当不错了(请参阅 perldoc -f rename
以获取当使用 rename() 出问题时的详细信息)。
请参阅
清单 3以获取将文件从 aaa 重命名为 bbb 的一行程序脚本。
Listing 3. Renaming files from aaa to bbb
> find . | perl -ne'chomp; next unless -e; $oldname = $_; s/aaa/bbb/; next if -e; rename $oldname, $_'
find .
命令打印出当前目录下的所有文件和目录列表。如果您只想要查看文件,那么就给 find 添加"-type f"参数。获取 find 的输出(一个文件列表)并将其传递给一行程序。
一行脚本使用 -ne 参数,该意味着它会被重写成:
清单 4. 将文件从 aaa 重命名为 bbb(已分解)
while (<>) |
正如您所看到的那样,这是个相当复
杂的七行脚本。-n 开关简化了很多东西。但是尽管如此,您还是必须知道 $_ 变量和 s/// 及 -e 运算符(请参阅 perldoc
perlop 页面以获取详细信息)。File::Find 标准 Perl 模块本来可以代替 Unix find
命令用于进行文件查找,但是脚本也会随之变得太大而不再是一行程序了。
一行程序巧妙地平衡了有用性和复杂性,您必须准备好在需要时将它们重写成实际脚本,而不应让程序过于麻烦而无法控制。
下面是文件处理的另一个示例:用已知的命名结构浏览 MP3 文件的目录并抽取专辑名。让我们假设文件名是"Artist-Album-Track#-Song.mp3"。
清单 5. 查找 Artist-Album-Track#-Song.mp3 的专辑名
> find . -name "*.mp3" | perl -pe 's/.\/\w+-(\w+)-.*/$1/' | sort | uniq |
这个脚本非常简单。它依靠
find 的行为,总是在每个文件名前打印"./"。随后它仅用专辑名代替 $_,并且 -p 开关自动打印专辑名。最后,按顺序的 sort 和
uniq 确保了重复的专辑名只打印一次。所有的 find、sort 和 uniq 调用都可以用 Perl
完成,但是在操作系统已经为我们编写了这一切时为何还烦恼呢?作为练习这会很有趣,但是实际上一行程序可能会变成 20-30 行不必要的代码。
让我们分解 Perl 脚本(用一种简化的方式 - 省略 -p 开关的一些复杂性):
清单 6. 查找 Artist-Album-Track#-Song.mp3 的专辑名(已分解)
while (<>) |
此外,请注意 Perl
是如何成为 find、sort 和 uniq 之间的中间工具的。不必尝试用 Perl
编写所有东西。您可以这么做,有时也必须这么做,但一行程序可以重用。还有,看看正则表达式是多么的简单。当然,如果 MP3
文件未正确命名,那么我们可能会获得一些异常的专辑名,但是这值得去尽力完善正则表达式吗?如果您需要做大量工作,那么或许该使用 CPAN MP3
ID3
标记模块,而不是解析文件名。要明白:在什么时候一行程序会成为一桩麻烦事,而不是一个工具。这就是我在前面说到在开始使用一行程序之前应该非常清楚
Perl 时所指的意思。在编程方法中使用所有工具会使您成为一名优秀的 Perl 程序员,同时也成为一名优秀的程序员。
上面的概念同样适用于数据操作。您还应记住 -i 开关,因为它让您适当地编辑文件,极少有工具能完成这一任务。下面说的是您将如何编辑文件内容,用"bbb"代替每个"aaa":
清单 7. 编辑文件内容以用"bbb"替换"aaa"
> cat test |
当然我们可以使用任何正则表达式来替换"aaa"。
请注意,我们使用 -p 开关为每行打印 $_。这是必需的,因为 Perl 脚本的
输出就是文件的内容!这意味着我们可以玩一些有趣的小伎俩。例如:
清单 8. 在文件中插入行号
> perl -pi -e'$_ = sprintf "%04d %s", $., $_' test |
这个脚本在文件中的每一行前面插入 4 位数的行号。如果您对查看语法感到头疼,那么盯着离您最近的人并问他们是否知道有关动物园里两头骆驼的笑话。他们会用重器敲您的头,这会暂时分散您头疼的感觉,之后您可以重新工作了。
现
在要处理更棘手的事了。我们将使用 Uri Guttman 优秀的 File::ReadBackwards
模块反向查看日志文件以寻找某些有趣的事件(您必须从 CPAN 安装
File::ReadBackwards)。我们将搜索字符串"sshd"以查阅来自 sshd 守护程序的所有通知。
清单 9. 向后查看文件以寻找 sshd 消息
> perl -MFile::ReadBackwards -e'foreach my $name (@ARGV) \ |
每
一行尾部的 \ 字符告知 shell 后面还有内容;该行还未结束。这个 3
行脚本在您必须将其重写成实际脚本前大约和一行程序一样大。通过保存这个文件中的所有行并反向打印它们,可以用更少的代码达到同样的效果,但是这不及
File:ReadBackwards 有效,后者实际上反向读取文件并在新行上停下来。通过命令行不太容易达到这个效果。
但是为何在此处停下来呢?让我们抽取 sshd 日志消息中所提及的所有 IP 地址。
清单 10. 反向查看文件以查找 sshd 消息中的 IP
> perl -MFile::ReadBackwards -e'foreach my $name (@ARGV) \ |
这十分糟糕!我们现在就将其移到实际脚本中。
请
注意,上面的正则表达式如何只捕获"connection from"和一个非数字的字符串后面的数字和点。这还不完善,但是它在使用 IPv4
地址的实际情况中能很好地工作。您应该理解您的一行程序需要什么,并正确执行。不要在用过就丢弃的脚本的设计上花太多的功夫。您会感到很难过。相反,要清
楚脚本何时不会被丢弃,并编写相应的代码!
我
的妻子曾经在 Windows 中重新命名我们在假期中拍摄的大量照片。类似于"Our Christmas
Tree.jpg"这样的文件名很好。当我尝试运行 indexpage.pl - 一个创建用于图像集的 HTML 页面的 Perl
脚本时,这个脚本无法工作。作者没有仔细考虑过文件名,引号和空格引起了问题。
我使用了一个一行程序,而不是自己动手修正 indexpage.pl(这是个很好的练习,但是像我这样的人在凌晨两点是没空的)。请参阅
清单 11以获取重命名 JPG 文件的一行脚本。
Listing 11. Renaming JPG files
> find . -name "*.jpg" | perl -ne'chomp; $name = $_; $quote = chr(39); s/[$quote\\!]/_/ ; print "mv \"$name\" \"$_\"\n"'
这有些棘手,因为我在脚本中不能使用单引号。最后我使用了单引号的 ASCII 值 - 39,将单引号放在 $quote 变量中,并用它进行间接置换。
这打印出了一连串的"mv"命令,我可以检查它们以确保我做对了。最后,我将这些命令保存到一个文件中并使用 shell"source"命令运行文件中的每个命令。
清单 12显示了正在进行 JPG 重命名。
Listing 12. Renaming JPG files in action
> find . -name "*.jpg" | perl -ne'chomp; $name = $_; $quote = chr(39);s/[$quote\\!]/_/ ; print "mv \"$name\" \"$_\"\n"' > commands
> more commands # examine the commands
mv "a.jpg" "a.jpg"
mv "Ha ha.jpg" "Ha_ha.jpg"
...
> source commands # one or two errors due to the
# '!' character, fixed by hand
重命名后,indexpage.pl 脚本运行得很好。
我希望您现在能明白编写一行程序并不是那么容易的。在您接触一行程序之前先完善您的脚本编制技能,否则您在为使它们正确运行而进行的工作中会遇上许多麻烦。请确保您了解您的正则表达式、流控制和缺省变量操作。
使功能和易读性平衡。一行程序应该像原型那样被丢弃。否则您会再次看到它们,就像一只漂亮的狮子狗走掉了,回来的却是 Cujo。
一行程序的常规使用中所遇到的一些异常是可接受的。它们是一次性的东西,并非金字塔。
您永远不应立即运行一行程序;在您真正运行命令之前应该总是先打印出该命令会执行什么内容。这样您的头上会少很多白头发。
请省着点使用一行程序技能。对付这样的"野兽"时是最好不要掉以轻心。
最后,有一些趣事。一行程序是使 Perl 为您干苦差事的最好办法。查看专用于 Perl 的 Usenet 新闻组和邮件列表以获取一些看法和批评。
- 您可以参阅本文在 developerWorks 全球站点上的
英文原文.
-
通过单击本文顶部或底部的
讨论参与有关本文的
论坛。
-
CPAN就是综合 Perl 档案网络(Comprehensive Perl Archive Network)。它旨在包含您需要的所有 Perl 资料。到 2001 年 1 月为止,它包含了 749 兆字节的信息,在全球有一百多个镜像站点。
- 访问
Perl.com以获取 Perl 信息和相关参考资料。这个网站包含了 Perl 社团感兴趣的所有内容。
-
Programming Perl,第三版
,由 Larry Wall、Tom Christiansen 和 Jon Orwant 合著(O'Reilly & Associates 2000),是现今最好的 Perl 指南,现在的最新版本是 5.005 和 5.6.0。
-
Unix Power Tools,第二版,由 Jerry Peek、Tim O'Reilly 和 Mike Loukides 合著(O'Reilly & Associates 1997),是着手学习 UNIX shell 和相关工具的极佳指南。虽然该书有点过时了,但仍然很优秀。
- 访问
O'Reilly & Associates-
Programming Perl和许多其它好书的出版社。
Teodor |