URL链接提取器

2008年第6期,挑战题目4是“URL链接提取器”:现在有放在不同文件夹下的一堆文件(多种类型),现在我要提取这些文件夹下TXT文件中的字符,制作两个文本:

文件一,所有包含有URL链接的整段文字。

文件二,所有URL链接的字符。

要提取一些像URL链接这样的有一定规律性的文字时,使用正则表达式是最合适的。可是我们如何使用一个正则表达式来表示所有的URL地址呢?在EmEditor中依次选择“工具所有配置属性”菜单项,在“链接”标签下,我们可以看到EmEditor识别URL链接的两个规则:

①如果文字是以、//、ftp://、file:和mailto:开始,并且紧随其后的文字是“识别这些字符”中的定义的字符时,它们将会被看做是一个链接。

②如果链接最后的一个文字是在“不允许在行末的字符”中所定义的字符时,则不应将它当做是链接的一部分。

有了这2个识别URL链接的规则,我们就能使用以下两种方法,提取TXT文件中的URL链接了。

方法一:使用EmEditor+宏

这个方法主要是使用文本编辑工具EmEditor来实现的。

1.生成文件一

在EmEditor中选择“搜索在文件中查找”菜单,在随后弹出的对话框里,在“查找”文本框处输入“((https?://)|(ftp://)|(file:)|(mailto:))[!#%&,-:;=@_~dw$'()*+./?^\]+”(不含外侧的双引号,下同)。在“文件类型”处输入“*.txt”。在“在文件夹”处输入要搜索的文件夹的路径。同时要选中“查找子文件夹”和“使用正则表达式”这两个选项。最后点击“查找”按钮(见***1)。

***1

搜索完毕后,所有包含有URL链接的整段文字就显示在结果中了,我们可以将其保存为文件一。

2.生成文件二

打开EmEditor,输入以下的代码,并将其扩展名改为VBEE,如“GetURL.vbee”。

strURLS = ""

Set regEx = New RegExp

regEx.Pattern = "((https?://)|(ftp://)|(file:)|(mailto:))[!#%&,-:;=@_~dw$'()*+./?^\]+"

regEx.IgnoreCase = True

regEx.Global = True

document.selection.SelectAll '选中整个文档。

Set colURLS = regEx.Execute(document.selection.Text) '查找文档中所有的URL。

For Each objURL In colURLS

strURLS = strURLS & TailTrim(objURL.Value) & vbcrlf

Next

document.selection.Text = strURLS '将所有的URL写入当前文档。

Function TailTrim(strURL)

regEx.Pattern = "([!:;,'().?]*)$"

Set colMatches = regEx.Execute(strURL)

TailTrim = Left(strURL, colMatches(0).FirstIndex)

End Function

在EmEditor中选择“宏选择”菜单,然后选择上面所创建的GetURL.vbee文件。

最后,打开刚刚生成的“文件一”,点击“宏运行 GetURL.vbee”菜单项。这样,搜索结果就会仅包含URL链接,我们只需要将结果另存为“文件二”即可。

方法二:使用VBS脚本

如果大家嫌方法一不够方便也没关系,我还编写了一个VBS脚本,可以搜索TXT文件中的URL链接,并将它们提取到指定的文件中。使用方法很简单:运行SearchURL.vbs文件,然后选择要搜索的文件夹就可以了(见***2)。搜索完毕后,结果会被保存到脚本文件所在目录下的“File1.txt”和“File2.txt”中。

***2

本文所说的宏文件GetURL.vbee及脚本文件SearchURL.vbs均可直接***:/cfan/200809/Code.rar,快车代码:CF0809WJTZ01。

URL链接提取器

转载请注明出处学文网 » URL链接提取器

学习

TRD工法在深基坑工程中的应用

阅读(23)

本文为您介绍TRD工法在深基坑工程中的应用,内容包括基坑检验的主控项目和一般项目,trd工法施工的地下连续墙工艺特点。摘要:随着建筑基坑向"大、深"方向发展,深基坑施工技术面临的难题日显突出,特别是高水位地区基坑工程地下水控制的问题

学习

“我手写我口”、“我手写我心”

阅读(24)

正是在这样的前提下,生成作文教学日益受到人们的重视,在作文教学中,生成教学的理念其实更加重要,传统的作文教学将学生的思维禁锢得很死,而“文无定法”的积极一面很多老师有很大顾虑,这在语文教学特别是作文教学强调创新与发现的现在值得反思

学习

三国演义中诸葛亮的人物形象解析

阅读(18)

本文为您介绍三国演义中诸葛亮的人物形象解析,内容包括三国演义中的人物怎么画诸葛亮,三国演义中我最喜欢的人物诸葛亮。摘要:诸葛亮在中国是家喻户晓的人物,可以说他的知名度能够超过任何一个人物。大部分人对于诸葛亮的了解主要来源于《

学习

黑老大的 “铁哥们儿”

阅读(31)

宋鹏飞,1956年出生。18岁时,因盗窃被劳动教养二年;1982年,因犯故意伤害罪被判处有期徒刑八年;1992年,因流氓罪被判处有期徒刑一年。刑满释放后,宋鹏飞只身南下,在广州开了一家货运站,主营广州到沈阳的货物运输。

学习

窦宝荣:时光里的收藏

阅读(432)

作为山东四达工贸股份有限公司董事长,窦宝荣是当年陈光在诸城进行股份制改革时期的风云人物。如今,窦宝荣更让人熟知的一个身份是收藏家,160余万件的藏品让他成为中国非遗保护领域的知名人士。

学习

浅谈唐代舞蹈鼎盛之源

阅读(32)

本文为您介绍浅谈唐代舞蹈鼎盛之源,内容包括唐代舞蹈的历史地位及影响,谈谈唐代舞蹈特点。摘要:唐代是历史上最灿烂的一个篇章,拥有开阔的疆土和南北众多融会贯通的民族,对于异国的音乐、舞蹈无所顾忌的引进、吸收和发扬,可为空前绝后。

学习

NAP染色在感染性发热中的应用

阅读(24)

本文为您介绍NAP染色在感染性发热中的应用,内容包括nap染色阳性的细胞,nap染色临床应用。[关键词]NAP染色;NBT试验;细菌性感染;病毒性感染

学习

童年轶事作文700字

阅读(20)

本文为您介绍童年轶事作文700字,内容包括童年趣事700字作文,童年轶事作文。每个人都有童年,童年就像一把金锁,锁住了我们儿时那一个个令人发笑的镜头。还记得童年时的我,特贪吃,是一个十足零食迷,那一次,我与同样六岁的妹妹意外的从家里偷出一

学习

付出爱心 收获希望

阅读(16)

本文为您介绍付出爱心 收获希望,内容包括播种希望收获未来文字,奉献爱心收获希望。摘要:本文通过对一个幼儿日常表现的追踪观察,分析了幼儿行为问题与家庭因素之间的因果关系,并提出了相应的教育改进措施。

学习

弯管模具设计分析

阅读(20)

本文为您介绍弯管模具设计分析,内容包括弯管模具分析,弯管模具设计说明书范本。摘要:管材的冷弯成型,应用范围越来越广泛,而相应的弯管质量也要求越来越高,为保证弯管质量,必须设计合理的弯管模具,文章论述了弯管过程中的模具设计及相应的工艺

学习

中医药通报

阅读(27)

本文为您介绍中医药通报,内容包括中医药条例原文,中医药条例详解。急性心肌梗死的辨治体会李锡光,LIXiguang

学习

万事但求半称心

阅读(16)

本文为您介绍万事但求半称心,内容包括万事但求半称心,万事只求半称心完整版。在现代语境中,“半”字的使用频率极高。“徐娘半老,风韵犹存”,可叹青春不能长驻;“说半句留半句”,叫人捉摸不透;“半个月亮爬上来”,月色朦胧,令人神往;“

学习

烹调明油全攻略

阅读(45)

本文为您介绍烹调明油全攻略,内容包括明油怎么弄最香,明油制作方法和配方。明油的作用

学习

富有机质泥页岩中干酪根的提取及其应用?

阅读(20)

摘要:干酪根是富有机质泥页岩中有机质的主要成分,干酪根的提取和应用研究对页岩气的形成与富集具有一定意义。对比研究三种干酪根提取方法,在充分考虑外部实验条件下,采用了手工分离法提取干酪根并用于后续研究。选择滇东北下志留统龙马溪组