如何提取Google Blogger发布的博文的URL地址列表

2024-11-09 5

对于大部分中文博客来说,Google Blogger发布的博文的URL都是随机生成的,没有规律,如何对这些没有规律的URL地址进行管理,是网站管理员的一个难题,这里就介绍一下如何提取Google Blogger发布的博文的URL地址列表。

需要注意的是,获取地址有个重要的前提,就是操作期间不要更新博文,一旦更新发布新博文,本文介绍的操作就前功尽废,需要从头来做。

获取的主要方法是通过Google Blogger的sitemap.xml获取。访问博客地址的sitemap.xml文件,可以看到一个xml列表,里面有一系列xml文件,文件名从sitemap.xml?page=1依次增加,每个子文件的文件数为150个,手动将每个地址从sitemap.xml?page=1一直下载到page结束,就可以获得N个xml文件。

这些xml文件里就是Google Blogger按照时间顺序发布的URL地址,可以使用Microsoft Excel依次打开这些xml文件,将第一栏的网址复制出来即可,一次可以复制150个网址。

如果博客文章有几千个的话,这么操作几十次即可,不过,如果文章太多,有几万个,恐怕这么操作就会花费大量的时间。

提取Blogger博文地址的技巧