sitemap-generators是一款Sitemap生成工具,使用它可以生成符合sitemap.org规范的Sitemap文件,以便于提交给各个网站工具平台。
下载sitemap_gen_1.5.tar.gz解压,得到以下内容:
root@bwgzl:~/sitemap_gen# ls -lh
total 140K
-r--r----- 1 502 502 22 Jun 17 2005 AUTHORS
-r--r--r-- 1 502 502 2.6K Jul 19 2007 ChangeLog
-r--r----- 1 502 502 1.8K Jun 17 2005 COPYING
-rw-r--r-- 1 502 502 6.4K Jul 19 2007 example_config.xml
-rw-r----- 1 502 502 1.6K Jun 26 2007 example_urllist.txt
drwxr-xr-x 23 root root 4.0K Aug 3 14:25 getos.org
-rw-r--r-- 1 502 502 244 Jul 19 2007 PKG-INFO
-r--r--r-- 1 502 502 1.1K Jun 25 2007 README
-r-xr-xr-x 1 502 502 301 Jul 19 2007 setup.py
-rwxr-xr-x 1 502 502 66K Jul 19 2007 sitemap_gen.py
将默认的example_config.xml拷贝为ac.xml,参考以下修改:
<?xml version="1.0" encoding="UTF-8"?>
<site
base_url="http://getos.org/"
/** 以下为sitemap.xml文件存放目录**/
store_into="/root/sitemap_gen/sitemap.xml"
verbose="1"
<urllist path="urllist.txt" encoding="UTF-8" />
<filter action="drop" type="wildcard" pattern="*~" />
<filter action="drop" type="regexp" pattern="/\.[^/]*" />
</site>
接下来,使用wget
来遍历网站所有URL,将结果保存为urlinfolist.txt。
wget -mk --spider -r http://getos.org/ -o urlinfolist.txt
- -r: 递归遍历目录
处理wget到的urlinfolist.txt文件,删除不需要的内容。
cat urlinfolist.txt | tr ' ' '\012' | grep "^http" | egrep -vi "[?]|[.]jpg$" | sort -u > urllist.txt
最后使用如下命令来生成sitemap.xml。
python sitemap_gen.py --config=ac.xml
按照配置文件所示,在sitemap.xml文件保存在_/root/sitemap_gen/_目录下。