Wikipedia 导入办法
728x15 ad here
出自Guoshuang Wiki
via wikipedia 镜像办法
这里是 wikipedia 的 sql dump 数据文件
http://download.wikipedia.org/zhwiki/
打开最新的日期的目录。里面这个 “Articles, templates, image descriptions, and primary meta-pages.” 就是一般镜需要的数据,包括文章、图片描述和 meta 页面。
http://download.wikimedia.org/zhwiki/20080206/zhwiki-20080206-pages-articles.xml.bz2
注意:这个包含 wikipedia 的 meta 信息,比较烦,会定制很多 Mediawiki: 名字空间的页面。可能我们需要的仅仅是 articles,你也许可以尝试一下后面更小的压缩包。比如那个 for yahoo 的 Extract 包。也许那里没有 meta 只有文章。我没有测试过。
下载后解压,大约700-800M,上传到 wiki 的 maintenance目录,然后在命令行执行 php
php importDump.php < 1234.xml
你会看到一行一行的提示信息,导入中...
如果你没有php命令行的话,ubuntu 安装 php 命令行:
sudo apt-get install php5-cli
这是 tett 的留言
不能用它的importDump.php 导死人了. 一秒钟才导5条数据……… 它总共几十万条数据,我导了十个小时才11万条数据, 应该用mwdumper.jar 这个会快点.
