Wikipedia 导入办法

728x15 ad here

出自Guoshuang Wiki

跳转到: 导航, 搜索

via wikipedia 镜像办法

这里是 wikipedia 的 sql dump 数据文件


http://download.wikipedia.org/zhwiki/


打开最新的日期的目录。里面这个 “Articles, templates, image descriptions, and primary meta-pages.” 就是一般镜需要的数据,包括文章、图片描述和 meta 页面。


http://download.wikimedia.org/zhwiki/20080206/zhwiki-20080206-pages-articles.xml.bz2


注意:这个包含 wikipedia 的 meta 信息,比较烦,会定制很多 Mediawiki: 名字空间的页面。可能我们需要的仅仅是 articles,你也许可以尝试一下后面更小的压缩包。比如那个 for yahoo 的 Extract 包。也许那里没有 meta 只有文章。我没有测试过。


下载后解压,大约700-800M,上传到 wiki 的 maintenance目录,然后在命令行执行 php


php importDump.php < 1234.xml


你会看到一行一行的提示信息,导入中...


如果你没有php命令行的话,ubuntu 安装 php 命令行:


sudo apt-get install php5-cli

这是 tett 的留言

不能用它的importDump.php 导死人了. 一秒钟才导5条数据……… 它总共几十万条数据,我导了十个小时才11万条数据, 应该用mwdumper.jar 这个会快点.

个人工具
125x125 ad here
Advertisement
120x600 ad here