在英文的杂志网站http://www.sciencedirect.com/,通过我输入的关键词和时间等限定条件搜索,检查搜索结果有多少,检查以后,根据结果数量由我决定是否继续抓取邮件。如果抓取,把结果里面的邮箱和姓名抓取下来,保存在excel文件中。如结果太多不想抓取,可以返回输入关键词界面。 具体要求参见下面的例子: 1. 打开http://www.sciencedirect.com/ 2. 点击右上角Advanced search 3. 在出现的页面的“Search for”中输入关键词,比如“Herbal medicine”。关键词以后可以根据我的需要重新输入。 4. 在all years 后面那个时间框可以根据我的需要选择哪一年,比如,可以选择2014年以后。 5. 点击search 6. 搜索“Herbal medicine”在2014年之后的文献,出现的结果中,共有3,313条记录(2014年7月3日的结果)。 7. 此时我需要根据出现的记录多少决定是否抓取,我需要选择是否继续还是返回前面重新输入关键词或者时间段 8. 分别点开每条记录,里面有带绿色小信封的人员 9. 点击这些带小信封人员的名字,网页右侧会出现一个“workspace”,里面有姓名,单位和电子邮件信息,我需要抓取的是姓名和电子邮件,和**的题目。有些人员不是英文国家的人名,抓取的时候要兼容西欧字符库。 10.将结果保存在excel文件里,姓名一列,邮箱一列,**题目一列 11. 该网站可能会限制连接时间和抓取,请在编写的时候考虑到这点,如遇到网站更新,需继续。 12. 软件做成可以安装的格式,防止以后我重装系统或者换电脑等情况。 13.选择年份的位置需要和官网保持一致,官网年份变化时,软件会自动跟着变化。 知识产权说明: 12. 所设计的作品为原创,为第一次发布。未侵犯他人的著作权。 如有侵犯他人著作权,由设计者承担所有法律责任。 13. 中标的设计作品,我方支付设计制作费。即拥有该作品的知识 产权,包括著作权、使用权和发布权等,并有权对设计作品进行修 改、组合和应用,设计者不得再向其他任何地方使用该设计作品。 中标后,设计者需将源代码发给我们,经过验证合格才付款。如不能同意,请勿投标。
2019-09-21 10:09:18