阅读文本大概必要2分钟。
提示
以鄙人在GitHub上的辣鸡代码为例,其他Scrapy的项目操纵雷同,本文同样实用于不利用云服务器的情况(排撤除前期预备部分即可).
前期预备
(也可以到腾讯云开辟者实行室体验)1.购买云服务器
选择一家云服务厂商,购买云服务器,如今国内主流服务均有提供门生版
假如第一次购买,可以戳这个链接
https://cloud.tencent.com/redirect.php?redirect=1010cps_key=e042d9552c4c0be2cd377436ca42ee62
2.下载Xshell,利用ssh毗连服务器
Xshell门生和家用是免费的,下载地点https://www.netsarang.com/download/free_license.html
下载安装完成后,利用体系分配的公网IP,体系用户名和对应暗码毗连服务器.
在Github上克隆代码
gitclonehttps://github.com/FesonX/JobCrawler.git
安装相干依靠1.安装Python3
项目利用Python3.6,可以利用以下毗连安装,将文中的3.5改为3.6即可.
ubuntu14.04安装python3.5而且将其设置为python3默认启动
(https://blog.csdn.net/fireflychh/article/details/78195778)
2.利用virtualenv(也可以利用Anaconda或Pycharm管理)
Virtualenv允很多版本Python同时在电脑上共存,安装完Python3及pip后终端键入
#安装
pip3installvirtualenv
#创建假造环境
virtualenvspider-env
#激活假造环境
sourcespider-env/bin/activate
#退出
deactivate
3.安装库依靠
由于Scrapy依靠Python.h,在安装库依靠前在终端键入
sudoapt-getinstalllibpython3.6-dev
然后安装依靠,假如失败,请逐条实行
#在JobCrawler/JobCrawler目次下
pipinstall-rrequirements.txt
4.安装MongoDB
参照以下毗连安装MongoDBCommunityEdition
(https://docs.mongodb.com/manual/administration/install-community/)
运行爬虫
终端cd到项目根目次,键入
#-ojob.csv为可选参数,参加则输出到指定文件中
scrapycrawljobCrawler-ojob.csv
扩展:使爬虫开机运行
使爬虫在体系开机时主动运行,对于很多体系来说,最简单(假如不是最好的)的方式是利用rc.local文件具体实现方式就交由你本身用搜刮引擎探索啦
欢迎点击查察原文关注我的腾讯云社区账号
入门小白,欢迎各人指堕落误,技能交换
QQ:994342122,Email:fesonx@foxmail.com
本日作者:光光同砚_
不爱看影戏的拍照师不是好的程序员
我要评论