导航:首页 > 文件教程 > 爬虫文件格式

爬虫文件格式

发布时间:2024-06-11 09:23:04

⑴ 爬取数据生成shp文件

Github仓库地址为 https://github.com/WanZixin/SinaWeibo-LocationSignIn-spider

共有两大功能,一个功能是根据高德地图web服务API获取行政区划坐标串卜轿,写入行政区shp文件;另一个功能是根据高德地图的接口获取poi坐标串,写入aoi(area of interest)的shp文件。

lib文件夹 ,包含两个xls文件,分别是高德地图的城市编码表和POI分类编码表。

result/district_shp文件夹 ,用于存储生成的行政区shp文件颤团。

result/aoi_shp文件夹 ,用于存储生成的aoi的shp文件。

config.ini文件 ,配置文件,填写高德地图web服务的key;填写要爬取的poi的类别编型洞肆码;填写爬取城市的adcode。

getPoiShp.py文件 ,生成指定专题、指定城市的aoi的shp文件。

getDistrictShp.py文件 ,生成行政区划shp文件。

gcj02togps84.py文件 ,高德地图使用的是GCJ-02坐标系,用此py文件转换为WGS-84坐标系。

在具体操作前,首先需要注册高德地图开发者账号,然后申请Web服务API密钥(Key)。

的请求URL,例如;<u style="box-sizing: inherit;"> http://restapi.amap.com/v3/config/district?key= <用户的key>&keywords=<关键词>&subdistrict=<子级行政区级别(0或1)>&extensions=all</u>。须注意的一点是:extensions参数应为all,若为base则只返回基本信息,其中不包含坐标串。

[图片上传失败...(image-c01f71-1594714471699)]

的请求URL,搜索POI有四种方式,分别是:关键词搜索、周边搜索、多边形搜索和ID查询。这里我们使用关键词搜索的方式,指定city并设置citylimit为true,只搜索城市内的数据。例如:<u style="box-sizing: inherit;"> https://restapi.amap.com/v3/place/text?keywords=北京大学&city=beijing&output=xml&offset=20&page=1&key= <用户的key>&extensions=all</u>。

如果有什么建议,欢迎联系我 [email protected] 或提issue。欢迎star!

⑵ robots.txt鏈変粈涔堢敤

robot.txt鐨勪富瑕佸姛鑳

鏈変汉浼氶棶锛屾棦鐒秗obots鏂囦欢娌℃湁鍑嗗囧ソ锛屾垨鑰呭嚭鐜颁簡閿欒锛屼細褰卞搷鏁翠釜缃戠珯鐨勬敹褰曪紝涓轰粈涔堣繕瑕佽繖涓鏂囦欢鍛锛

鍏跺疄robots鏄缁欐湁鐗规畩鎯呭喌鐨勭珯闀跨敤鐨勶紝鍥犱负鏈変簺缃戠珯鏈変竴浜涚珯闀夸笉甯屾湜琚浠讳綍鎼滅储寮曟搸鏀跺綍鐨勯〉闈锛屾墍浠ヨ繖涓猺obots鏂囦欢鏄鏈夌殑銆

robots.txt鏂囦欢鐢ㄦ硶绀轰緥:

1.绂佹㈡墍鏈夋悳绱㈠紩鎿庤块棶缃戠珯鐨勪换浣曢儴鍒嗐

鐢ㄦ埛浠g悊:*

涓嶅厑璁:/

2.鍏佽告墍鏈夋満鍣ㄤ汉璁块棶

鐢ㄦ埛浠g悊:*

涓嶅厑璁:

(鎴栬呭彲浠ユ瀯寤虹┖鏂囦欢/robots.txt鏂囦欢)

3.绂佹㈡悳绱㈠紩鎿庣殑璁块棶銆

鐢ㄦ埛浠g悊:BadBot

涓嶅厑璁:/

4.鍏佽告悳绱㈠紩鎿庣殑璁块棶

鐢ㄦ埛浠g悊:Baispider

涓嶅厑璁:

鐢ㄦ埛浠g悊:*

涓嶅厑璁:/

5.鍋囪句竴涓缃戠珯鏈変笁涓闄愬埗鎼滅储寮曟搸璁块棶鐨勭洰褰曘傚彲浠ヨ繖鏍峰啓:

鐢ㄦ埛浠g悊:*

涓嶅厑璁:/cgi-bin/

涓嶅厑璁:/tmp/

涓嶅厑璁:/joe/

闇瑕佹敞鎰忕殑鏄锛屾瘡涓鐩褰曞繀椤诲崟鐙澹版槑锛岃屼笉鏄鍐欐垚鈥淒isallow:/cgi-bin//tmp/鈥濄

User-agent:鍚庨潰鐨*(閫氶厤绗)鏈夌壒娈婂惈涔夛紝浠h〃鈥滀换浣曟満鍣ㄤ汉鈥濓紝鎵浠ヤ笉鑳芥湁鈥渄isallow:/tmp/*鈥濇垨鈥渄isallow:*鈥濅箣绫荤殑璁板綍銆俫if鈥濇枃浠朵腑銆

鍙﹀栵紝robots.txt涓昏佺敤浜庝繚璇佺綉缁滃畨鍏ㄥ拰缃戠珯闅愮侊紝鐧惧害铚樿洓閬靛惊robots.txt鍗忚銆傞氳繃鏍圭洰褰曚笅鍒涘缓鐨勭函鏂囨湰鏂囦欢robots.txt锛岀綉绔欏彲浠ュ0鏄庡摢浜涢〉闈涓嶆兂琚鐧惧害铚樿洓鎶撳彇鏀跺綍銆傛瘡涓缃戠珯鍙浠ヨ嚜涓绘帶鍒剁綉绔欐槸鍚︽効鎰忚鐧惧害铚樿洓鏀跺綍锛屾垨鑰呮寚瀹氱櫨搴﹁湗铔涘彧鏀跺綍鎸囧畾鐨勫唴瀹广傜櫨搴﹁湗铔涘湪璁块棶涓涓绔欑偣鏃讹紝浼氬厛妫鏌ヨョ珯鐐圭殑鏍圭洰褰曚笅鏄鍚﹀瓨鍦╮obots.txt銆傚傛灉鏂囦欢涓嶅瓨鍦锛岀埇铏灏嗘部鐫閾炬帴鐖琛屻傚傛灉鏄锛岀埇铏灏嗘牴鎹鏂囦欢鐨勫唴瀹圭‘瀹氳块棶鑼冨洿銆

robots鍏蜂綋浣撶幇鏄锛

robots鏄缃戠珯璺熺埇铏闂寸殑鍗忚锛岀敤绠鍗曠洿鎺ョ殑txt鏍煎紡鏂囨湰鏂瑰紡鍛婅瘔瀵瑰簲鐨勭埇铏琚鍏佽哥殑鏉冮檺锛屽敖绠″彧瑕佹斁鍦ㄦ牴鍩熷悕鐩褰曚笅锛屾湭璁剧疆绯荤粺绾х洰褰曡块棶鏉冮檺鐨勬枃浠剁埇铏閮藉彲浠ユ姄鍙栫殑鍒帮紝浣嗙綉绔欒窡鎼滅储寮曟搸闂村傛灉娌℃湁鍗忚锛屽皢浣夸笉鍙棰勭煡鐨勫ぇ閲忎俊鎭娉勯湶鍒扮綉涓婏紝杩欎笉鏄鍙屾柟鎰挎剰鐪嬪埌鐨勩傝繖绉嶇害瀹氳村埌鏈璐ㄦ槸浜轰笌浜轰箣闂寸殑鍚涘瓙绾﹀畾銆傞櫎姝ゅ栵紝瀹冭繕鏈夎窡nofollow涓鏍锋彁鍗嘢EO鏁堢巼鐨勫姛鐢

鎬庝箞鏍烽檺鍒禸ing鐨勪娇鐢锛

闄愬埗bing鐨勪娇鐢ㄦ湁涓ょ嶈В鍐虫柟寮忥細

绗涓绉嶏細閫氳繃bing鎻愪緵鐨剋ebmastertools宸ュ叿璁剧疆銆

娉ㄥ唽濂斤紝璁よ瘉瀹岀綉绔欏悗锛屽彲鍦ㄥ乏渚ч厤缃鑿滃崟涓閫夋嫨鈥滅埇缃戞帶浠垛濊繘琛岄厤缃銆

闄愬埗Bing鎼滅储寮曟搸鎶撳彇棰戠巼锛岄檷浣庢湇鍔″櫒璐熻浇锛岃剧疆濂芥椂鍖猴紝鐒跺悗鎷栧姩鏃堕棿鏉¤繘琛岀$悊銆傞潪甯告柟渚裤

绗浜岀嶏紝杩欑嶆柟寮忔瘮杈冩毚鍔涳紝鐩存帴鎺у埗robots.txt鏂囦欢杩涜屾帶鍒躲

鍙浠ュ湪robots.txt閲岄潰澧炲姞crawl-delay杩欎釜鍙傛暟銆

User-agent:bingbot

Crawl-delay:1

涓婇潰鐨勪唬鐮佷唬琛╞ingbot闄愬埗鎶撳彇棰戠巼涓烘參銆

濡傛灉涓嶈剧疆Crawl-delay灏变唬琛ㄧ敱鎼滅储寮曟搸鑷宸卞喅瀹氭姄鍙栭戠巼銆傝繖涓鍊煎彲浠ヨ剧疆1銆5銆10锛屽垎鍒瀵瑰簲鎱銆侀潪甯告參銆佹瀬鎱銆

浠涔堟槸robots.txt鏂囦欢锛

robots.txt涔熷氨robots鍗忚锛屾槸鎼滅储寮曟搸涓璁块棶缃戠珯鐨勬椂鍊欒佹煡鐪嬬殑绗涓涓鏂囦欢銆傞氳繃robots.txt鏂囦欢鍛婅瘔鎼滅储寮曟搸铚樿洓鍝浜涢〉闈㈠彲浠ユ姄鍙栵紝鍝浜涢〉闈涓嶈兘鎶撳彇銆

⑶ spider.sav鏄浠涔堟枃浠

Spider.sav閫氬父鏄涓涓淇濆瓨鏂囦欢锛岄氬父涓庢煇绉嶈湗铔涚埇铏绋嬪簭锛圫pider Crawler锛夌浉鍏炽傝繖绉嶆枃浠堕氬父鐢ㄤ簬淇濆瓨鐖铏绋嬪簭鍦ㄨ繍琛岃繃绋嬩腑鐨勭姸鎬併侀厤缃銆佹暟鎹鎴栧叾浠栫浉鍏充俊鎭銆

棣栧厛锛屾垜浠闇瑕佹槑纭鐨勬槸锛".sav" 鏂囦欢鎵╁睍鍚嶉氬父琛ㄧず“淇濆瓨”锛圫ave锛夋枃浠讹紝杩欑被鏂囦欢閫氬父鐢ㄤ簬瀛樺偍绋嬪簭鎴栧簲鐢ㄧ▼搴忕殑鐘舵佹垨鏁版嵁锛屼互渚垮湪绋嶅悗鐨勬椂闂寸偣鎭㈠嶆垨閲嶆柊浣跨敤銆傚叿浣撳埌“spider.sav”锛岃繖閫氬父鎸囩殑鏄涓庤湗铔涚埇铏鐩稿叧鐨勪繚瀛樻枃浠躲

铚樿洓鐖铏鏄涓绉嶈嚜鍔ㄥ寲绋嬪簭锛岀敤浜庡湪浜掕仈缃戜笂娴忚堝拰绱㈠紩缃戦〉銆傚畠浠閫氳繃閬靛惊缃戦〉涓婄殑閾炬帴锛屼粠涓涓椤甸潰“鐖鍙”鍒板彟涓涓椤甸潰锛屼粠鑰屾瀯寤哄嚭鏁翠釜缃戠珯鐨勭粨鏋勫拰鍐呭广傚湪鐖铏绋嬪簭杩愯岀殑杩囩▼涓锛屽畠鍙鑳戒細閬囧埌鍚勭嶆儏鍐碉紝濡傜綉缁滆繛鎺ヤ腑鏂銆佺郴缁熷穿婧冪瓑锛屽艰嚧鏃犳硶缁х画鎵ц屻備负浜嗗湪杩欎簺鎯呭喌涓嬩繚鎶ゅ凡缁忔敹闆嗗埌鐨勬暟鎹鍜岃繘搴︼紝鐖铏绋嬪簭鍙鑳戒細灏嗗綋鍓嶇殑鐘舵佸拰閰嶇疆淇濆瓨鍒颁竴涓.sav鏂囦欢涓銆

涓句釜渚嬪瓙锛屽亣璁句綘姝e湪浣跨敤涓涓鍚嶄负“WebSpider”鐨勭埇铏绋嬪簭鏉ョ埇鍙栨煇涓缃戠珯鐨勫唴瀹广傚湪鐖鍙栬繃绋嬩腑锛學ebSpider鍙鑳戒細閬囧埌涓浜涢渶瑕佺櫥褰曟墠鑳借块棶鐨勯〉闈銆備负浜嗘垚鍔熺埇鍙栬繖浜涢〉闈锛學ebSpider鍙鑳介渶瑕佷繚瀛樼敤鎴风殑鐧诲綍鐘舵佸拰鍏朵粬鐩稿叧淇℃伅銆傝繖鏃讹紝瀹冨彲鑳戒細鍒涘缓涓涓鍚嶄负“spider.sav”鐨勬枃浠讹紝骞跺皢杩欎簺淇℃伅淇濆瓨鍦ㄥ叾涓銆傚傛灉WebSpider鍦ㄧ埇鍙栬繃绋嬩腑鍥犱负鏌愮嶅師鍥犱腑鏂锛屼綘鍙浠ヤ娇鐢“spider.sav”鏂囦欢鏉ユ仮澶嶄箣鍓嶇殑鐘舵侊紝缁х画鐖鍙栧墿浣欑殑椤甸潰銆

鎬讳箣锛“spider.sav”鏂囦欢鏄涓涓涓庤湗铔涚埇铏绋嬪簭鐩稿叧鐨勪繚瀛樻枃浠讹紝鐢ㄤ簬瀛樺偍鐖铏绋嬪簭鍦ㄨ繍琛岃繃绋嬩腑鐨勭姸鎬併侀厤缃銆佹暟鎹鎴栧叾浠栫浉鍏充俊鎭銆傝繖绉嶆枃浠跺彲浠ュ府鍔╃敤鎴峰湪鐖铏绋嬪簭涓鏂鏃舵仮澶嶄箣鍓嶇殑杩涘害锛屾彁楂樼埇鍙栨晥鐜囥傜劧鑰岋紝闇瑕佹敞鎰忕殑鏄锛屽叿浣撶殑鏂囦欢鍐呭瑰拰鏍煎紡鍙鑳戒細鍥犱笉鍚岀殑鐖铏绋嬪簭鍜屽簲鐢ㄧ▼搴忚屾湁鎵涓嶅悓銆

阅读全文

与爬虫文件格式相关的资料

热点内容
win7共享win10打印机如何打印文件 浏览:388
海马定位安卓版 浏览:227
mysql同步数据库结构 浏览:107
打开方式怎么添加压缩文件 浏览:679
怎么插入单页网站 浏览:430
压缩文件过大发不过去怎么办 浏览:17
苹果手机无线传输文件 浏览:647
怎么把aep文件转换为gif 浏览:727
人寿保险app如何更改银行卡账号 浏览:713
食品生产风险大数据 浏览:718
文件ftp格式怎么转换成cad 浏览:117
小米平板2win10dnx 浏览:486
删除psd文件空白 浏览:19
手机默认应用程序修改器 浏览:299
苹果5s设置来电铃声 浏览:799
dnf90版本平民搬砖装备 浏览:422
group是什么文件 浏览:890
微信几天前删的文件怎么恢复 浏览:71
迅雷不下载上传数据文件 浏览:566
怎么把文件夹的图片拖到ps中 浏览:400

友情链接