当前位置:首页 > 黑客服务 > 正文内容

Python高档爬虫(三):数据存储以及多线程

访客4年前 (2021-04-15)黑客服务973

本文咱们就两个方面来评论怎么改善咱们的爬虫:数据存储和多线程,当然我供认这是为咱们今后要评论的一些东西做衬托。
意图:一般咱们需求对爬虫捕捉的数据进行剖析,处理,再次使用或许格局化,明显咱们不能只是把爬虫捕捉到的数据在内存中处理,然后打印在屏幕上。在本章,我将介绍几种干流的数据存储方法。爬虫处理数据的才能往往是决议爬虫价值的决议性要素,一起一个安稳的存储数据的方法也肯定是一个爬虫的价值表现。
别的,选用多开线程的爬虫,发明多个并行线程和谐作业也肯定是进步爬虫功率,下降失败率的好方法。
0×01 引导
咱们就接下来要讲的部分做一个简略的引导,关于数据存储方法:
1、 存储索引或许直接下载数据
2、CSV
3、MySQL
关于线程:
假如读者并不会python的线程处理,能够参阅这篇文章。
分为函数式和类包装,这两个方法进行线程处理。
0×02 数据存储:存储索引或许直接下载数据
关于这一点我觉得没有必要做深化的解说,因为这一点咱们在前几篇文章中或多或少都有触摸:比方制造sitemap:这儿存储了整个网站你需求的链接,比方抓取freebuff文章生成.docx文档的这一节,这些其实都归于本节所说的数据存储方法。那么就本节而言,我再介绍一个比如,爬取一个freebuf产品列表区域一切的图片(听起来仍是挺风趣的吧!?)
过程1:了解网站结构
过程2:编写脚本
过程3:测验
首要咱们需求了解一下咱们的方针(为了防止广告嫌疑,这儿仍是以freebuf作为方针吧)

检查元素发现下面的div标签包含了单个的产品信息,
Div(class=nall-news)->div(class=col-sm6col-md-lg-4 mall-product-list)->div(class=photo)->a->img
这样咱们就轻松加愉快地找到了img地点的当地,那么依据这些,咱们能够指定简略的计划:获取产品的地点的标签,然后因为产品标签的一致性,咱们能够一层一层索引下去找到图片的方位,当然有个不稳妥的方法便是,获取的直接获取img,(走运的是,在这个比如中只存在一个img标签),咱们测验从简,节省时刻,那么一两分钟咱们就写出了自己的脚本:
import urllib
from bs4 import BeautifulSoup
import re
url = 'http://shop.freebuf.com/'
print "prepare&reading to read theweb"
data = urllib.urlopen(url).read()
print data
print "parsing ... ... ... "
soup = BeautifulSoup(data)
#
itemlist =soup.findAll(name='div',attrs={'class':'col-sm-6 col-md-4 col-lg-4mall-product-list'})
for item in itemlist:
print item.img
这样咱们就在自己的debug I/O看到了打印出的九个img标签:

然后咱们用曾经学到的技术,就满足把这些图片dump下来了,
完善脚本!
import urllib
from bs4 import BeautifulSoup
import re
url = 'http://shop.freebuf.com/'
print "prepare&reading to read theweb"
data = urllib.urlopen(url).read()
print data
print "parsing ... ... ... "
soup = BeautifulSoup(data)
#
itemlist = soup.findAll(name='div',attrs={'class':'col-sm-6col-md-4 col-lg-4 mall-product-list'})
for item in itemlist:
"""
为了适配图片的格局,咱们这儿这样处理。
不过不是肯定的,某些时分这样做就不适宜:
"""
   print item.img['src'][-4:]
"""
urlretrieve这个方法是咱们曾经触摸过的,用于下载图片,还能够下载整个页面:
"""
urllib.urlretrieve(url=item.img['src'],filename=item.img['alt']+item.img['src'][-4:])
然后咱们能够看一下作用,这样做的优点便是防止下来一大堆无关的图片,(有些时分咱们下载整站,然后提取图片会发现各种图片混在一起了,那样的确烦得很):

作用能够说是还不错吧,当然我懒并没有把图片树立文件夹存起来。
0×03 数据存储:CSV
CSV(comma-separated values),是现在比较盛行的一种文件存储格局。被Excel和许多的应用程序支撑。CSV文件存储的比如如下:
Fruit,cost
Apple,1.00
Banana,0.30
Pear,1.25
看起来便是表格的压缩版,其实真的没有什么古怪的,这个很简略的对吧?当然,咱们都能想到这种方法存储表格再好不过了。不过笔者在这儿主张:假如你只要一个table要处理,复制粘贴应该是比这样快,假如一堆table要处理,或许是要从各种数据中挑选出表格,然后组合成一张新表,这样无疑能够加速你的速度。
那么咱们就举一个比如来介绍一个下咱们下一个比如。一定是一个风趣的体会:
作为上一个比如的拓宽:咱们腰身成一个.csv文件,存储每个产品的称号和需求的金币数。

咱们调查一下详细的金币方位,产品信息都在哪里?笔者信任咱们现已看到了,那么接下来咱们得先收拾一下获取info的方法:
class="col-sm-6 col-md-4col-lg-4 mall-product-list">->div(class=info)
只是一步咱们就能够得到信息方位。
Div(class=info)->h4->产品信息

[1] [2] [3]  黑客接单网

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:https://www.therlest.com/106626.html

分享给朋友:

“Python高档爬虫(三):数据存储以及多线程” 的相关文章

吃鸡鸭的屁股会有病吗?我非常爱吃鸡鸭的屁股,但经常吃会有病吗?另

吃鸡鸭的屁股会有病吗?我非常爱吃鸡鸭的屁股,但经常吃会有病吗?另 鸡鸭的肛门附近组织,布满大大小小的腺体,各类秽物与毒素都在这些腺体囤积;鸡鸭的肛门也有非常高密度的大肠杆菌,所以鸡鸭的屁股不是少吃的问题,而是不能吃.吃得少可能没觉出怎样,多了问题就显出来了.而且鸡鸭屁股的大肠杆菌会随着蛋生出来的时...

中国水产养殖网官网_中国水产价格网

只能告诉你名称了,这个,像南京就要三十几,南京六合沪江水产市场甲鱼价格就应声下落。 1-2两的黄鳝批发价格是25元/斤,19-20元/斤,水产养殖网总浏览量达100万人次,价格在35-40元一斤。按照商品鱼进行销售的话,元旦刚过。 生甲鱼200-500/斤,我这边有一个,水产养殖品,战略合作 现在市...

果蔬清洗机有用吗(果蔬清洗机有用吗_真的可以去农残吗_)

2019-01-0913:09:0622号喜欢5收藏5条评论家用果蔬清洗机这种小众的厨房电器产品,突然在网上出现了大量的宣传,给了很多懒朋友一个花钱的借口。部分宣传图片中,清洗前后对比明显的恶心图片,农药残留检测对比视频等。使许多人开始正视这种果蔬清洗机的功能。在准备点菜的时候,其实很多人都有些怀疑...

西安电脑黑客接单_怎么能找入侵蚊香社的黑客

sudo apt install g++-4.4SplashData剖析的这500万被走漏的暗码主要是北美和西欧的用户,成人网站走漏的暗码不包含在剖析陈述中。 支撑(V4增强)所谓0day缝隙的在野运用,一般是进犯活动被捕获时,发现其运用了某些0day缝隙(进犯活动与进犯样本剖析自身也是0day缝隙...

查房网(查看房屋网的网站数据下载)

春节来临之际,查看房屋网官网2000w百度盘数据下载软件登录,有多少信息站在线签约?awSxnn北京市不动产登记信息网上查询服务于3月20日上线。 一、查房网官方网址 查房网查询的。当地建委(建设局)在房产交易大厅,可以凭身份证免费查看自己名下的房产信息。 二、查房网2000...

图说兰州清真寺之兰州水上清真寺

圖說蘭州清真寺之蘭州水上清真寺讀書啊,我信赖但有朗朗書聲出破廬,遲早有一日有萬鯉躍龍門之奇象。 圖說蘭州清真寺是本人在2011年開始走訪,並在中穆網蘭州社區陸續發佈的走訪蘭州清真寺之系列。不知不覺六七年過去瞭,有的清真寺有瞭很大的變化,以是在此基礎上本人再次整理發佈,希望大傢足不出戶瞭解蘭州的...

评论列表

只酷闻枯
3年前 (2022-07-03)

看到了打印出的九个img标签:然后咱们用曾经学到的技术,就满足把这些图片dump下来了,完善脚本!import urllibfrom bs4 import BeautifulSoupimport reurl = 'http://sho

青迟弦久
3年前 (2022-07-03)

in itemlist:print item.img这样咱们就在自己的debug I/O看到了打印出的九个img标签:然后咱们用曾经学到的技术,就满足把这些图片dump下来了,完善脚本!import urllibfrom bs

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。