18143453325 或

在线咨询

所在位置：首页 > 营销资讯 > 电子商务 > 我用python爬取了敦煌网

我用python爬取了敦煌网

时间：2023-03-19 19:48:01 | 来源：电子商务

时间：2023-03-19 19:48:01 来源：电子商务

做跨境电商，产品的市场行情是非常关键的指标，无论是新品开发还是市场调研都有需求，那么今天我们就来做个敦煌网的产品价格与销量查询的工具。

一、基础版本

其实敦煌网是很客气的网站，基本上没有做针对的反爬措施，既然别人这么客气，我们也要懂得礼貌，做爬虫的同学都知道爬虫的基本礼仪。那就是该停就停，能在晚上没有太多人的时候运行就放在人少的时候，频率不要太高。不过还我们的工具，一开始就打算按照关键词进行爬取，所以对网站的负担不会太重，可以放心的使用。

话不多说，先上代码

import requestsfrom bs4 import BeautifulSoupimport refrom urllib.parse import quote_plusimport sysdef save_data(url,path='dhgate.csv',data=None):    web_data = requests.get(url)    soup = BeautifulSoup(web_data.text,'lxml')    prices = []    orders = []    for item in soup.select('#proList .price'):        m = re.search(r'(/d*./d*) - (/d*./d*)',item.text)        if m:            price = float(m.group(1))+float(m.group(2))            prices.append(round(price/2,2))        else:            pass    for item in soup.select('#proList .attribute'):        m = re.search(r'Sold: (/d+)',item.text)        if m:            orders.append(m.group(1))         else:            orders.append(None)    for price, order in zip(prices,orders):        data = {        'price': price,        'order': order        }        print(data)        with open(path,'a') as f:            f.write('{},{}/n'.format(data['price'],data['order']))def get_data(key_word,page_num):    key_word = quote_plus(key_word)    urls = ['http://www.dhgate.com/w/{}/{}.html'.format(key_word,str(i))         for i in range(page_num)]    for url in urls:        save_data(url,key_word+'.csv')if __name__ == '__main__':    key_word,page_num = sys.argv[1:3]    get_data(key_word,int(page_num))

内容比较简单，为了让大家不至于看的太累，注释什么的大多被我删除了。下面我们来简单的讲解下这段代码。首先，我们导入要用的包：

import requests # requests包主要用来获取网页内容from bs4 import BeautifulSoup # BeautifulSoup用来解释网页内容import re # re包是用正则来辅助解析用from urllib.parse import quote_plus # quote_plus用来处理关键词import sys # sys用来获取命令行的参数

主要流程都在__main__里面，我们通过sys获取的关键词和页数，这里没有异常处理，其实应该对传入的参数进行异常处理下的。然后直接运行get_data函数获取我们所需的数据。我们直接在get_data函数里调用的save_data把数据存储到csv文件中。这个是最早的版本，大概是在2016写的，现在运行还是能够成功。这个版本，只获取的价格与销量。

二、第一次重构

其实很早就想重构一下，一直没有动力，大概是2017年3月的时候，有朋友问我对标题是怎么做的，终于找到理由重构一下了, 简单重构了下，新代码比较丑，数据储存还有bug, 当时太晚了，就没优化了，实现了获取产品标题，价格，起订量，销量，好评，店铺地址，卖家名，店铺好评率的获取。

import requestsfrom bs4 import BeautifulSoupimport refrom urllib.parse import quote_plusimport sysfrom numpy import meandef save_data(url,path='dhgate.csv',data=None):    web_data = requests.get(url)    soup = BeautifulSoup(web_data.text,'lxml')        info = []    items = soup.find_all("div", "listitem")    for item in items:        title = item.find("h3").find("a").text # 标题        price = item.find("li","price").text # 价格        m = re.findall(r'(/d+/.*/d+)', price)        price = mean(list(map(float, m))) # 计算均价        attribute = item.find("ul", "attribute").text        min_order = re.findall(r'Min. Order: (/d+)', attribute)[0] # 起订量        order = re.findall(r'Sold: (/d+)', attribute)        order = order[0] if len(order) > 0 else 0 # 订单量        feedback = item.find("span","reviewnum")        feedback = re.findall(r"/d+", feedback.text)[0] if feedback else 0        seller = list(item.find("span","seller").stripped_strings)[-1]        store_url = item.find("span","seller").find("a")['href']        store_feedback = item.find("li","feedback")        store_feedback = re.findall(r"/d+/.*/d+",             store_feedback.text)[0] if store_feedback else 0        data = {            'title': title,            'price': price,            'min_order': min_order,            'order': order,            'feedback': feedback,            'seller': seller,            'store_url': store_url,            'store_feedback': store_feedback        }        print(data)        with open(path,'a') as f:            f.write('{}/t{}/t{}/t{}/t{}/t{}/t{}/t{}/n'.format(                data['title'],                data['price'],                data['min_order'],                data['order'],                data['feedback'],                data['seller'],                data['store_url'],                data['store_feedback']                ))def get_data(key_word,page_num):    key_word = quote_plus(key_word)    urls = ['http://www.dhgate.com/w/{}/{}.html'.format(key_word,str(i))         for i in range(page_num)]    for url in urls:        save_data(url,key_word+'.csv')if __name__ == '__main__':    key_word,page_num = sys.argv[1:3]    get_data(key_word,int(page_num))

老样子，简单讲解下，其实主体和第一次写的没有太大差别，主要是字段解析这里，多添加了一些内容：

for item in items:        title = item.find("h3").find("a").text # 标题        price = item.find("li","price").text # 价格        m = re.findall(r'(/d+/.*/d+)', price)        price = mean(list(map(float, m))) # 计算均价        attribute = item.find("ul", "attribute").text        min_order = re.findall(r'Min. Order: (/d+)', attribute)[0] # 起订量        order = re.findall(r'Sold: (/d+)', attribute)        order = order[0] if len(order) > 0 else 0 # 订单量        feedback = item.find("span","reviewnum")        feedback = re.findall(r"/d+", feedback.text)[0] if feedback else 0        seller = list(item.find("span","seller").stripped_strings)[-1]        store_url = item.find("span","seller").find("a")['href']        store_feedback = item.find("li","feedback")        store_feedback = re.findall(r"/d+/.*/d+",             store_feedback.text)[0] if store_feedback else 0

BeautifulSoup的css selector其实还是很好用的，当然，解析速度是相当来说慢了点，不过影响不是太大。后面我们会用lxml的xpath来重构，速度会好很多。对于新手，或者前端不是太理解的人来说，做爬虫还是比较坑的，我的经验来说，做爬虫最好还是要懂点前端, 当然懂得越多越好，爬虫与前端的反爬虫一直是这样相爱相杀，所以你越了解你的敌人，你就越得心就手。

三、用类的思想做个小框架

前面的内容基本已经能满足我们的需求了，但是类的思想可以让我们做到解耦，功能模块更清晰。先上一个scrapy的框架图来镇楼：

主要内容有scrapy引擎，scheduler调度器，itempipline数据处理，downloader下载，spiders爬虫程序。我们就模仿这个框架做一个简单的:

main.py # 主程序url_manager.py # url管理器html_downloader.py # 下载器 相当于scrapy的downloaderhtml_parser.py # 网页解析器 scrapy的解析直接就是在spiders里html_outputer.py # 数据处理器 相当于scrapy的item pipeline

有了这几个类，我们已经可以完成一个简单的框架了。main.py 里主要是保证任务的进行。

import url_managerimport html_downloaderimport html_outputerimport html_parserclass SpiderMain(object):    def __init__(self):        self.urls = url_manager.UrlManager()        self.downloader = html_downloader.HtmlDownloader()        self.parser = html_parser.HtmlParser()        self.outputer = html_outputer.HtmlOutputer()    def craw(self, key_word, page_num):        count = 1        self.urls.build_url(key_word, int(page_num))        while self.urls.has_new_url():            try:                new_url = self.urls.get_new_url()                print(f"craw {count} : {new_url}")                html_cont = self.downloader.download(new_url)                new_data = self.parser.parse(new_url, html_cont)                self.outputer.collect_data(new_data)                count += 1            except Exception as e:                print("craw failed", e)        self.outputer.to_csv()        # return self.outputer.datasif __name__ == "__main__":    spider = SpiderMain()    print(spider.craw("women dress", "2"))

主程序内容比较简单，导入相应的类，构建了一个爬虫主类，传入关键词和页数，爬虫就愉快的开始爬网了。核心就在这个craw函数。 1. 首先url管理器构建一个初始url，告诉爬虫从哪儿开始爬取。 2. 然后爬虫开始看url管理器里有没有新的url，有就获取新的url，把新的url传入下载器进行下载。 3. 然后下载器把下载的数据传入解析器进行解析。 4. 数据处理器收集解析器解析出来的新数据。 5. 数据处理器保存数据到本地。

下面我们一个一个讲解这几个功能类： - url_manage.py url管理器

build_url 构建初始网址 add_new_url 添加新的url到管理器 has_new_url 检查管理器里有没有新的url get_new_url 从管理器里获取新的url show_urls 遍历管理器里的url 这里的功能实际上都是针对的__init__里面设置的两个set，这里没有使用数据库，使用数据库也是一样的效果。

def __init__(self):        self.new_urls = set()        self.old_urls = set()        self.site = 'http://www.dhgate.com/w/{0}/{1}.html'

html_downloader.py 下载器

下载器其实很简单，只有一个方法，就是下载，这里直接引入requests包，使用其相关方法就完成了download方法。

html_parser.py 网页解析器

解析器是整个项目的核心，不过核心代码其实和第二次重构里差不多，基本上就是把第二次的核心代码挪过来就可以用了。

def _get_new_data(self, page_url, soup):        items = soup.find_all("div", "listitem")        datas = []        for item in items:            title = item.find("h3").find("a").text  # 标题            product_url = HtmlParser.format_str(                item.select("h3 > a.subject")[0].get("href"))            price = item.find("li", "price").text  # 价格            min_price, max_price = re.findall(r'(/d+/.*/d+)', price)  # 最低价，最高价            attribute = item.find("ul", "attribute").text            min_order = re.findall(r'Min. Order: (/d+)', attribute)[0]  # 起订量            order = re.findall(r'Sold: (/d+)', attribute)            order = order[0] if len(order) > 0 else 0  # 订单量            feedback = item.find("span", "reviewnum")            feedback = re.findall(r"/d+",                                  feedback.text)[0] if feedback else 0  # 产品好评            seller = list(item.find("span",                                    "seller").stripped_strings)[-1]  # 卖家            store_url = item.find("span", "seller").find("a")['href']  # 店铺链接            store_feedback = item.find("li", "feedback")            store_feedback = re.findall(                r"/d+/.*/d+",                store_feedback.text)[0] if store_feedback else 0  # 店铺评价            data = {                'page_url': page_url,                'title': title,                'product_url': 'http:' + product_url,                'min_price': min_price,                'max_price': max_price,                'min_order': min_order,                'order': order,                'feedback': feedback,                'seller': seller,                'store_url': store_url,                'store_feedback': store_feedback            }            datas.append(data)        return datas

就不多说了，parse方法里引用_get_new_data解析完成返回数据。

html_outputer.py 数据处理器

其实这一个叫做数据处理器可能不太准确，叫做输出器可能更好，因为它的主要做用只是输出数据到本地存储。而且我们真正的数据处理其实都在解析器里已经完成了，大家可以看上面的代码。而且这里只有三个方法.

collect_data 收集前面处理好的数据 to_html 把数据输出成html格式 to_csv 把数据输出成csv格式，这个就和我们之前做的一样，不过这里使用了csv包，效率更高

def to_html(self):        with open('output.html', 'w') as f:            f.write("<html>")            f.write("<body>")            f.write("<table>")            f.write("<tr>")            for key in self.datas[0].keys():                f.write(f"<td>{key}</td>")            f.write("</tr>")            for data in self.datas:                f.write("<tr>")                for key, value in data.items():                    f.write(f"<td>{value}</td>")                f.write("</tr>")            f.write("</table>")            f.write("</body>")            f.write("</html>")    def to_csv(self, path="output.csv"):        with open(path, 'w', newline="") as f:            try:                writer = csv.DictWriter(f, self.datas[0].keys())            except IndexError:                print(self.datas[0].keys())            writer.writeheader()            for data in self.datas:                writer.writerow(data)

可以看到输出到html稍微麻烦点，主要是要写html特有的标签，而csv就相当简单了，csv包里有相应的方法，可以直接使用。

就这样，整体项目被我们用小框架实现了。

后记

下一篇，我们用python自带的图形库tk来实现一个界面，方便普通用法使用。大家记得关注我公众号，想要源码可以在公众号后台输入 0020 获取。

关键词：敦煌

网站
营销
设计
运营
优化
效率
专注
电商
方案
推广

解决方案&服务

客户&案例

营销资讯

关于我们

解决方案&服务

客户&案例

营销资讯

关于我们

微信公众号

为了最佳展示效果，本站不支持IE9及以下版本的浏览器，建议您使用谷歌Chrome浏览器。点击下载Chrome浏览器

关闭

快捷入口

我用python爬取了敦煌网

一、基础版本

话不多说，先上代码

二、第一次重构

三、用类的思想做个小框架

后记

客户搜索平台大全

https协议是什么？有哪些优点？

最新国内知名生鲜B2C电商平台大盘点！珍藏版

CRM客户管理系统和ERM有什么区别？CRM和ERM？

火星人许子敬：GTA基因链将与全球优质企业携手共建导行（BTOC）平台

跨境物流有哪些以及跟踪物流信息的意义

2022-2027年移动电子商务产业深度调研及未来发展现状趋势预测报告

数商云B2B交易系统：产业互联新趋势，拓宽B2B系统网上交易渠道

跨境物流如何选择？优势有哪些？千城海仓为您分享！

凌云轻型云端管理软件，为酷暑降温

快捷入口

我用python爬取了敦煌网

一、基础版本

话不多说，先上代码

二、第一次重构

三、用类的思想做个小框架

后记

推荐文章

敦煌网平台类目绑定

敦煌网卖家后台商品编辑11.19版本功能更新

敦煌网独立站购买域名流程指导

敦煌网第六期“热门询盘&amp;quot;

精准转化、优势强化，敦煌网创造“黑五网一”销量奇迹

敦煌网发布公告，2022年起没有在平台上传EPR注册号面临货物扣留！

官宣！辰海集团正式成为敦煌网官方推荐的合规服务商

2021年敦煌网珠宝类目发展趋势及跨境出口电商热招品

谈谈敦煌网在后疫情时代如何支持中小企业出海

注意了！五大因素影响敦煌网卖家评分排序

客户搜索平台大全

https协议是什么？有哪些优点？

最新国内知名生鲜B2C电商平台大盘点！珍藏版

CRM客户管理系统和ERM有什么区别？CRM和ERM？

火星人许子敬：GTA基因链将与全球优质企业携手共建导行（BTOC）平台

跨境物流有哪些以及跟踪物流信息的意义

2022-2027年移动电子商务产业深度调研及未来发展现状趋势预测报告

数商云B2B交易系统：产业互联新趋势，拓宽B2B系统网上交易渠道

跨境物流如何选择？优势有哪些？千城海仓为您分享！

凌云轻型云端管理软件，为酷暑降温

敦煌网第六期“热门询盘"