博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Scrapy爬取银行理财产品信息(共12多万条)并存入MongoDB
阅读量:2071 次
发布时间:2019-04-29

本文共 646 字,大约阅读时间需要 2 分钟。

本次Scrapy爬虫的目标是爬取“融360”网站上所有银行理财产品的信息,并存入MongoDB中。网页的截图如下,全部数据共12多万条。

我们不再过多介绍Scrapy的创建和运行,只给出相关的代码。关于Scrapy的创建和运行

修改items.py,代码如下,用来储存每个理财产品的相关信息,如产品名称,发行银行等。

创建爬虫文件bankSpider.py,代码如下,用来爬取网页中理财产品的具体信息。

为了将爬取的数据储存到MongoDB中,我们需要修改pipelines.py文件,代码如下:

其中的MongoDB的相关参数,如MONGO_HOST, MONGO_PORT在settings.py中设置。修改settings.py如下:

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {'bank.pipelines.BankPipeline': 300}

添加MongoDB连接参数

MONGO_HOST ="localhost"# 主机

IPMONGO_PORT =27017# 端口号

MONGO_DB ="Spider"# 库名 

MONGO_COLL ="bank"# collection名# 

MONGO_USER = ""# MONGO_PSW = ""

其中用户名和密码可以根据需要添加。

  接下来,我们就可以运行爬虫了。运行结果如下:

共用时3小时,爬了12多万条数据,效率之高令人惊叹!

  最后我们再来看一眼MongoDB中的数据:

转载地址:http://qhnmf.baihongyu.com/

你可能感兴趣的文章
(PAT 1096) Consecutive Factors (质因子分解)
查看>>
(PAT 1019) General Palindromic Number (进制转换)
查看>>
(PAT 1073) Scientific Notation (字符串模拟题)
查看>>
(PAT 1080) Graduate Admission (排序)
查看>>
Play on Words UVA - 10129 (欧拉路径)
查看>>
mininet+floodlight搭建sdn环境并创建简答topo
查看>>
【linux】nohup和&的作用
查看>>
Set、WeakSet、Map以及WeakMap结构基本知识点
查看>>
【NLP学习笔记】(一)Gensim基本使用方法
查看>>
【NLP学习笔记】(二)gensim使用之Topics and Transformations
查看>>
【深度学习】LSTM的架构及公式
查看>>
【深度学习】GRU的结构图及公式
查看>>
【python】re模块常用方法
查看>>
剑指offer 19.二叉树的镜像
查看>>
剑指offer 20.顺时针打印矩阵
查看>>
剑指offer 21.包含min函数的栈
查看>>
剑指offer 23.从上往下打印二叉树
查看>>
剑指offer 25.二叉树中和为某一值的路径
查看>>
剑指offer 26. 数组中出现次数超过一半的数字
查看>>
剑指offer 27.二叉树的深度
查看>>