Scrapy爬取银行理财产品信息（共12多万条）并存入MongoDB-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Scrapy爬取银行理财产品信息（共12多万条）并存入MongoDB

阅读量：2071 次

发布时间：2019-04-29

本文共 646 字，大约阅读时间需要 2 分钟。

本次Scrapy爬虫的目标是爬取“融360”网站上所有银行理财产品的信息，并存入MongoDB中。网页的截图如下，全部数据共12多万条。

我们不再过多介绍Scrapy的创建和运行，只给出相关的代码。关于Scrapy的创建和运行

修改items.py，代码如下，用来储存每个理财产品的相关信息，如产品名称，发行银行等。

创建爬虫文件bankSpider.py，代码如下，用来爬取网页中理财产品的具体信息。

为了将爬取的数据储存到MongoDB中，我们需要修改pipelines.py文件，代码如下：

其中的MongoDB的相关参数，如MONGO_HOST, MONGO_PORT在settings.py中设置。修改settings.py如下：

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {'bank.pipelines.BankPipeline': 300}

添加MongoDB连接参数

MONGO_HOST ="localhost"# 主机

IPMONGO_PORT =27017# 端口号

MONGO_DB ="Spider"# 库名

MONGO_COLL ="bank"# collection名#

MONGO_USER = ""# MONGO_PSW = ""

其中用户名和密码可以根据需要添加。

接下来，我们就可以运行爬虫了。运行结果如下：

共用时3小时，爬了12多万条数据，效率之高令人惊叹！

最后我们再来看一眼MongoDB中的数据：

转载地址：http://qhnmf.baihongyu.com/

你可能感兴趣的文章

(PAT 1096) Consecutive Factors (质因子分解)

(PAT 1019) General Palindromic Number (进制转换)

(PAT 1073) Scientific Notation (字符串模拟题)

(PAT 1080) Graduate Admission (排序)

Play on Words UVA - 10129 (欧拉路径)

mininet+floodlight搭建sdn环境并创建简答topo

【linux】nohup和&的作用

Set、WeakSet、Map以及WeakMap结构基本知识点

【NLP学习笔记】（一）Gensim基本使用方法

【NLP学习笔记】（二）gensim使用之Topics and Transformations

【深度学习】LSTM的架构及公式

【深度学习】GRU的结构图及公式

【python】re模块常用方法

剑指offer 19.二叉树的镜像

剑指offer 20.顺时针打印矩阵

剑指offer 21.包含min函数的栈

剑指offer 23.从上往下打印二叉树

剑指offer 25.二叉树中和为某一值的路径

剑指offer 26. 数组中出现次数超过一半的数字

剑指offer 27.二叉树的深度

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-18 02:01:29 当前IP: 18.116.67.177 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我