基于Python的网络爬虫.docx
更新时间:11-18 上传会员:将大紫

分类:本科论文论文字数:8272 需要金币:1000个

下载此论文

摘要：进入21世纪，我们迎来一个信息急速膨胀的时代，随着互联网的迅速发展，互联网上的信息过载，这使得想要通过一些人工的方法准确地搜索信息变得很有难度，在粮食价格方面，很多最新的信息都通过互联网来发布，因此，为了有效，准确地从大量的数据中提取出我们需要的信息，本论文确定了通过使用基于Python的scrapy爬虫框架来有效地提取信息。从而第一时间有效、准确地获得我们想要的爬虫信息。

-本论文详细分析了粮食价格的在网络上的信息特点，并根据这些特点设计了相关的爬虫核心算法，在scrapy的框架基础下进行了深度定制，从而实现粮食价格的爬取系统，在此过程中，我们多次使用了xpath和正则表达式来实现数据的识别和过滤。

网络爬虫是一段用来自动提取网页的代码，而Python是当下流行的程序设计语言。使用基于Python编写的网络爬虫，则可以有效地根据设计抓取指定网页的信息。本论文选择跟人们生活息息相关的粮食信息为主题，通过使用网络爬虫进行有效的抓取，再使用数据库加以记录和分析并建立索引，从而实现之后的查询和检索，继而实现对粮食价格趋势的分析以及粮食的溯源。在此过程中，我将综合应用到所学的知识，加深对程序开发的理解。

【关键字】网络爬虫；Python；scrapy；粮食价格

摘要

Abstract

第一章引言-1

第二章相关技术介绍-1

2.1 Python-1

2.2 Scrapy-2

2.3数据消重-2

2.3.1消重的意义-2

2.3.2消重的实现方法-2

2.4　爬行策略浅析-3

2.4.1搜索策略-3

2.4.1.1 深度优先-3

2.4.1.2 广度优先-4

2.4.2 搜索策略的选择-4

第三章系统需求分析及模块设计-5

3.1 系统需求分析-5

3.2 各主要功能模块（类）设计-5

3.3 scrapy爬虫工作过程-5

第四章系统分析与设计-7

4.1 爬行策略分析-7

4.2 URL抽取，解析和保存-7

4.2.1 URL抽取-7

4.2.3 URL及数据的保存-9

第五章系统实现-9

5.1 实现工具-9

5.2 爬虫实现及工作-10

5.3 URL解析-12

5.4 数据保存-13

第六章系统测试-15

第七章总结-17

参考文献-18

致谢-19

上一篇：基于NS2的网络仿真和性能分析--面向无线网络协议.docx
下一篇：基于Python的网络信息爬虫采集与应用.docx

最新原创论文，论文题目，论文提纲，论文范文

电脑版|

论文助手网提供可以用Word、WPS编辑的论文范文模板

基于Python的网络爬虫.docx更新时间:11-18 上传会员:将大紫

分类:本科论文 论文字数:8272 需要金币:1000个

基于Python的网络爬虫.docx
更新时间:11-18 上传会员:将大紫

分类:本科论文论文字数:8272 需要金币:1000个