更新时间:11-18 上传会员:将大紫
分类:本科论文 论文字数:8272 需要金币:1000个
摘要:进入21世纪,我们迎来一个信息急速膨胀的时代,随着互联网的迅速发展,互联网上的信息过载,这使得想要通过一些人工的方法准确地搜索信息变得很有难度,在粮食价格方面,很多最新的信息都通过互联网来发布,因此,为了有效,准确地从大量的数据中提取出我们需要的信息,本论文确定了通过使用基于Python的scrapy爬虫框架来有效地提取信息。从而第一时间有效、准确地获得我们想要的爬虫信息。
-本论文详细分析了粮食价格的在网络上的信息特点,并根据这些特点设计了相关的爬虫核心算法,在scrapy的框架基础下进行了深度定制,从而实现粮食价格的爬取系统,在此过程中,我们多次使用了xpath和正则表达式来实现数据的识别和过滤。
网络爬虫是一段用来自动提取网页的代码,而Python是当下流行的程序设计语言。使用基于Python编写的网络爬虫,则可以有效地根据设计抓取指定网页的信息。本论文选择跟人们生活息息相关的粮食信息为主题,通过使用网络爬虫进行有效的抓取,再使用数据库加以记录和分析并建立索引,从而实现之后的查询和检索,继而实现对粮食价格趋势的分析以及粮食的溯源。在此过程中,我将综合应用到所学的知识,加深对程序开发的理解。
【关键字】网络爬虫;Python;scrapy;粮食价格
目录
摘要
Abstract
第一章 引言-1
第二章 相关技术介绍-1
2.1 Python-1
2.2 Scrapy-2
2.3数据消重-2
2.3.1消重的意义-2
2.3.2消重的实现方法-2
2.4 爬行策略浅析-3
2.4.1搜索策略-3
2.4.1.1 深度优先-3
2.4.1.2 广度优先-4
2.4.2 搜索策略的选择-4
第三章 系统需求分析及模块设计-5
3.1 系统需求分析-5
3.2 各主要功能模块(类)设计-5
3.3 scrapy爬虫工作过程-5
第四章 系统分析与设计-7
4.1 爬行策略分析-7
4.2 URL抽取,解析和保存-7
4.2.1 URL抽取-7
4.2.3 URL及数据的保存-9
第五章 系统实现-9
5.1 实现工具-9
5.2 爬虫实现及工作-10
5.3 URL解析-12
5.4 数据保存-13
第六章 系统测试-15
第七章 总结-17
参考文献-18
致谢-19