博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫基础(一)---0基础也能看得懂
阅读量:4165 次
发布时间:2019-05-26

本文共 494 字,大约阅读时间需要 1 分钟。

@python爬虫基础(一)—0基础也能看得懂


前言

爬虫介绍:

什么是网络爬虫?
网络爬虫就是可以很方便地获取到网络中的数据。

为什么要使用爬虫获取数据?

在大数据时代效率和成本是非常重要的,使用爬虫就可以非常高效便捷地获取到数据。

爬虫的不同作用:

采集资源;
使用爬虫程序实现投票或点赞的效果;
可以编写程序抢票;
可以抢购商品等等。

爬虫的分类:

根据被爬取的网站数量区分爬虫类型,可分为通用网络爬虫和聚焦网络爬虫
通用网络爬虫:在全网范围内爬取网页信息,如百度、GOOGLE搜索引擎。
全网爬取数据信息
聚焦网络爬虫:专门爬取某一个或某一类网站的爬虫。
根据是否以获取数据为目的,可以将爬虫分为增量式网络爬虫和功能性网络爬虫
增量式网络爬虫:如爬取电影等,会爬取到越来越多的数据
功能性网络爬虫:如投票点赞等,实现某些特定的功能

一、爬虫基础知识:

网页的三个特征

①网页都有自己的URL(统一资源定位符):网址
②网页都使用HTTP(超文本传输协议)
http和https是两个协议:http是HyperText Transfer Protocol的缩写,表示超文本传输协议ÿ

转载地址:http://gmoxi.baihongyu.com/

你可能感兴趣的文章
structure from motion
查看>>
max flow ans min cut
查看>>
Linux 下 C++ 创建文件夹
查看>>
ubuntu C++ 读取文件夹下所有文件的文件名
查看>>
Ubuntu下问题 : undefined reference to `compress2‘ 的解决办法
查看>>
Ubuntu 12.04 LTS 安装 MATLAB2012a
查看>>
Ubuntu 12.04 64 位版本运行32位可执行文件
查看>>
哈希表(Hash Table)-哈希概述
查看>>
Filebench的安装及使用
查看>>
Ubuntu下 E: Could not get lock /var/lib/apt/lists/lock - open (11: Recource temporarily unavailable)
查看>>
Linux-mmap映射物理内存到用户空间
查看>>
Ext4文件系统三种日志模式——journal、ordered、writeback
查看>>
Linux挂载ext4根文件系统为journal模式
查看>>
linux内核引导参数解析及添加
查看>>
长短期记忆人工神经网络(LSTM)及其tensorflow代码应用
查看>>
长短期记忆人工神经网络(LSTM)网络学习资料
查看>>
运行网络中搜寻到的python程序代码——以长短期记忆人工神经网络(lstm)python代码为例
查看>>
闪存文件系统(Flash File System)
查看>>
WinMIPS64工具进行MIPS指令集实验(一)
查看>>
WinMIPS64工具进行MIPS指令集实验(二)
查看>>