强烈建议你试试无所不能的chatGPT，快点击我

python爬虫基础（一）---0基础也能看得懂

阅读量：4165 次

发布时间：2019-05-26

本文共 494 字，大约阅读时间需要 1 分钟。

@python爬虫基础（一）—0基础也能看得懂

前言

爬虫介绍：

什么是网络爬虫？

网络爬虫就是可以很方便地获取到网络中的数据。

为什么要使用爬虫获取数据？

在大数据时代效率和成本是非常重要的，使用爬虫就可以非常高效便捷地获取到数据。

爬虫的不同作用：

采集资源；

使用爬虫程序实现投票或点赞的效果；

可以编写程序抢票；

可以抢购商品等等。

爬虫的分类：

根据被爬取的网站数量区分爬虫类型，可分为通用网络爬虫和聚焦网络爬虫

通用网络爬虫：在全网范围内爬取网页信息，如百度、GOOGLE搜索引擎。

全网爬取数据信息

聚焦网络爬虫：专门爬取某一个或某一类网站的爬虫。

根据是否以获取数据为目的，可以将爬虫分为增量式网络爬虫和功能性网络爬虫

增量式网络爬虫：如爬取电影等，会爬取到越来越多的数据

功能性网络爬虫：如投票点赞等，实现某些特定的功能

一、爬虫基础知识：

网页的三个特征

①网页都有自己的URL（统一资源定位符）：网址

②网页都使用HTTP（超文本传输协议）

http和https是两个协议：http是HyperText Transfer Protocol的缩写，表示超文本传输协议ÿ

转载地址：http://gmoxi.baihongyu.com/

你可能感兴趣的文章

structure from motion

max flow ans min cut

Linux 下 C++ 创建文件夹

ubuntu C++ 读取文件夹下所有文件的文件名

Ubuntu下问题 : undefined reference to `compress2‘ 的解决办法

Ubuntu 12.04 LTS 安装 MATLAB2012a

Ubuntu 12.04 64 位版本运行32位可执行文件

哈希表(Hash Table)-哈希概述

Filebench的安装及使用

Ubuntu下 E: Could not get lock /var/lib/apt/lists/lock - open (11: Recource temporarily unavailable)

Linux-mmap映射物理内存到用户空间

Ext4文件系统三种日志模式——journal、ordered、writeback

Linux挂载ext4根文件系统为journal模式

linux内核引导参数解析及添加

长短期记忆人工神经网络（LSTM）及其tensorflow代码应用

长短期记忆人工神经网络（LSTM）网络学习资料

运行网络中搜寻到的python程序代码——以长短期记忆人工神经网络（lstm）python代码为例

闪存文件系统（Flash File System）

WinMIPS64工具进行MIPS指令集实验（一）

WinMIPS64工具进行MIPS指令集实验（二）

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-24 00:29:38 当前IP: 52.15.135.175 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我