Python爬虫入门

阅读数: 次 2020-10-30

EverydayOneCat

Cat要就此长长地睡上240小时

49009fdf3bc0f21face96a5b036d9397ef9d20d3.jpg@518w_1e_1c

一、爬虫初识

网络爬虫（网络蜘蛛）原理图：

搜索引擎原理图：

基本流程：

二、获取数据

1.urllib模块

是python内置的一个http请求库，不需要额外的安装。只需要关注请求的链接，参数，提供了强大的解析。

urllb.request 请求模块
urllib.error 异常处理模块
urllib.parse 解析模块

2.1用法

简单的一个get请求

1
2
3

import urllib.request
reponse = urllib.request.urlopen('http://www.baidu.com') 
print(reponse.read().decode('utf-8'))#对获取到的网页进行utf-8解码

简单的一个post请求

import urllib.parse import urllib.request
data = bytes(urllib.parse.urlencode({'hello':'world'}),encoding='utf-8') 
reponse = urllib.request.urlopen('http://httpbin.org/post',data=data) 
print(reponse.read())

超时处理

data = bytes(urllib.parse.urlencode({"name":"jy","password":"xxx"}),encoding="utf-8")
try:
    response = urllib.request.urlopen("http://httpbin.org/post", data=data, timeout=1)  # 1秒没有响应就结束
    print(response.read().decode("utf-8"))
except Exception as e :
    print("time out!")

打印出响应类型，状态码，响应头：

import urllib.request
response = urllib.request.urlopen('http://www.baidu.com') 
print(response.status)	# 状态码	判断请求是否成功
print(response.getheaders())	# 响应头 得到的一个元组组成的列表
print(response.getheader('Server'))	#得到特定的响应头
print(response.read().decode('utf-8'))	#获取响应体的内容，字节流的数据，需要转成utf-8 格式

2.2简单的反爬虫处理

对于一些网站有简单的爬虫机制，普通爬虫会给你返回418错误。这时候我们需要把我们的爬虫伪装成浏览器，使得我们的爬虫能进去嗅探资源。

伪装的手段我们通过修改请求头来实现：

url = "https://www.douban.com"
# url = "http://httpbin.org/post"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.56"
}
data = bytes(urllib.parse.urlencode({"name":"jy"}),encoding="utf-8")
# req = urllib.request.Request(url= url,data= data,headers= headers,method= "POST")
req = urllib.request.Request(url= url,headers= headers)
response = urllib.request.urlopen(req)
print(response.read().decode("utf-8"))

2.获取指定url的网页内容

def askUrl(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.56"
    }
    req = urllib.request.Request(url= url,headers= head)
    html = ""
    try:
        response = urllib.request.urlopen(req)
        html = response.read().decode("utf-8")
        # print(html)
    except Exception as e:
        if hasattr(e,"code"):   #有没有这个属性
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

三、解析数据

1.BeautifulSoup模块

1.1简介

BeautifulSoup4和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

1.2Bs4用法

from bs4 import BeautifulSoup

f = open("./baidu.html","rb")
html = f.read()
bs = BeautifulSoup(html,"html.parser")

#1.Tag 标签，拿到所找到的第一个符合的标签
# print(bs.a)

#2.NavigableString 标签里的内容
# print(type(bs.title.string))
#
# print(bs.a.attrs)

#3.BeautifulSoup 表示整个文档
# print(bs)

1.3搜索文档树

#字符串过滤：查找与字符串完全匹配的内容
# a_list = bs.find_all("a")
# print(a_list)

#正则表达式搜索
import re
#含有a的标签全部搜索出来
# a_list = bs.find_all(re.compile("a"))
# print(a_list)

#方法 传入一个函数，根据函数的需求来搜索
# def name_is_exist(tag):
#     return tag.has_attr("name")
# a_list = bs.find_all(name_is_exist)
# print(a_list)

2.Re模块

2.1正则表达式

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

2.2re模块下的函数

import re

#创建模式对象
pat = re.compile("AA")  #正则表达式，去验证其它字符串
# m = pat.search("ACLAA") #search方法，进行查找比对，找第一个找到的复合要求的

#没有模式对象
# m = re.search("CD","AACCD") #前面的是规则，后面的是校验内容
# print(m)

# print(re.findall("[A-Z]","ASKHjkfhdasDUK"))

#sub
print(re.sub("a","A","asdjkwahf"))  #在第三个字符串中找到a用A替换

3.提取数据

正则表达式抽取：

'''
创建正则表达式对象表示规则,r代表转义字符失效
.代表任意单个字符 *代表任意多 ?代表有没有 \d代表单个数字  \s代表空格
.*?代表有多个任意字符并且没有也行
()表示显示的内容
re.S让换行符包含在.中,否则不会包含
'''
#影片链接
findLink = re.compile(r'<a href="(.*?)">')
#图片链接
findImgSrc = re.compile(r'<img.*src="(.*?)".*>',re.S)
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

获取数据：

def getData(baseUrl):
    dataList = []
    for i in range(0,10):   #左闭右开，也就是i=9结束
        url = baseUrl + str(i*25)
        html = askUrl(url)
        # 2.逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"): #查找div标签,class为item的形成列表
            # print(item)   #测试全部电影信息
            data = []   #一部电影的所有信息
            item = str(item)

            link = re.findall(findLink,item)[0] #找到电影链接
            data.append(link)   #添加链接

            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)     #添加图片

            title = re.findall(findTitle, item) #片名可能只有中文名,没有外国名
            if(len(title)==2):
                ctitle = title[0]
                data.append(ctitle) #添加中文名
                ftitle = title[1].replace("/","")
                data.append(ftitle) #添加外国名
            else:
                data.append(title[0])
                data.append(' ')     #为了傍边保存数据需要留空

            rating = re.findall(findRating, item)[0]
            data.append(rating)  # 添加评价

            judge = re.findall(findJudge, item)[0]
            data.append(judge)  # 添加评价人数

            inq = re.findall(findInq, item) #可能存在没有概述的情况
            if len(inq)!=0:
                inq = inq[0].replace("。","")
                data.append(inq)    #添加概述
            else:
                data.append(" ")    #留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(\s+)?>(\s+)?'," ",bd)
            bd = re.sub("/"," ",bd)
            data.append(bd.strip()) #去掉前后空格

            dataList.append(data)
    print(dataList)
    return dataList

4.保存数据

4.1xlwt模块

import xlwt

workbook = xlwt.Workbook(encoding="utf-8")  #创建workbook对象
worksheet = workbook.add_sheet('sheet1')    #创建工作表
# worksheet.write(0,0,"hello")    #写入数据,参数:行,列,写入的内容
#写入九九乘法表
for i in range(0,9):
    for j in range(0,i+1):
        worksheet.write(i,j,"%d * %d = %d"%(i+1,j+1,(i+1)*(j+1)))
workbook.save("student.xls")

4.2保存数据到Excel

def saveData(dataList,savepath):
    workbook = xlwt.Workbook(encoding="utf-8")  # 创建workbook对象
    worksheet = workbook.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接","图片链接","中文名","外语名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        worksheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = dataList[i]
        for j in range(0,8):
            worksheet.write(i+1,j,data[j])
    workbook.save(savepath)

4.3sqlite3模块

import sqlite3


# conn = sqlite3.connect("test.db")   #打开或创建数据库
# print("成功建表")
#
# c = conn.cursor()   #获取游标
# sql = '''
#     create table company
#         (id int primary key not null,
#         name text not null,
#         age int not null,
#         address char(50),
#         salary real );
# '''
#
# c.execute(sql)  #执行sql语句
# conn.commit()
# conn.close()
#
# print("完成数据库操作")


#插入数据
# conn = sqlite3.connect("test.db")   #打开或创建数据库
# print("成功建表")
#
# c = conn.cursor()   #获取游标
# sql = '''
#     insert into company (id,name,age,address,salary)
#     values (1,'张三',18,'江苏',8000);
# '''
#
# c.execute(sql)  #执行sql语句
# conn.commit()
# conn.close()
#
# print("完成数据库操作")

#查询数据库
conn = sqlite3.connect("test.db")   #打开或创建数据库
print("成功建表")

c = conn.cursor()   #获取游标
sql = '''
    select id,name,age,address,salary from company
'''

cursor = c.execute(sql)  #执行sql语句

for row in cursor:
    print("id=",row[0])
    print("name=", row[1])
    print("address=", row[2])
    print("salary=", row[3])

conn.commit()
conn.close()

print("完成数据库操作")

4.4数据库存储

#datalist是封装好的数据，dbpath是数据库文件存放的全路径
def saveData2DB(datalist,dbpath):
    init_db(dbpath)	# 创建数据表
    conn = sqlite3.connect(dbpath)	#连接数据库
    cur = conn.cursor()	#获取游标
    for data in datalist:	#对每行数据进行操作
        for index in range(len(data)):	#index是每行数据的下标
            data[index] = ("\""+data[index]+"\"")	#对每个数据添加前后的双引号，\是转义字符
    sql = '''
        insert into movie250(info_link,pic_link,cname,ename,score,rated,introduction,info)
        values (%s)
    '''%(",").join(data) #拼接建表语句，连接data列表中的每一项，使用逗号分隔
    cur.execute(sql)
    conn.commit()
    cur.close()
    conn.close()

#初始化数据库
def init_db(dbpath):
    sql = '''
        create table movie250
            (id int primary key autoincrement,
            info_link text,
            pic_link text,
            cname varchar,
            ename varchar,
            score numeric,
            rated numeric,
            introduction text,
            info text);	#创建数据表
    '''
    conn = sqlite3.connect(dbpath)  # 连接或创建数据库
    cursor = conn.cursor()  # 获取游标
    cursor.execute(sql)  # 执行SQL语句：创建数据表
    conn.commit()  # 事务提交：让操作生效
    cursor.close()  # 关闭游标
    conn.close()  # 关闭连接

四、整合

1.爬取豆瓣Top250完整代码

#-*- codeing = utf-8 -*-
#@CreateTime : 2020/10/30 11:32
#@Author : JY
#@File : spider.py
#@Software : PyCharm


from bs4 import BeautifulSoup    #网页解析获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error      #制定url，获取去网页数据
import xlwt     #进行excel操作
import sqlite3      #进行SQLite数据库操作


def main():
    baseUrl = "https://movie.douban.com/top250?start="
    # 1.爬取网页
    dataList = getData(baseUrl)
    savepath = "豆瓣电影Top250.xls"
    dbpath = "movie.db"
    # 3.保存数据
    # saveData(dataList,savepath)
    saveData2DB(dataList,dbpath)


'''
创建正则表达式对象表示规则,r代表转义字符失效
.代表任意单个字符 *代表任意多 ?代表有没有 \d代表单个数字  \s代表空格
.*?代表有多个任意字符并且没有也行
()表示显示的内容
re.S让换行符包含在.中,否则不会包含
'''
#影片链接
findLink = re.compile(r'<a href="(.*?)">')
#图片链接
findImgSrc = re.compile(r'<img.*src="(.*?)".*>',re.S)
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

def getData(baseUrl):
    dataList = []
    for i in range(0,10):   #左闭右开，也就是i=9结束
        url = baseUrl + str(i*25)
        html = askUrl(url)
        # 2.逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"): #查找div标签,class为item的形成列表
            # print(item)   #测试全部电影信息
            data = []   #一部电影的所有信息
            item = str(item)

            link = re.findall(findLink,item)[0] #找到电影链接
            data.append(link)   #添加链接

            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)     #添加图片

            title = re.findall(findTitle, item) #片名可能只有中文名,没有外国名
            if(len(title)==2):
                ctitle = title[0]
                data.append(ctitle) #添加中文名
                ftitle = title[1].replace("/","")
                data.append(ftitle) #添加外国名
            else:
                data.append(title[0])
                data.append(' ')     #为了傍边保存数据需要留空

            rating = re.findall(findRating, item)[0]
            data.append(rating)  # 添加评价

            judge = re.findall(findJudge, item)[0]
            data.append(judge)  # 添加评价人数

            inq = re.findall(findInq, item) #可能存在没有概述的情况
            if len(inq)!=0:
                inq = inq[0].replace("。","")
                data.append(inq)    #添加概述
            else:
                data.append(" ")    #留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(\s+)?>(\s+)?'," ",bd)
            bd = re.sub("/"," ",bd)
            data.append(bd.strip()) #去掉前后空格

            dataList.append(data)
    print(dataList)
    return dataList


#得到一个指定url的网页内容
def askUrl(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.56"
    }
    req = urllib.request.Request(url= url,headers= head)
    html = ""
    try:
        response = urllib.request.urlopen(req)
        html = response.read().decode("utf-8")
        # print(html)
    except Exception as e:
        if hasattr(e,"code"):   #有没有这个属性
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

def saveData(dataList,savepath):
    workbook = xlwt.Workbook(encoding="utf-8")  # 创建workbook对象
    worksheet = workbook.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接","图片链接","中文名","外语名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        worksheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = dataList[i]
        for j in range(0,8):
            worksheet.write(i+1,j,data[j])
    workbook.save(savepath)

#datalist是封装好的数据，dbpath是数据库文件存放的全路径
def saveData2DB(datalist,dbpath):
    init_db(dbpath)	# 创建数据表
    conn = sqlite3.connect(dbpath)	#连接数据库
    cur = conn.cursor()	#获取游标
    for data in datalist:	#对每行数据进行操作
        for index in range(len(data)):	#index是每行数据的下标
            data[index] = ("\""+data[index]+"\"")	#对每个数据添加前后的双引号，\是转义字符
    sql = '''
        insert into movie250(info_link,pic_link,cname,ename,score,rated,introduction,info)
        values (%s)
    '''%(",").join(data) #拼接建表语句，连接data列表中的每一项，使用逗号分隔
    cur.execute(sql)
    conn.commit()
    cur.close()
    conn.close()

#初始化数据库
def init_db(dbpath):
    sql = '''
        create table movie250
            (id int primary key autoincrement,
            info_link text,
            pic_link text,
            cname varchar,
            ename varchar,
            score numeric,
            rated numeric,
            introduction text,
            info text);	#创建数据表
    '''
    conn = sqlite3.connect(dbpath)  # 连接或创建数据库
    cursor = conn.cursor()  # 获取游标
    cursor.execute(sql)  # 执行SQL语句：创建数据表
    conn.commit()  # 事务提交：让操作生效
    cursor.close()  # 关闭游标
    conn.close()  # 关闭连接


if __name__ == "__main__": #程序入口
    #调用函数
    init_db("movie.db")
    main()

2.结果

豆瓣电影Top250.xls

结语

旧王已经复苏，哎，lck的统治又要来了吗😭