# HTTP简介

HTTP协议是Hyper Text Transfer Protocol(超文本传输协议) 的缩写,是用于从万维网 (WWW:World Wide Web) 服务器传输超文本到本地浏览器的传送协议。

HTTP是一个基于TCP/IP通信协议来传递数据 (HTML 文件, 图片文件, 查询结果等)。

HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。

HTTP协议是由从客户机到服务器的请求(Request)和从服务器到客户机的响应(response)进行约束和规范

http-response.jpg

# 了解 TCP/IP 协议栈

# 应用层

为用户提供各种需要的服务器,例如 :HTTP、FTP、DNS、SMTP等.

# 传输层

  • 为应用层实体提供端到端的通信功能,保证数据包的顺序传送及数据的完整性。
  • 该层定义了两个主要的协议:传输控制协议(TCP)和用户数据报协议(UDP).

# 网络层

主要解决主机到主机的通信问题. IP 协议是网际互联层最重要的协议

# 网络接口层

负责监视数据在主机和网络之间的交换。

# HTTP 工作原理

一次HTTP操作称为一个事务,其工作过程可分为四步:

客户端连接到Web服务器

首先客户机与服务器需要建立连接。只要单击某个超级链接,HTTP的工作开始。

发送HTTP请求 建立连接后,客户机发送一个请求给服务器,请求方式的格式为:统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容

服务器接受请求并返回HTTP响应 服务器接到请求后,给予相应的响应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。

客户端浏览器解析HTML内容

客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上,然后客户机与服务器断开连接。

如果在以上过程中的某一步出现错误,那么产生错误的信息将返回到客户端,有显示屏输出。对于用户来说,这些过程是由HTTP自己完成的,用户只要用鼠标点击,等待信息显示就可以了。

# URL 和 URI

每个web 服务器资源都有一个名字,服务器资源名称被称为 统一资源标识符,如 web 服务器上一个图片资源的 URI:

http://www.joes-hardware.com/specials/saw-blade.gif

URI 有两种形式,分别称为 URLURN

# URl

统一资源定位符 (URL) 是资源标识符最常见的形式。URL 描述了一台特定服务器 上某资源的特定位置。它们可以明确说明如何从一个精确、固定的位置获取资源

URL 说明了协议,服务器和本地资源

大部分 URL 都遵循一种标准格式,这种格式包含三个部分

  • URL的第一部分被称为 方案,说明了访问资源所使用的的协议类型. 这部分通常就是 HTTP 协议(http://)
  • 第二部分给出了服务器的因特网地址(如,www.joes-hardware.com)
  • 其余部分指定了 Web 服务器上的某个资源(如,/imgage/asw.gif)

现在,几乎所有的 URI 都是 URL

# URN

URI 的第二种形式就是统一资源名(URN). URN是作为特定内容的唯一名称使用的,与目前的资源所在地无关. 通过 URN,还可以用同一个名字通过多种网络协议来访问资源

# HTTP之请求消息Request

客户端发送一个HTTP请求到服务器的请求消息包括以下格式:

请求行(request line)、请求头部(header)、空行和请求数据四个部分组成。

request.png

re.png

空行 很重要,用来区分开 头部实体

问: 如果说在头部中间故意加一个空行会怎么样? 那么空行后的内容全部被视为实体。

实体 就是具体的数据了,也就是body部分。请求报文对应请求体, 响应报文对应响应体。

头部字段的格式:

  • 字段名不区分大小写
  • 字段名不允许出现空格,不可以出现下划线 _
  • 字段名后面必须紧接着 :

# HTTP之响应消息Response

response.png

# 请求方法

  • GET 请求获取Request-URI所标识的资源
  • POST 在Request-URI所标识的资源后附加新的数据
  • HEAD 请求获取由Request-URI所标识的资源的响应消息报头
  • PUT 请求服务器存储一个资源,并用Request-URI作为其标识
  • DELETE 请求服务器删除Request-URI所标识的资源
  • TRACE 请求服务器回送收到的请求信息,主要用于测试或诊断
  • CONNECT HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
  • OPTIONS 请求查询服务器的性能,或者查询与资源相关的选项和需求

# HTTP状态码

状态代码有三位数字组成,第一个数字定义了响应的类别,共分五种类别:

  • 1xx:指示信息--表示请求已接收,继续处理

  • 2xx:成功--表示请求已被成功接收、理解、接受

  • 3xx:重定向--要完成请求必须进行更进一步的操作

  • 4xx:客户端错误--请求有语法错误或请求无法实现

  • 5xx:服务器端错误--服务器未能实现合法的请求

常见状态码:

状态码 解释
200 OK 客户端请求成功
304 Not Modified 当协商缓存命中时会返回这个状态码
400 Bad Request 客户端请求有语法错误,不能被服务器所理解
401 Unauthorized 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden 服务器收到请求,但是拒绝提供服务
404 Not Found 请求资源不存在,eg:输入了错误的URL
500 Internal Server Error 服务器发生不可预期的错误
503 Server Unavailable 服务器当前不能处理客户端的请求,一段时间后可能恢复正常

更多状态码 状态码

# GET 和 POST 有什么区别?

差别如下:

  • 从缓存的角度,GET 请求会被浏览器主动缓存下来,留下历史记录,而 POST 默认不会
  • 从编码的角度,GET 只能进行 URL 编码,只能接收 ASCII 字符,而 POST 没有限制
  • 从参数的角度,GET 一般放在 URL 中,因此不安全,POST 放在请求体中,更适合传输敏感信息。
  • 从幂等性的角度,GET是幂等的,而POST不是。(幂等表示执行相同的操作,结果也是相同的)
  • 从TCP的角度,GET 请求会把请求报文一次性发出去,而 POST 会分为两个 TCP 数据包,首先发 header 部分,如果服务器响应 100(continue), 然后发 body 部分。(火狐浏览器除外,它的 POST 请求只发一个 TCP 包)

# 常用的请求报头

Accept

对于Accept系列字段的介绍分为四个部分: 数据格式、压缩方式、支持语言和字符集。

# 数据格式

HTTP 从MIME type取了一部分来标记报文 body 部分的数据类型,这些类型体现在 Content-Type 这个字段,当然这是针对于发送端而言,接收端想要收到特定类型的数据,也可以用Accept字段。

具体而言,这两个字段的取值可以分为下面几类:

  • text: text/html, text/plain, text/css 等
  • image: image/gif, image/jpeg, image/png 等
  • audio/video: audio/mpeg, video/mp4 等
  • application: application/json, application/javascript, application/pdf, application/octet-stream

# 压缩方式

一般这些数据都是会进行编码压缩的,采取什么样的压缩方式就体现在了发送方的 Content-Encoding 字段上, 同样的,接收什么样的压缩方式体现在了接受方的Accept-Encoding字段上。这个字段的取值有下面几种:

  • gzip: 当今最流行的压缩格式
  • deflate: 另外一种著名的压缩格式
  • br: 一种专门为 HTTP 发明的压缩算法
// 发送端
Content-Encoding: gzip
// 接收端
Accept-Encoding: gzip

支持语言

对于发送方而言,还有一个 Content-Language 字段,在需要实现国际化的方案当中,可以用来指定支持的语言,在接受方对应的字段为 Accept-Language。如:

// 发送端
Content-Language: zh-CN, zh, en
// 接收端
Accept-Language: zh-CN, zh, en

字符集 一个比较特殊的字段, 在接收端对应为 Accept-Charset,指定可以接受的字符集,而在发送端并没有对应的Content-Charset, 而是直接放在了Content-Type中,以charset属性指定。如

// 发送端
Content-Type: text/html; charset=utf-8
// 接收端
Accept-Charset: charset=utf-8

Accept.png

Authorization

Authorization 请求报头域主要用于证明客户端有权查看某个资源。当浏览器访问一个页面时,如果收到服务器的响应代码为 401(未授权),可以发送一个包含 Authorization 请求报头域的请求,要求服务器对其进行验证。

HOST

Host请求报头域主要用于指定被请求资源的Internet主机和端口号,它通常从HTTP URL中提取出来的,发送请求时,该报头域是必需的。

User-Agen

User-Agent 请求报头域允许客户端将它的操作系统、浏览器和其它属性告诉服务器

# 常见的响应报头

Location 响应报头域用于重定向接受者到一个新的位置。Location响应报头域常用在更换域名的时候。

Server Server响应报头域包含了服务器用来处理请求的软件信息。与UserAgent请求报头域是相对应的

WWW-Authenticate WWW-Authenticate响应报头域必须被包含在401(未授权的)响应消息中,客户端收到401响应消息时候,并发送Authorization报头域请求服务器对其进行验证时,服务端响应报头就包含该报头域

# 常用的实体报头

请求和响应消息都可以传送一个实体。一个实体由实体报头域和实体正文组成,但并不是说实体报头域和实体正文要在一起发送,可以只发送实体报头域。实体报头定义了关于实体正文(eg:有无实体正文)和请求所标识的资源的元信息

Content-Encoding 实体报头域被用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容的编码,因而要获得Content-Type报头域中所引用的媒体类型,必须采用相应的解码机制。

Content-Language 实体报头域描述了资源所用的自然语言

Content-Length 实体报头域用于指明实体正文的长度,以字节方式存储的十进制数字来表示。

Content-Type 实体报头域用语指明发送给接收者的实体正文的媒体类型。

Last-Modified 实体报头域用于指示资源的最后修改日期和时间。

Expires 实体报头域给出响应过期的日期和时间

# cookies与session

Cookies Cookies是保存在客户端的小段文本,随客户端点每一个请求发送该url下的所有cookies到服务器端。

Session Session则保存在服务器端,通过唯一的值sessionID来区别每一个用户。SessionID随每个连接请求发送到服务器,服务器根据sessionID来识别客户端,再通过session 的key获取session值。

  • Cookie:客户端将服务器设置的Cookie返回到服务器;
  • Set-Cookie:服务器向客户端设置Cookie

cookie

服务器在响应消息中用Set-Cookie头将Cookie的内容回送给客户端,客户端在新的请求中将相同的内容携带在Cookie头中发送给服务器。从而实现会话的保持

Session 使用

  • 使用Cookie来实现
  • 使用URL回显来实现

session

更新时间: 11/2/2020, 10:53:13 PM