# HTTP简介

HTTP协议是Hyper Text Transfer Protocol(超文本传输协议) 的缩写,是用于从万维网 (WWW:World Wide Web) 服务器传输超文本到本地浏览器的传送协议。

HTTP是一个基于TCP/IP通信协议来传递数据 (HTML 文件, 图片文件, 查询结果等)。

HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG(Next Generation of HTTP)的建议已经提出。

HTTP协议是由从客户机到服务器的请求(Request)和从服务器到客户机的响应(response)进行约束和规范

# 了解 TCP/IP 协议栈

# 应用层

为用户提供各种需要的服务器,例如 :HTTP、FTP、DNS、SMTP等.

# 传输层

为应用层实体提供端到端的通信功能，保证数据包的顺序传送及数据的完整性。
该层定义了两个主要的协议：传输控制协议（TCP）和用户数据报协议（UDP).

# 网络层

主要解决主机到主机的通信问题. IP 协议是网际互联层最重要的协议

# 网络接口层

负责监视数据在主机和网络之间的交换。

# HTTP 工作原理

一次HTTP操作称为一个事务，其工作过程可分为四步:

客户端连接到Web服务器

首先客户机与服务器需要建立连接。只要单击某个超级链接，HTTP的工作开始。

发送HTTP请求 建立连接后，客户机发送一个请求给服务器，请求方式的格式为：统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容

服务器接受请求并返回HTTP响应 服务器接到请求后，给予相应的响应信息，其格式为一个状态行，包括信息的协议版本号、一个成功或错误的代码，后边是MIME信息包括服务器信息、实体信息和可能的内容。

客户端浏览器解析HTML内容

客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上，然后客户机与服务器断开连接。

如果在以上过程中的某一步出现错误，那么产生错误的信息将返回到客户端，有显示屏输出。对于用户来说，这些过程是由HTTP自己完成的，用户只要用鼠标点击，等待信息显示就可以了。

# URL 和 URI

每个web 服务器资源都有一个名字,服务器资源名称被称为 统一资源标识符,如 web 服务器上一个图片资源的 URI:

http://www.joes-hardware.com/specials/saw-blade.gif

URI 有两种形式,分别称为 URL 和 URN

# URl

统一资源定位符 (URL) 是资源标识符最常见的形式。URL 描述了一台特定服务器上某资源的特定位置。它们可以明确说明如何从一个精确、固定的位置获取资源

URL 说明了协议,服务器和本地资源

大部分 URL 都遵循一种标准格式，这种格式包含三个部分

URL的第一部分被称为方案,说明了访问资源所使用的的协议类型. 这部分通常就是 HTTP 协议(http://)
第二部分给出了服务器的因特网地址(如,www.joes-hardware.com)
其余部分指定了 Web 服务器上的某个资源(如,/imgage/asw.gif)

现在,几乎所有的 URI 都是 URL

# URN

URI 的第二种形式就是统一资源名(URN). URN是作为特定内容的唯一名称使用的,与目前的资源所在地无关. 通过 URN,还可以用同一个名字通过多种网络协议来访问资源

# HTTP之请求消息Request

客户端发送一个HTTP请求到服务器的请求消息包括以下格式：

请求行（request line）、请求头部（header）、空行和请求数据四个部分组成。

空行很重要，用来区分开头部和实体。

问: 如果说在头部中间故意加一个空行会怎么样? 那么空行后的内容全部被视为实体。

实体就是具体的数据了，也就是body部分。请求报文对应请求体, 响应报文对应响应体。

头部字段的格式:

字段名不区分大小写
字段名不允许出现空格，不可以出现下划线 _
字段名后面必须紧接着 :

# HTTP之响应消息Response

# 请求方法

GET 请求获取Request-URI所标识的资源
POST 在Request-URI所标识的资源后附加新的数据
HEAD 请求获取由Request-URI所标识的资源的响应消息报头
PUT 请求服务器存储一个资源，并用Request-URI作为其标识
DELETE 请求服务器删除Request-URI所标识的资源
TRACE 请求服务器回送收到的请求信息，主要用于测试或诊断
CONNECT HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
OPTIONS 请求查询服务器的性能，或者查询与资源相关的选项和需求

# HTTP状态码

状态代码有三位数字组成，第一个数字定义了响应的类别，共分五种类别:

1xx：指示信息--表示请求已接收，继续处理
2xx：成功--表示请求已被成功接收、理解、接受
3xx：重定向--要完成请求必须进行更进一步的操作
4xx：客户端错误--请求有语法错误或请求无法实现
5xx：服务器端错误--服务器未能实现合法的请求

常见状态码：

状态码	解释
200 OK	客户端请求成功
304 Not Modified	当协商缓存命中时会返回这个状态码
400 Bad Request	客户端请求有语法错误，不能被服务器所理解
401 Unauthorized	请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden	服务器收到请求，但是拒绝提供服务
404 Not Found	请求资源不存在，eg：输入了错误的URL
500 Internal Server Error	服务器发生不可预期的错误
503 Server Unavailable	服务器当前不能处理客户端的请求，一段时间后可能恢复正常

更多状态码状态码

# GET 和 POST 有什么区别?

差别如下:

从缓存的角度，GET 请求会被浏览器主动缓存下来，留下历史记录，而 POST 默认不会
从编码的角度，GET 只能进行 URL 编码，只能接收 ASCII 字符，而 POST 没有限制
从参数的角度，GET 一般放在 URL 中，因此不安全，POST 放在请求体中，更适合传输敏感信息。
从幂等性的角度，GET是幂等的，而POST不是。(幂等表示执行相同的操作，结果也是相同的)
从TCP的角度，GET 请求会把请求报文一次性发出去，而 POST 会分为两个 TCP 数据包，首先发 header 部分，如果服务器响应 100(continue), 然后发 body 部分。(火狐浏览器除外，它的 POST 请求只发一个 TCP 包)

# 常用的请求报头

Accept

对于Accept系列字段的介绍分为四个部分: 数据格式、压缩方式、支持语言和字符集。

# 数据格式

HTTP 从MIME type取了一部分来标记报文 body 部分的数据类型，这些类型体现在 Content-Type 这个字段，当然这是针对于发送端而言，接收端想要收到特定类型的数据，也可以用Accept字段。

具体而言，这两个字段的取值可以分为下面几类:

text： text/html, text/plain, text/css 等
image: image/gif, image/jpeg, image/png 等
audio/video: audio/mpeg, video/mp4 等
application: application/json, application/javascript, application/pdf, application/octet-stream

# 压缩方式

一般这些数据都是会进行编码压缩的，采取什么样的压缩方式就体现在了发送方的 Content-Encoding 字段上，同样的，接收什么样的压缩方式体现在了接受方的Accept-Encoding字段上。这个字段的取值有下面几种：

gzip: 当今最流行的压缩格式
deflate: 另外一种著名的压缩格式
br: 一种专门为 HTTP 发明的压缩算法

// 发送端
Content-Encoding: gzip
// 接收端
Accept-Encoding: gzip

支持语言

对于发送方而言，还有一个 Content-Language 字段，在需要实现国际化的方案当中，可以用来指定支持的语言，在接受方对应的字段为 Accept-Language。如:

// 发送端
Content-Language: zh-CN, zh, en
// 接收端
Accept-Language: zh-CN, zh, en

字符集 一个比较特殊的字段, 在接收端对应为 Accept-Charset,指定可以接受的字符集，而在发送端并没有对应的Content-Charset, 而是直接放在了Content-Type中，以charset属性指定。如

// 发送端
Content-Type: text/html; charset=utf-8
// 接收端
Accept-Charset: charset=utf-8

Authorization

Authorization 请求报头域主要用于证明客户端有权查看某个资源。当浏览器访问一个页面时，如果收到服务器的响应代码为 401(未授权),可以发送一个包含 Authorization 请求报头域的请求，要求服务器对其进行验证。

HOST

Host请求报头域主要用于指定被请求资源的Internet主机和端口号，它通常从HTTP URL中提取出来的，发送请求时，该报头域是必需的。

User-Agen

User-Agent 请求报头域允许客户端将它的操作系统、浏览器和其它属性告诉服务器

# 常见的响应报头

Location 响应报头域用于重定向接受者到一个新的位置。Location响应报头域常用在更换域名的时候。

Server Server响应报头域包含了服务器用来处理请求的软件信息。与UserAgent请求报头域是相对应的

WWW-Authenticate WWW-Authenticate响应报头域必须被包含在401（未授权的）响应消息中，客户端收到401响应消息时候，并发送Authorization报头域请求服务器对其进行验证时，服务端响应报头就包含该报头域

# 常用的实体报头

请求和响应消息都可以传送一个实体。一个实体由实体报头域和实体正文组成，但并不是说实体报头域和实体正文要在一起发送，可以只发送实体报头域。实体报头定义了关于实体正文(eg：有无实体正文)和请求所标识的资源的元信息

Content-Encoding 实体报头域被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容的编码，因而要获得Content-Type报头域中所引用的媒体类型，必须采用相应的解码机制。

Content-Language 实体报头域描述了资源所用的自然语言

Content-Length 实体报头域用于指明实体正文的长度，以字节方式存储的十进制数字来表示。

Content-Type 实体报头域用语指明发送给接收者的实体正文的媒体类型。

Last-Modified 实体报头域用于指示资源的最后修改日期和时间。

Expires 实体报头域给出响应过期的日期和时间

# cookies与session

Cookies Cookies是保存在客户端的小段文本，随客户端点每一个请求发送该url下的所有cookies到服务器端。

Session Session则保存在服务器端，通过唯一的值sessionID来区别每一个用户。SessionID随每个连接请求发送到服务器，服务器根据sessionID来识别客户端，再通过session 的key获取session值。

Cookie：客户端将服务器设置的Cookie返回到服务器;
Set-Cookie：服务器向客户端设置Cookie

服务器在响应消息中用Set-Cookie头将Cookie的内容回送给客户端，客户端在新的请求中将相同的内容携带在Cookie头中发送给服务器。从而实现会话的保持

Session 使用

使用Cookie来实现
使用URL回显来实现

session

← 0.1+0.2不等于0.3 HTTP缓存 →