在所有的介绍字节序的文章中都会提到字,我们

2020-01-05 19:23 来源:未知

先交待一下业务应用背景:
服务端:移动交费系统:基于C语言的Unix系统
客户端:增值服务系统:基于Java的软件系统
通迅协议:采用TCP/IP协议,使用TCP以异步方式接入
数据传输:基于Socket流的方式,传输的是网络字节序

转自-

转:

原文出处:

Java Socket通讯实现方式这里不做过多的描述,网上到处可以搜索到,比较简单,这里要说的是Java 与 C 进行Socket通讯需注意的地方:

     在 各种计算机体系结构中,对于字节、字等的存储机制有所不同,因而引发了计算机 通信领 域中一个很重要的问题,即通信双方交流的信息单元(比特、字节、字、双字等等)应该以什么样的顺序进行传送。如果不达成一致的规则,通信双方将无法进行正 确的编/译码从而导致通信失败。目前在各种体系的计算机中通常采用的字节存储机制主要有两种:Big-Endian和Little-Endian,下面先从字节序说起。

 

1、Java与C的各种数据类型存储的字节数是不同的:

一、什么是字节序
字节序,顾名思义字节的顺序,再多说两句就是大于一个字节类型的数据在内存中的存放顺序(一个字节的数据当然就无需谈顺序的问题了)。其实大部分人在实际的开 发中都很少会直接和字节序打交道。唯有在跨平台以及网络程序中字节序才是一个应该被考虑的问题。

1.比特序 / 位序 /  bit numbering / bit endianness

阅读文件格式文档的时候看到关于字节序(Byte Order)的要求:

 Java与C的数据类型的比较  
  Type      Java      C  
  short      2-Byte   2-Byte  
  int        4-Byte   4-Byte  
  long       8-Byte   4-Byte  
  float      4-Byte   4-Byte  
  double     8-Byte   8-Byte  
  boolean    1-bit     N/A  
  byte       1-Byte    N/A  
  char       2-Byte    1-Byte

在所有的介绍字节序的文章中都会提到字 节序分为两类:Big-Endian和Little-Endian,引用标准的Big-Endian和Little-Endian的定义如下:
a) Little-Endian就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。
b) Big-Endian就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。
c) 网络字节序:TCP/IP各层协议将字节序定义为Big-Endian,因此TCP/IP协议中使用的字节序通常称之为网络字节序。

 

For values which span more than a single byte, the multiple byte ordering followed is that of the Big Endian / Motorola standard. The most significant byte will occur first, the least significant byte last

所以在通讯前,需要进行类型转换,对于C定义的unsign char为一个字节存储,对应Java这边用byte存储;对于C定义的int, long, float对应Java用int存储,具体可以参考以上的表。

1.1 什么是高/低地址端
首先我们要知道C程序映像中内存的空间布局情况:在《C专 家编程》中或者《Unix环境高级编程》中有关于内存空间布局情况的说明,大致如下图:
----------------------- 最高内存地址 0xffffffff
栈底

我们知道一个字节有8位,也就是8个比特位。从第0位到第7位共8位。比特序就是用来描述比特位在字节中的存放顺序的。通过阅读网页的内容,关于比特序我们得到下面的结论:

想起以前在汇编语言和数字逻辑的时候也有接触到一些这个概念,已经有点模糊了,搞不清楚哪个是低位在前哪个是高位在前。后来在Wiki和Google的帮助下也算摸清楚了一些Endianness的概念。

2、Socket通讯是按字节传输的(即8个bit位传输),而对于超过一个字节的类型如short 为两个字节,就存在两种传输入方式,一种是高字节在前传输;一种是高字节在后传输。即Little-Endian和Big-Endian。
Little-Endian和Big-Endian是表示计算机字节顺序的两种格式,所谓的字节顺序指的是长度跨越多个字节的数据的存放形式.
        假设从地址0x00000000开始的一个字中保存有数据0x1234abcd,那么在两种不同的内存顺序的机器上从字节的角度去看的话分别表示为:
       1)little endian:在内存中的存放顺序是0x00000000-0xcd,0x00000001-0xab,0x00000002-0x34,0x00000003-0x12
       2)big  endian:在内存中的存放顺序是0x00000000-0x12,0x00000001-0x34,0x00000002-0xab,0x00000003-0xcd
       需要特别说明的是,以上假设机器是每个内存单元以8位即一个字节为单位的.
       简单的说,ittle endian把低字节存放在内存的低位;而big endian将低字节存放在内存的高位.
       现在主流的CPU,intel系列的是采用的little endian的格式存放数据,而motorola系列的CPU采用的是big endian.

栈顶

(1)比特序分为两种:LSB 0 位序MSB 0 位序

一、字节序的起源

网络协议都是Big-Endian的,Java编译的都是Big-Endian的,C编译的程序是与机器相关的,具体是否要进行转换是需要沟通的。假设这里需要转换,以下提供short转的换成字节数组的方式:

NULL (空洞)

     LSB是指 least significant bit,MSB是指 most significant bit。

在计算机中,字节序(Endianness)是数据中单独的可取地址的亚型(words,bytes和bits)在外部存储器中存储的顺序。通常在提到四字(ddword)、双字(dword)和字(word)的时候需要考虑其实际的字节顺序,为了简便起见它的英文也常常表示为Byte Order。

 
  public static byte[] ShorttoByteArray(short n) {
    byte[] b = new byte[2];
    b[1] = (byte) (n & 0xff);
    b[0] = (byte) (n >> 8 & 0xff);
    return b;
  }

未初始 化的数据
----------------------- 统称数据段

LSB 0 位序是指:字节的第0位存放数据的least significant bit,即我们的数据的最低位存放在字节的第0位。

Endianness这个词源自1726年Jonathan Swift的名著:Gulliver’s Travels(格列佛游记),在书中有一个故事,大意是指Lilliput(小人国)的领导下了一道指令,规定其人民在剥水煮蛋时必须从little-end(小的那一端)开始。这个规定惹恼了一群觉得应该要从big-end(大的那一刻)开始剥的人。事情发展到后来,竟然演变成一场纷战。支持小的那端的人被称为little-endian,反之则被称为big-endian(在英语中后缀“-ian”表示“xx人”的意思)。1980年Danny Cohen在他的论文“On Holy Wars and a Plea for Peace”中第一次使用了Big-和Little-这两个术语,最终它们成为了计算机通过网络与其他计算机连接时所要考虑的极其重要的一个问题。

 
  public static byte[] toLH(short n) {
    byte[] b = new byte[2];
    b[0] = (byte) (n & 0xff);
    b[1] = (byte) (n >> 8 & 0xff);
    return b;
  }
其它的类型转换类似,无非是根据类型在判断用几个字节进行存储而已。

初始化的数据

正 文段(代码段)
----------------------- 最低内存地址 0x00000000
由图可以看出,再内存分布中,栈是向下增长的,而堆是向上增长的。
以上图为例如果我们在栈 上分配一个unsigned char buf[4],那么这个数组变量在栈上是如何布局的呢?看下图:

MSB 0 位序是指:字节的第0位存放数据的most significant bit,即我们的数据的最高位存放在字节的第0位。

二、字节序的种类和其表示

3、由于Socket通讯是按字节进行传输的,而在Java中只有byte是一个字节,故可以将其它类型都转换成byte数组来存储,如:short用两位的字节数组存储,需转换了换以上方法进行,而int用四位的字节数组来存储,对String类型,直接用String.getBytes()来得到它的字节数组。

栈底 (高地址)

**buf[3]
buf[2]
buf[1]

 

那么为什么要引入字节序呢。我们都知道,计算机存储中最小的单位是位(bit),而8bit构成一个字节(byte)。在一个32位的CPU中,字长为32bit,也就是4byte,数据要想存放在内存中供CPU读取和写入,就需要拥有一定的存放顺序。这样不同的CPU可接受的字节序有可能不同,那么在设计硬件和软件时数据的存放问题也需要分开考虑。

4、Java的byte与C语言的unsign char虽然都是一个字节存储,但具体的表示内容是不同的,C的无符号char是取值的范围0--255,而Java中byte取值的范围是-128—127,故在实现C语言的字符串时(C是用char[]来表示字符串的),Java这边需要进行转换来模仿C语的unsign char,具体实现函数如下:
  // 将有符号的char转换成无符号的char
  public static char[] ToUnsignedChar(char[] signChar) {
    for (int i = 0; i < signChar.length; i++) {
      int x = ((byte) signChar[i]) >= 0 ? signChar[i] : ((byte) signChar[i]) + 256;
      signChar[i] = (char) x;
    }
    return signChar;
  }
这里的关键点是当signChar[i] < 0时,即加上256,将其转换到0--255中来。

buf[0]**

栈顶 (低地址)
其实,我们可以自己在编译器里面创建一个数组,然后分别输出数组种每个元素的地址,来验证一下。
1.2 什么是高/低字节
现在我们弄清了高/低地址,接着考虑高/低字节。有些文章中称低位字节为最低有效位,高位字节为最高有效位。如果我们有一个32位无符号整型0x12345678,那么高位是什么,低位又是什么呢? 其实很简单。在十进制中我们都说靠左边的是高位,靠右边的是低位,在其他进制也是如此。就拿 0x12345678来说,从高位到低位的字节依次是0x12、0x34、0x56和0x78。
高/低地址端和高/低字节都弄清了。我们再来回顾 一下Big-Endian和Little-Endian的定义,并用图示说明两种字节序:
以unsigned int value = 0x12345678为例,分别看看在两种字节序下其存储情况,我们可以用unsigned char buf[4]来表示value:
Big-Endian: 低地址存放高位,如下图:

所以说对于代码:char *ch = 0x96;  //  0x96 = 1001 0110

数据都有所谓的“有效位(Significant Bit)”,顾名思义它表示了“数据存放有效的位置”,而字节序的分类就是依赖于有效位来进行划分的。在一个字节当中,数据的有效位的顺序已经得到了大多数硬件生产商的共识,那就是最高有效位优先(Most Significant Bit First),例如我们用8位二进制数来表示十进制数123为01111011,其第一位的0就是最高有效位,而最后一位的1就是最低有效位,在一个字节当中,几乎当前所有的硬件都采用了这种直观的字节序。

通过以上四个方面的注意,基本上就可以实现Java与C进行Socket通讯了。

栈底 (高地址)

buf[3] (0x78) -- 低位
buf[2] (0x56)
buf[1] (0x34)

 

然而情况在离开了单字节时就有所不同了。不同的硬件产商对于数据占据多个字节时拥有怎样的字节序有着不同的理解,具体说来分为以下三类:

转:

buf[0] (0x12) -- 高位

栈顶 (低地址)

Little-Endian: 低地址存放低位,如下图:

指针ch到底指向哪里呢?不难知道,如果是LSB 0 位序则显然指针ch指向最右边的也是最低位的0.

  • Big-Endian(大字节序):最高有效字节优先,更高的字节有效位占据着更低地址的内存空间,其在内存中的表示与直观吻合,
  • Little-Endian(小字节序):最低有效字节优先,更低的字节有效位占据着更低地址的内存空间,其在内存中的表示与直观相反,以及
  • Mixed-Endian(混合字节序)或者Middle-Endian(中字节序):在16位字(word)中的字节序与32位字(dword)中的字节序不相同。这种类型的字节序较为少见。

栈底 (高地址)

buf[3] (0x12) -- 高位
buf[2] (0x34)
buf[1] (0x56)

而如果是**MSB 0 位序**则显然指针ch指向最左边的也是最高位的1.

一些知名的使用Little-Endian的处理器体系结构包括了:x86、6502、Z80、VAX以及PDP-11,使用Big-Endian的处理器通常是Motorola的处理器,例如:6800、68000、PowerPC(即Macintosh在迁移到x86之前所采用的处理器)以及System/370。这也是为什么在文章开头提到的文档中使用Big Endian / Motorola standard这样的词汇的原因。

buf[0] (0x78) -- 低位

栈 顶 (低地址)

二、各种Endian
2.1 Big-Endian
计算机体系结构中一种描述多字节存储顺序的术语,在这种机制中最重要字节(MSB)存放在最低端的地址 上。采用这种机制的处理器有IBM3700系列、PDP-10、Mortolora微处理器系列和绝大多数的RISC处理器。
+----------+
| 0x34 |<-- 0x00000021
+----------+
| 0x12 |<-- 0x00000020
+----------+
图 1:双字节数0x1234以Big-Endian的方式存在起始地址0x00000020中

在Big-Endian中,对于bit序列 中的序号编排方式如下(以双字节数0x8B8A为例):
bit 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
+-----------------------------------------+
val | 1 0 0 0 1 0 1 1 | 1 0 0 0 1 0 1 0 |
+----------------------------------------+
图 2:Big-Endian的bit序列编码方式
2.2 Little-Endian
计算机体系结构中 一种描述多字节存储顺序的术语,在这种机制中最不重要字节(LSB)存放在最低端的地址上。采用这种机制的处理器有PDP-11、VAX、Intel系列微处理器和一些网络通信设备。该术语除了描述多字节存储顺序外还常常用来描述一个字节中各个比特的排放次序。

+----------+
| 0x12 |<-- 0x00000021
+----------+
| 0x34 |<-- 0x00000020
+----------+

图3:双字节数0x1234以Little-Endian的方式存在起始地址0x00000020中
 在 Little-Endian中,对于bit序列中的序号编排和Big-Endian刚好相反,其方式如下(以双字节数0x8B8A为例):
bit 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
+-----------------------------------------+
val | 1 0 0 0 1 0 1 1 | 1 0 0 0 1 0 1 0 |
+-----------------------------------------+
图 4:Little-Endian的bit序列编码方式
注意:通常我们说的主机序(Host Order)就是遵循Little-Endian规则。所以当两台主机之间要通过TCP/IP协议进行通信的时候就需要调用相应的函数进行主机序 (Little-Endian)和网络序(Big-Endian)的转换。
采用 Little-endian模式的CPU对操作数的存放方式是从低字节到高字节,而Big-endian模式对操作数的存放方式是从高字节到低字节。 32bit宽的数0x12345678在Little-endian模式CPU内存中的存放方式(假设从地址0x4000开始存放)为:
                                          内存地址     0x4000     0x4001     0x4002     0x4003
                                          存放内容     0x78        0x56        0x34         0x12
而在Big- endian模式CPU内存中的存放方式则为:
                                          内存地址     0x4000     0x4001     0x4002     0x4003
                                          存放内容     0x12         0x34        0x56         0x78
具体的区别如下:
永利平台娱乐 1
永利平台娱乐 2
三、Big-Endian和Little-Endian优缺点
Big-Endian优点:靠首先提取高位字节,你总是可以由看看在偏移位置为0的字节来确定这个数字是 正数还是负数。你不必知道这个数值有多长,或者你也不必过一些字节来看这个数值是否含有符号位。这个数值是以它们被打印出来的顺序存放的,所以从二进制到十进制的函数特别有效。因而,对于不同要求的机器,在设计存取方式时就会不同。

Little-Endian优点:提取一个,两个,四个或者更长字节数据的汇编指令以与其他所有格式相同的方式进行:首先在偏移地址为0的地方提取最低位的字节,因为地址偏移和字节数是一对一的关系,多重精度的数学函数就相对地容易写了。

如果你增加数字的值,你可能在左边增加数字(高位非指数函数需要更多的数字)。 因此, 经常需要增加两位数字并移动存储器里所有Big-endian顺序的数字,把所有数向右移,这会增加计算机的工作量。不过,使用Little- Endian的存储器中不重要的字节可以存在它原来的位置,新的数可以存在它的右边的高位地址里。这就意味着计算机中的某些计算可以变得更加简单和快速。
四、请写一个C函数,若处理器是Big_endian的,则返回0;若是Little_endian的,则返回1。

[cpp] view plain copy

 

  1. int checkCPU(void)  
  2. {  
  3.     union  
  4.     {  
  5.         int a;  
  6.         char b;  
  7.     }c;  
  8.     c.a = 1;  
  9.     return (c.b == 1);  
  10. }  

剖析:由于联合体union的存放顺序是所有成员都从低地址开始存放,利用该特性就可以轻松地获得了CPU对内存采用Little- endian还是Big-endian模式读写。
说明:
1  在c中,联合体(共用体)的数据成员都是从低地址开始存放。
2  若是小端模式,由低地址到高地址c.a存放为0x01 00 00 00,c.b被赋值为0x01;
  ————————————————————————————
   地址 0x00000000 0x00000001 0x00000002 0x00000003
   c.a  01         00         00         00
   c.b  01         00        
  ————————————————————————————  
3  若是大端模式,由低地址到高地址c.a存放为0x00 00 00 01,c.b被赋值为0x0;
  ————————————————————————————
   地址 0x00000000 0x00000001 0x00000002 0x00000003
   c.a  00         00         00         01
   c.b  00         00                 
  ————————————————————————————  
4  根据c.b的值的情况就可以判断cpu的模式了。

举例,一个16进制数是 0x11 22 33,其存放的位置是
地址0x3000 中存放11
地址0x3001 中存放22
地址0x3002 中存放33
连起来就写成地址0x3000-0x3002中存放了数据0x112233
而这种存放和表示方式,正好符合大端。
另外一个比较好理解的写法如下:

[cpp] view plain copy

 

  1. bool checkCPU()     // 如果是大端模式,返回真  
  2. {  
  3.     short int test = 0x1234;  
  4.   
  5.     if( *((char *)&test) == 0x12)     // 低地址存放高字节数据  
  6.         return true;  
  7.     else  
  8.         return false;  
  9. }  
  10.   
  11. int main(void)  
  12. {  
  13.     if( !checkCPU())  
  14.         cout<<"Little endian"<<endl;  
  15.     else  
  16.         cout<<"Big endian"<<endl;  
  17.   
  18.     return 0;  
  19. }  

或者下面两种写法也是可以的

[cpp] view plain copy

 

  1. int main(void)  
  2. {  
  3.     short int a = 0x1234;  
  4.     char *p = (char *)&a;  
  5.   
  6.     if( *p == 0x34)  
  7.         cout<<"Little endian"<<endl;  
  8.     else  
  9.         cout<<"Big endian"<<endl;  
  10.   
  11.     return 0;  
  12. }  
  13.   
  14. int main(void)  
  15. {  
  16.     short int a = 0x1234;  
  17.     char x0 , x1;  
  18.   
  19.     x0 = ((char *)&a)[0];  
  20.     x1 = ((char *)&a)[1];  
  21.   
  22.     if( x0 == 0x34)  
  23.         cout<<"Little endian"<<endl;  
  24.     else  
  25.         cout<<"Big endian"<<endl;  
  26.   
  27.     return 0;  
  28. }  

永利平台娱乐 3

 

LSB 0: A container for 8-bit binary number with the highlighted least significant bit assigned the bit number 0

更进一步的,像ARM、PowerPC、Alpha、SPARC V9、MIPS、PA-RISC和IA64等体系结构可以支持可切换的字节序这样的特性,这个特性可以提高效率或者简化网络设备和软件的逻辑。这种可切换的字节序被称为Bi-Endian,用于硬件上意指计算机或者传递数据时可以使用两种不同字节序中任意一种的能力。

 

文字不够直观,下面以数值0×0A0B0C0Dh为例说明Big-Endian和Little-Endian在内存布局上的不同:

MSB 0:A container for 8-bit binary number with the highlighted most significant bit assigned the bit number 0

  • Big-Endian在内存中的表示

 

永利平台娱乐 4

(2)*小端CPU通常采用的是LSB 0 位序*,但是大端CPU却有可能采用LSB 0 位序也有可能采用的是**M**SB 0 位序

永利平台娱乐,increasing addresses  →

        (Little-endian CPUs usually employ "LSB 0" bit numbering, however both bit numbering conventions can be seen in big-endianmachines. )

...

(3)推荐的标准是**M**SB 0 位序。

0Ah

        (The recommended style for Request for Comments documents is "MSB 0" bit numbering.)

0Bh

(4)Bit numbering is usually transparent to the software.

0Ch

 

0Dh

2.大小端和字节序   

...

In computing, the term endian or endianness refers to the ordering of individually addressable sub-components within the representation of a larger data item as stored in external memory (or, sometimes, as sent on a serial connection). Each sub-component in the representation has a unique degree of significance, like the place value of digits in a decimal number. These sub-components are typically 16- or 32-bit words, 8-bit bytes, or even bits. Endianness is a difference in data representation at the hardware level and may or may not be transparent at higher levels, depending on factors such as the type of high level language used.

在这个例子中,最高有效字节(MSB)为0Ah,储存在最低地址的内存中;次高有效位为0Bh,储存在接下来的内存中,依此类推。这种字节序与从左向右的顺序读取十六进制数值非常类似。

计算机中,术语“端”是指:在内存中的一个较大的数据,它是由各个可以被单独寻址的部分组成,这些组成部分在该数据中是以怎样的顺序存放的呢?而这个问题涉及到“端”的概念,CPU是大端还是小端决定了这些组成部分的存放顺序

以16位元素大小查看:

这些组成部分可能是16或32位的字、8位的字节、甚至是比特位。

increasing addresses  →

The most common cases refer to how bytes are ordered within a single 16-, 32-, or 64-bit word。

...

我们通常碰到的情况是:字节是以怎样的顺序存放在一个16、32、64位的数据中

0A0Bh

(当我们要存取一个16、32、64位数据的某一组成部分,也就是某一个或几个字节时,就要特别注意机器的“大小端”)

0C0Dh

 A big-endian machine stores the most significant byte first, and a little-endian machine stores the least significant byte first.

...

Quick Reference - Byte Machine Example
Endian First Byte
(lowest address)
Middle Bytes Last Byte
(highest address)
Summary
big most significant ... least significant Similar to a number written on paper (in Arabic numerals)
little least significant ... most significant Arithmetic calculation order (see carry propagation)

最高有效元素现在保存的是0A0Bh,接下来的元素保存0C0Dh.

Examples of storing the value 0A0B0C0Dh in memory

  • Little-Endian在内存中的表示

Big-endian Atomic element size 8-bit, address increment 1-byte (octet)

永利平台娱乐 5

increasing addresses  →

TAG标签:
版权声明:本文由永利平台娱乐发布于IT交流,转载请注明出处:在所有的介绍字节序的文章中都会提到字,我们