https://www.live400.com/newsdetail/id/7.html 白话编码:让十六进制“说人话”-江苏立维-专注监控、运维服务(Zabbix|Prometheus|APM|日志|数据库)
  首页     >     新闻动态     >     白话编码:让十六进制“说人话”

白话编码:让十六进制“说人话”

发布日期:2024-08-06    阅读数:342
01
背景


为某客户做信锐AC监控,AC下纳管的AP名字显示为16进制字串(形如“E5 95 86 E5 8A A1 E9 83 A8”),客户反馈看不懂其代表的含义。
02
原因


如果AP的名字没有更改,那么通过snmp获取到的AP名字是mac地址;如果更改了那么获取的是UTF-8编码的16进制数。
矛盾出现了,如果AP名字被更改过那么理应做转化,而如果AP名字未被更改那么不应该做转化。于是研发人员就将这个工作交给了实施团队----根据实际情况增加转化。
03
解决


历史上有近10个客户用到了信锐AC,都是在实施过程中识别和转化的,那有没有办法在代码里兼容转化呢?答案是可以的。
因为UTF-8编码有固定规则,完全可以区分16进制数是mac地址还是UTF编码,具体代码不赘述了。但有的同学提起来ascii、gbk、gb2312、utf、16进制就抓瞎,所以把涉及到的一些编码知识在团队内总结普及下。
04
知识点拓展


(1)16进制:

他就是一个数字的呈现形式,这个真的不能再解释了。数字10,16进制表示就是A,二进制表示就是1010。


(2)ASCII码:

1960年代美国制定的字符编码,将英文字符与二进制对应起来。举例来说16进制30代表数字0、61代表英文字母A。

(3)Unicode:

英文字符不能打遍全球啊,全球有那么多文字,而计算机却只认识数字。以“我”这个字为例,如果没有一个统一的表示方式,你用AA表示(仅举例),他用BB表示“我”,那计算机岂不是要疯了。于是unicode出现了,它是个非常大的集合,把世界上所有的文字都定义了唯一的数字表示方式。注意它定义的是“文字”与“数字”的对应关系,就是把“我”这个字给个唯一标志的数字“AAAA“(仅为举例)。

(4)Unicode的问题:

unicode既然表示了全量的文字看起来非常好,但实际上它并不能普及。第一个问题就是它不能识别一串数字到底表示几个字符。举个例子,在unicode的码表中,二进制0100 1111 0110 0000如果表示一个字符的话,是汉字 “你”,但如果表示2个字符的话是英文字符O(0100 1111)和 `(0110 0000),这让计算机怎么搞?那有人说,为了解决第一个问题我可以把英文字符前面补0,让他也成为2字节,比方说我把O变成0000 0000 0100 1111。这样每个文字都是2字节表示长度就统一了,计算机每次读取2个字节然后判断不就行了?理想很丰满现实很骨感,这样做的话那存储空间、网络传输带宽都会膨胀,而且如果是4字节呢,是不是浪费更多的0来补位,所以unicode最终并未落实为编码方式,而是表示方式。

(5)UTF:

随着互联网的普及,一种统一的UTF编码方式出现了,它真正的把unicode表示方式给转换成了实用的编码方式。那么它是怎么解决unicode的长度表示问题和资源浪费问题的呢?核心在于它变长表示法,他可以用1~4个字节表示一个文字,其编码规则只有两条:
a) 单字节的文字:
第一位是0,后面7位是unicode码。所以对于英文单字符来说,utf和ascii是一样的
b) 多字节的文字(N字节):

先把文字用unicode表示法记录成二进制,然后把这串二进制依次塞进如下格式的二进制串:第一个字节前面的N位全是1、第N+1位是0,剩下的8-N-1位补unicode的字串,后面的字节前两位全是10,剩下的6位补unicode的字串。对应关系如下:


c)举例
找个网站(例如https://www.wetools.com/unicode)查下"你"的unicode是4F60(0100 1111 0110 0000)。要用utf编码的话,它落在0800~FFFF之间,应该用3个字节表示。

开始填充 1110 0100 1011 1101 1010 0000 。具体对应关系如下图所示:


最终形成的数字是1110 0100 1011 1101 1010 0000 16进制E4BDA0。找个网站把UTF转成中文(例如https://www.bejson.com/convert/ox2str/#google_vignette)

05
题外话


一定要理解unicode是个啥,它是文字的唯一数字化表示方式,也叫码点(code point)。
然后再理解utf是个啥,它是把unicode码点做转换,从而让其在网络传输、文件保存等场景中没有歧义的编码方式,它编出来的码和unicode的码不一样,目的就是为了解决表示二义性、存储传输效率问题的。
同理,其他编码方式也基本一样,例如ucs2是双字节编码,就是用2个字节来表示unicode的唯一文字;Ucs4是4字节编码,用4个字节表示unicode的唯一文字。

新闻搜索

云安全风险发现,从现在开始
返回顶部-立维
公众号
关注微信公众号
电话咨询
服务热线:400-006-8618
项目咨询
项目合作,欢迎发邮件咨询
service@live400.com