中文难检字与HTML标准

岁末，学期将尽，网站最后两步工序紧张进行－－修码通过W3C的HTML标准验证，和站点的简易可用性测试。

今天修码，只要按照多数页面通常代码不规范的前车之鉴修改后都顺利通过了，可是偏偏就遇到一个小问题－－看似微不足道却是拦路虎。

验证报错如下

Sorry! This document can not be checked.

多次仔细检查页面，甚至内容中的字都检查过几遍，还是找不出类似以前在DW中经常出现的“不识别代码”问题（从word中直接copy过来的文字中空格之类的会显示为不识别的代码－－unicode问号），折腾的头大，简直几近放弃了。最后根据提示在源码中发现了这个字“騄”。

Sorry, I am unable to validate this document because on line 295 it contained one or more bytes that I cannot interpret as gb2312 (in other words, the bytes found are not valid values in the specified Character Encoding). Please check both the content of the file and the character encoding indication.

“騄”字属于难检字，就是我们小学在查字典时不容易查找、使用较少的那类。gb2312字库中无此字，在属性中定义font-family为具备这个字的字库是否就可以了呢？于是找到了方正gbk字库，如下修改：

还是报错。

最后发现一个HTML难检字对应表的站（HTML Numeric Character Entity References），使用其中对应的号码“騄”来代替源码中的文字，这个问题才终于得以解决。一般这些难检字在网页中不易出现，如果不需通过HTML标准验证就更不必多此一举了。不过人名中出现偏字倒是难免。这里遇到的小困难让我收获了一些经验，以此文为纪念，经验同享。

Comments

薄学多毛

December 26, 2006 11:00 PM

虽然不是经常用到此类知识,但还是学习了先.

mercury

January 4, 2007 10:28 AM

http://www.nies.ch/doc/entities.en.php?page=101
这里还有一些难检字代码。
用到的如下(代码换成半角哟）：
復＆＃２４４８９；
翦＆＃Ｘ７ＦＥ６；
湣＆＃Ｘ６Ｅ６３；
旵＆＃Ｘ６５Ｆ５；
使用方法，在搜索框中输入难检字（如“旵”）和“HTML Unicode Entities”，一般就可查得代码了。

Sorry, I am unable to validate this document because on line 219, 227, 229, 232, 234 it contained one or more bytes that I cannot interpret as utf-8 (in other words, the bytes found are not valid values in the specified Character Encoding). Please check both the content of the file and the character encoding indication.

我也出现这个问题，但是我不知道，他说第219行，是那个文件的219行啊？谢谢回答我的问题。我已经订阅你了。也欢迎做友情链接。谢谢！

mercury

July 17, 2007 9:54 AM

应该是源码--不是页面浏览器中查看的源码

你可以查找一下页面的文字中是否有难检字，就是这些难检字作怪了～呵呵

到难检字表中找到代码替换就没问题了～

墨神的凡龛