• λ我爱Aspx >> Asp.Net >> 为什么XML文件的分析结果出现乱码?
  • 为什么XML文件的分析结果出现乱码?

  • :未知  Դ:非寒日志  :2007-4-21 0:50:48  ؼ:xml
  • 引用内容 引用内容
    http://shap.5d.cn/team/user/showCircle.aspx?user=mingxing

    这个圈子在写了一段测试报告:

    [标题:]记录圈子的几个问题

    [内容:]sina,bokee,blogcn,blogbus没有聚合进来,163,oblog分别是gbk和gb2312编码,聚合进来是乱码。如果一开始把一个人分类设错,再重新设置后,原来的文章没法移动过来。

    这是由编码问题引起的。XML标准规定,XML分析器必须支持“UTF-8”和“UTF-16”编码,而且必须能够自动区分这两种编码的文件,对于其他编码(包括常用的中文编码“GB2312”或“BIG5”)并不要求支持。如果XML文件中包含编码声明,分析器则按照声明的编码进行处理,否则就按照识别结果进行处理(识别的结果总是“UTF-8”和“UTF-16”中的一种)。因此,如果XML文件的编码在这两种之外,你必须在XML文件前加上编码声明,如:<?xml version=”1.0″ encoding=”gb2312″?>就表示XML文件的编码是“gb2312”。

    现有的XML分析器大多不支持中文编码“GB2312”或“BIG5”,因此无法读取包含中文的XML文件。你可以使用支持中文编码的分析器,如MSXML,IBMJAVA4C,IBMJAVA4J等进行XML分析。你也可以用内码转换工具,将编码转换为“UTF-8”或“UTF-16”后进行解析,然后将解析结果转换回原来的编码。本站的软件园地中的ccnv(Code Converter)就是这样的工具。当然,你也可以自己写一个内码转换程序。

    关于“UTF-8”和“UTF-16”编码的详细信息,请查看本站标准荟萃中的UTF-16和UTF-8标准。

    Ҷƪл˵?
  • һƪ雅虎搜虫大行动----快来抓毛毛虫菜青虫吧!
    һƪGoogle(谷歌)中国总部探密[来自互动维客]