Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 675|回复: 0

解决在C#(.net)按字节数截取字符串最后出现乱码的问题

[复制链接]
  • TA的每日心情
    奋斗
    2024-4-6 11:05
  • 签到天数: 748 天

    [LV.9]以坛为家II

    2034

    主题

    2092

    帖子

    70万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    705612
    发表于 2021-4-25 11:54:04 | 显示全部楼层 |阅读模式

    最近需要用到按字节数截取字符串。在网上找了很多方法。

    Encoding.Default.GetString采用的Default
    Encoding.UTF8.GetBytes采用的是utf-8编码。这样当然是乱码。尤其出现中文时候。
    对这类数据处理当然要用统一的编码来处理。

    例子:1
     string msg= Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(strcode));
    例子:2
    string strcode="我是小明";
    byte[] buffer=Encoding.UTF8.GetBytes(strcode);
    string msg= Encoding.UTF8.GetString(buffer,0,buffer.Length);

     

    实际结果是截取的结尾会出现乱码。原因是最后的字符是多个字节,被不完整的截取了。

    改进后的办法如下:

            /// <summary>
            /// 按字节数截取字符串的方法(比SubString好用)
            /// </summary>
            /// <param name="source">要截取的字符串(可空)</param>
            /// <param name="NumberOfBytes">要截取的字节数</param>
            /// <param name="encoding">System.Text.Encoding</param>
            /// <param name="suffix">结果字符串的后缀(超出部分显示为该后缀)</param>
            /// <returns></returns>
            public static string SubStringByBytes(string source, int NumberOfBytes, System.Text.Encoding encoding, string suffix = "...")
            {
                if(string.IsNullOrWhiteSpace(source) || source.Length == 0)
                    return source;
    
                if(encoding.GetBytes(source).Length <= NumberOfBytes)
                    return source;
    
                long tempLen = 0;
                StringBuilder sb = new StringBuilder();
                foreach(var c in source)
                {
                    Char[] _charArr = new Char[] { c };
                    byte[] _charBytes = encoding.GetBytes(_charArr);
                    if((tempLen + _charBytes.Length) > NumberOfBytes)
                    {
                        if(!string.IsNullOrWhiteSpace(suffix))
                            sb.Append(suffix);
                        break;
                    }
                    else
                    {
                        tempLen += _charBytes.Length;
                        sb.Append(encoding.GetString(_charBytes));
                    }
                }
                return sb.ToString();
            }
            /// <summary>
            /// 按字节数截取字符串的方法(比SubString好用)
            /// </summary>
            /// <param name="source">要截取的字符串(可空)</param>
            /// <param name="NumberOfBytes">要截取的字节数</param>
            /// <param name="encoding">UTF-8,Unicode,GB2312...</param>
            /// <param name="suffix">结果字符串的后缀(超出部分显示为该后缀)</param>
            /// <returns></returns>
            public static string SubStringByBytes(string source, int NumberOfBytes, string encoding = "UTF-8", string suffix = "...")
            {
                return SubStringByBytes(source, NumberOfBytes, Encoding.GetEncoding(encoding), suffix);
            }


    原理很简单,就是截取之前逐个先判断字符是否超出字节长度,如果超出则扔掉整个字符。

    在JavaScript里面的Blob对象很容易获取字节长度: var len= new Blob(['字符串']).size;

    JS代码是不是比较简洁?

     

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-5-8 00:35 , Processed in 0.066708 second(s), 29 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表