Getting the actual length of a UTF-8 encoded std::string?(获取 UTF-8 编码的 std::string 的实际长度?)
问题描述
我的 std::string 显然是 utf-8 编码的,str.length() 返回了错误的结果.
my std::string is utf-8 encoded so obviously, str.length() returns the wrong result.
我找到了此信息,但我不确定如何使用它来执行此操作:
I found this information but I'm not sure how I can use it to do this:
以下字节序列是用来表示一个字符.这顺序是使用取决于字符的 UCS 代码编号:
The following byte sequences are used to represent a character. The sequence to be used depends on the UCS code number of the character:
0x00000000 - 0x0000007F:
0xxxxxxx
0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
如何找到 UTF-8 编码的 std::string 的实际长度?谢谢
How can I find the actual length of a UTF-8 encoded std::string? Thanks
推荐答案
计算所有首字节(与 10xxxxxx 不匹配的字节).
Count all first-bytes (the ones that don't match 10xxxxxx).
int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;
这篇关于获取 UTF-8 编码的 std::string 的实际长度?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:获取 UTF-8 编码的 std::string 的实际长度?
基础教程推荐
- C++,'if' 表达式中的变量声明 2021-01-01
- 什么是T&&(双与号)在 C++11 中是什么意思? 2022-11-04
- 设计字符串本地化的最佳方法 2022-01-01
- 如何定义双括号/双迭代器运算符,类似于向量的向量? 2022-01-01
- 您如何将 CreateThread 用于属于类成员的函数? 2021-01-01
- 运算符重载的基本规则和习语是什么? 2022-10-31
- 如何在 C++ 中处理或避免堆栈溢出 2022-01-01
- C++ 标准:取消引用 NULL 指针以获取引用? 2021-01-01
- C++ 程序在执行 std::string 分配时总是崩溃 2022-01-01
- 调用std::Package_TASK::Get_Future()时可能出现争用情况 2022-12-17