`unicode_escape` 函数技术文档

概述

unicode_escape 是一个 Python 函数，用于将字符串中的非 ASCII 字符（Unicode 码点 ≥ 256 的字符）转换为其 Unicode 转义序列表示形式，而保留 ASCII 字符（码点 < 256）不变。

该函数适用于需要将包含特殊 Unicode 字符的字符串转换为可打印、可传输或兼容 ASCII 的格式的场景，例如日志记录、数据序列化或生成 JSON 安全字符串。

def unicode_escape(s):
    x = [ch if ord(ch) < 256 else ch.encode('unicode_escape').decode('utf-8') for ch in s]
    return ''.join(x)

参数	类型	说明
`s`	`str`	输入的原始字符串

类型：str
说明：返回一个新字符串，其中所有 Unicode 码点大于等于 256 的字符被替换为其对应的 \uXXXX 或 \UXXXXXXXX 形式的 Unicode 转义序列，ASCII 字符保持原样。

遍历输入字符串 s 中的每一个字符 ch。
对每个字符：
- 如果其 Unicode 码点（通过 ord(ch) 获取）小于 256（即属于标准 ASCII 或 Latin-1 范围），则直接保留该字符。
- 否则，使用 .encode('unicode_escape') 将该字符编码为字节形式的 Unicode 转义序列（如 \u4e2d），然后通过 .decode('utf-8') 转换回字符串。
使用 ''.join(x) 将处理后的字符列表拼接成最终结果字符串。

result = unicode_escape("Hello, 世界!")
print(result)
# 输出: Hello, \u4e16\u754c!

result = unicode_escape("Café Noël 🌍")
print(result)
# 输出: Caf\xe9 No\xebl \U0001f30d

注意：é 和 ë 属于 Latin-1 范围（码点 < 256），因此使用 \x 转义；而 🌍（地球符号）是辅助平面字符，转义为 \U0001f30d。

若需将转义字符串还原为原始 Unicode 字符串，可使用：

import codecs
original = codecs.decode(escaped_string, 'unicode_escape')

此函数为公共领域代码片段，可用于任何项目。