(资料图片)
近日,由上海蜜度信息技术有限公司、澎湃新闻、上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司、新浪微博6家机构共建的数字生态内容实验室通过人工智能、大数据等技术手段对4946.3万条、706.6亿字内容的样本进行全面梳理,整理出出错频率最高的“不规范字词TOP20”。
“不规范字词TOP20”(部分)
对错误类型进行统计,“常见错误”在不规范字词TOP20中占9项,是互联网上主要出现的不规范用字词形式。TOP20中,“常见错误”类型的帐(账)号等属于误用形近别字,其出现错误频次超过1万次。TOP20中,异形词、繁体字各有5项出现。其中,颤(战)栗、架式(势)等误用读音相近字的错误频次均超过千次。
TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;妳(你)、愛(爱)等被部分网友用于表达个性,因此出现频率较高。
关键词: