博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文分词十年回顾结论 黄昌宁
阅读量:4939 次
发布时间:2019-06-11

本文共 564 字,大约阅读时间需要 1 分钟。

十年来,尤其是2003 年Bakeoff 分词评测开展以来,中文分词技术获得了长足的进步。其主要表现为: (1) 通过“分词规范+ 词表+ 分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2) 基于手工规则的分词方法在评测中不敌统计学习方法; (3) 在Bakeoff 数据上的估算表明,未登录词造成的分词精度失落至少比分词歧义大5 倍以上; (4) 因此能够大幅度提高未登录词识别性能的分词方法必将带动分词系统整体性能的提升。基于字标注的统计学习方法正是在这种背景下崭露头角的。Bakeoff 评测数据证明,这种基于字标注的分词系统优于以往的基于词(或词典) 的分词系统。回顾这十年来分词技术的进步,有什么是可供其他自然语言处理技术借鉴的经验呢? 笔者认为,由于自然语言的模糊性和复杂性,一方面,对于任何进入计算的语言对象都应当为其寻求一种可计算的定义;另一方面,对于推动任何一种应用技术的进步来说,公开、可比的评测都是至关重要的。语言对象的定义和有关这种对象的自动评测是紧密关联的,没有可计算的定义,也就不会有可信的评测。

转载于:https://www.cnblogs.com/Chinese-Coder-Clarence/articles/2410390.html

你可能感兴趣的文章
【转】Android 语言切换过程分析
查看>>
jpa 多对多关系的实现注解形式
查看>>
Android开发——View绘制过程源码解析(一)
查看>>
Quartz和TopShelf Windows服务作业调度
查看>>
让ie9之前的版本支持canvas
查看>>
排序规则
查看>>
percent的用法
查看>>
中文词频统计
查看>>
Hibernate三种状态详解
查看>>
判断一个数是否是2^N次方
查看>>
js中几种实用的跨域方法原理详解
查看>>
打印图形
查看>>
《第一行代码》学习笔记7-活动Activity(5)
查看>>
ngx_http_core_module 模块
查看>>
两个常见的oracle索引
查看>>
一位有着工匠精神的博主写的关于IEnumerable接口的详细解析
查看>>
MySQL中特有的函数If函数
查看>>
安装Python3.6.2报错:zipimport.ZipImportError: can't decompress data; zlib not available
查看>>
【蓝桥杯】入门训练 Fibonacci数列
查看>>
实验十 指针2
查看>>