投稿指南
一、稿件要求: 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立,论述详实,能够对读者的购买起到指导作用。文章体裁不限,字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件,请注明插图位置。插图应清晰可辨,可保存为*.jpg、*.gif格式。如使用word等编辑的文本,建议不要将图片直接嵌在word文件中,而将插图另存,并注明插图位置。 3、如果用电子邮件投稿,最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等,以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者,将保留追究由此引起的法律、经济责任的权利。 二、投稿方式: 1、 请使用电子邮件方式投递稿件。 2、 编译的稿件,请注明出处并附带原文。 3、 请按稿件内容投递到相关编辑信箱 三、稿件著作权: 1、 投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我方所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我方所投之作品不得同时向第三方投送,即不允许一稿多投。若投稿人有违反该款约定的行为,则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、 投稿人授予我方享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 投稿人委托我方声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

中文分词在大数据时代医学领域的应用

来源:世界最新医学信息文摘 【在线投稿】 栏目:期刊导读 时间:2021-07-12
作者:网站采编
关键词:
摘要:1 中文分词算法概述 中文分词是自然语言处理、数据挖掘等信息处理领域的基础,也一直是领域内研究的难点和重点。不同于英文,在中文文本中,词与词之间没有空格进行分隔,无法

1 中文分词算法概述

中文分词是自然语言处理、数据挖掘等信息处理领域的基础,也一直是领域内研究的难点和重点。不同于英文,在中文文本中,词与词之间没有空格进行分隔,无法通过简单的字符串分割得到词组。中文当中易于分割的只有字、句、段,而词语却没有明显的分隔标识。因此通过分隔符来进行中文分词是及其困难的。中文文本的语法缺乏规范化,规则和结构十分复杂,相同的文本用不同的分词方法可能产生歧义,同时中文词语的数量也极为庞大,并且还在不断扩充。针对这些问题,国内学者提出了不同的中文分词算法。目前中文分词的方法主要有基于文本匹配的分词算法,基于理解的分词算法,基于统计的分词算法。近年来,随着对中文分词研究的深入,中文分词的准确度及速度都在不断提高。

2 中文分词在医学领域的应用

近年来数据挖掘技术越来越受到医学研究人员的重视,中文分词在医学领域也得到越来越广泛的应用。

2.1 中文分词用于抑郁症预防干预

在这个发展迅速的信息时代,人们倾向于在网络上抒发自己的情绪、寻求问题的答案。社交媒体(微博,facebook,twitter…)是允许用户自创和交换内容的互联网应用,是一个拥有大量数据的超集,从中能够挖掘出用户的的思想动态和行为倾向。对用户的社交平台的记录(例如用户所发的微博,在百度知道、贴吧上的提问)应用中文分词技术进行处理分析,提炼出有用的关键词,能够为对用户心理状态的分析和可能的动机与行为的预测提供一定的依据,从而提前做好干预措施。

中文分词在此方面的应用的主要思想是通过网络爬虫等方法采集用户的社交网络记录,采用一定的分词算法进行处理,用基于向量空间模型,基于频繁项集等短文本聚类的等方法等提炼出关键词,对结果进行分析和预测。当结果表明此用户有抑郁的倾向时,例如:关键词体现为“绝望”,“痛苦”,“孤独等”,便可根据用户信息联系其亲友、单位、学校等对其进行帮助,必要时进行心理疏导和治疗,避免悲剧的发生。

该方法具有提取用户心理状态信息的能力,但仍需要完善。对微博等短文本处理提取出的关键词特点不够显著时,需要进一步对文本进行情感分析,找出负向情感的文本记录。再对其进行主题抽取找出关键词,分析用户的特点。

2.2 中文分词用于电子病历数据挖掘

电子病历中存在着大量的数据,通过中文分词技术的应用,挖掘出真实电子病历中的隐含信息,对疾病与药品进行分析,发掘有价值的信息,对于医学研究与应用具有重要的意义。

电子病历中包含了患者的个人信息,和医生的诊断、检查结果、治疗方法记录等等医疗信息,是病人就诊的全部记录。病历中的文本是由医务人员录入的,是非结构化的数据。因为病历文本中存在药品名称、疾病名称、组织器官名称等不常见的医学专用词,所以病历文本的分词在普通中文分词的基础上还需要进行词典的扩充。由此,利用中文分词进行电子病历的数据挖掘的主要思路为:通过网络爬虫对药品等数据进行提取,加入至自定义词典中,使用扩充的词典对病历进行分词和词性标注,获得疾病和药品的信息,再用关联分析法对疾病和药品进行分析。通过挖掘信息,总结出患者接受治疗过程中各种药物和治疗方法所产生的疗效,医学研究者更容易找到易患病人群的年龄、地区等规律,既能给潜在发病者预防的契机,也能给医生接诊相似病例带来一定的参考价值,为医学研究提供一定的思路,推动医学的智能系统的发展。

用中文分词进行电子病历挖掘的难点在于自动分词的准确性,基于词典的方法和基于有监督机器学习的方法是目前的主流方法,但是中文病历还目前还缺乏有针对性的、完整的专业领域词典,仅仅靠网页数据的提取和人工标注语料难以完全解决未登录词的问题。针对此问题,哈尔滨工业大学的张立邦等学者提出了基于无监督学习的方法,通过EM算法从生语料中估计词的出现概率,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,在未登录词的识别上取得了较好的效果,但精度还能够继续完善。如何提高无监督学习的准确率,是未来需要解决的问题。

2.3 中文分词用于药物研究

近年来,中文分词在药物研究领域也得到了越来越多的应用。以中药的研究为例,通过对古今文献的文本挖掘,能够总结出一定的用药规律,例如各种药材的搭配比例。中草药材的名称不是常见词语,需要扩充进词典中,扩充的方法可以是网页信息提取,人工输入词典或者语料库加工。通过对某一症状的用药记录进行分词,统计出各种药材的使用频次以及用量比例,能够挖掘出治疗效果最佳的药材配方。

文章来源:《世界最新医学信息文摘》 网址: http://www.sjzxyxxxwz.cn/qikandaodu/2021/0712/1134.html



上一篇:辽宁省最新动物寄生虫名录二羊寄生虫最新名录
下一篇:计算机网络在医学信息中的实际应用

世界最新医学信息文摘投稿 | 世界最新医学信息文摘编辑部| 世界最新医学信息文摘版面费 | 世界最新医学信息文摘论文发表 | 世界最新医学信息文摘最新目录
Copyright © 2018 《世界最新医学信息文摘》杂志社 版权所有
投稿电话: 投稿邮箱: