摘要:计算机的语言模块发展中,对于数据资源的依赖相当高,在对于语料的分析中,利用不同的分析方式,带来的效果也存在着很大的差异性。在本文中详细介绍了其中关于基于数理统计和概率论分析下的NLP管理方式,对于数据研究中,将依据处理包的模块化分析为计算理论提供了理论基础,并在语义的分析以及逻辑的调整下形成转换,不仅统一的了标准,避免出现语句的表达错误,同时也是加强了语句的表达方式。在对文本检索的计算方式上进行调整,强调数据之间的语义逻辑冲突检索,在数据分析的基础上不断提高自然语言的使用能力。
关键词:概率论与数理统计;自然语言处理数据模块;语料库逻辑分析
随着网络社会的不断发展,对于网络数据的管理形式更加多元,这就给网络平台带来了极大地自由,与此同时就会出现违规的情况,网络环境的净化就亟待解决。如今,在不同的网络平台中广泛使用的NLP(自然语言处理,以下简称NLP)对网络进行有效的净化,不断对语言进行统一,在概率分析的基础下,利用数据包的模式对语言转换起到帮助作用。在对语言的管理模式中,NLP系统就是基于概率论和梳理统计基础上衍生出的管理模式,有效的促进了网络系统的语言统一,对网络运行成本也能够有效地控制。
一、NLP数据模型基本情况
NLP是自然语言处理的统称,在计算机统计中一门分类学科,利用自然语言的文本中对数据进行采集和存储,并根据算法对数据进行检索。在过程当中,对于语言的统计还细分为标注和语义的分析,在量化指标的要求下,把作品的风格进行调整,利用计算机数据加工功能对数据的词汇库进行加工,通过词汇之间的随机搭配,在深度的融合下实现研究范围扩大。在软件数据库中,将大量的文字进行处理,在语法分析和词性的辨析上起到搭配的效果,从一个新环境中进行检索研究,省去了各个软件之间相互转化的麻烦。在传统的自然语言管理中,各个软件需要进行相互的转换,不能只有的进行切换,更不能根据设计者的要求进行深度语言处理研究,词汇的搭配不能在随机的模式中进行,但是根据概率论和数理统计的方式,可以将已有的词汇在计算中得到充分的使用,由原来的片段形式,形成篇章的形式,在工具包的模拟下,弥补研究中的不足。同时在NLP中使用Python 语言更能将语言得知转换变得便捷。在边界模糊的语言处理中,由于Python 语言是处理的源头,数据的处理较为方便,使得在多个领域中将概率论和数理统计分析作为研究的突破口,把Python 语言作为研究的模式,在语句库中新城NLP管理模式。
二、NLP管理模式研究内容
在原始语言中,将数据在网络中接入,根据数据的内容不同,接入的接口不同,在根据人工的判断,将数据形成转换介质,在文本中出现的符号和相对应的格式中,将不规范的问题在计算机算法中进行解决,保证了软件能够识别的前提下,通过数据统计的方式再次对源数据(语言)进行处理,并用Python 语言进行数据包的上传,在数据库中调用非表达式模式的文本,将表达的方式不局限在语言表达,可以转化为公式辨识的方式,并在replace模式下,将命令下达,对字符进行转化,保证原有不规范的词语和不正确或是出现不正常的语句进行修正,删除赘余的语句,形成对篇章的整体处理。
作为第一步,完成Python 语言上传,也就是NLP管理中数据的预处理,是将随机的数据根据算法进行上传,充分的将概率分布的原理融入其中,随后是对词语进行修改,在多条不相兼容的数据中,进行物理隔离,在对于较好识别的词语进行优先分类,对分类的形式作为识别模块,在采集数据的过程中,数据的识别模块就相应的激活,由于数据的来源上相同但是内容完全的不同,会形成文本存在差异性,利用加权矩阵的验证方式,对于相互存在关联性的文本进行合并。这部操作中,降低大量来自数据自身的工作时间,减少了人为操作的麻烦,避免了数据分类中存在的错误。其次在分词中,数据的杂乱性也可以根据验证的公式进行初步的筛选,将原有错误的数据进行淘汰。根据淘汰的数量进行概率的计算,为下一步词句的还原作为基础工作。随着词语内容的划分,随即对语言的语料进行划分。考虑到后期语言处理的可检索,将Python 语言包中的调用模块提前使用,并与识别模块相互兼容。鉴于数据在使用语句块的replace命令将多个语句进行替换,就会出现统计上的误差,会对后期的语句重组进行加工,将标注和注解进行深度处理,保证功能方式的实现,并根据非表达语言分类方式,实现分词的语料分析,达到细分词语的效果。
再者是对词性的还原,在语段中,将曲折的表达方式进行文本的归纳,在文本的模式中,更换研究的方式,保证词语进行归纳,在不同的词语中,由于词性的相同可进行归纳。在定量的语句控制下,达到语言处理词汇量整体形成数据库的效果。在Python 语言数据包中,将还原词进行多次的词性还原,并根据相同词性数据库的管理方式,进行词性的赋值,在分类中,对自然控制下的条件语言进行细分,对于检索和增加标签的方式进行数值模块,并在处理中借助神经模块的方式提高分类的准确性,形成对词汇的赋值,保证后期的检索方便。
三、NPL管理中统计分析
NPL管理中运用的是统计学的相关原理,对于Python 语言也是根据概率的方式进行数量的控制,在大量的数据进行汇总分析,在检索中形成索引,根据不同的规律进行划分,把个别偶然出现的,对于语义和语境没有作用的词语进行筛选,根据偶然性的概率进行划分,并衍生到规律当中,形成语言的具体搭配,模拟成固定的形式,并外部的搭配中完善Python语言数据库。在考虑到词句和词语的不同,遵循概率的方式,在一词多个用的情况下,可随机对语句进行搭配,保证数据的多重使用,在内在的规律下,形成定义的转化,并在意义与管理的模式中进行切换,在倾向性的变化中突出语言的使用技巧,并在Python 语言中进行数据的统计分析。
在进行所有操作之前,需要进入命令行,输入指令将 Python 语言自然语言处理包导入。通过输入指令②,将语料导入。Python 语言包自身包含古腾堡项目、布朗语料库、网络和聊天文本、路透社新闻语料库等大量语料库资源。在原始语料中,存在“]”、“-”、“”、“CHAPTER”大小写混杂等情况,会影响下一步对语料的标注与统计分析,需要在进行下一步分析之前去除,本文通过命令③来实现文本的清洁。在处理包中,可通过调用 is. alpha ( ) 属性来去除语料文件中非字母部分,结合 if 判断句的使用,实现文本的清洁。NLTK 對文本处理方式较多,也可以通过正则表达式中“/W”匹配符对字母进行匹配,从而获得清洁文本。在命令③中,调用 lower ( ) 方法,对语料中单词进行小写处理,以便提高统计的准确度。对语料进行清洁处理后的对比,上部分为原始数据,下部分为进行清洁处理后的数据。处理后“Emma”“I”被处理为“emma”“i”,“[”已被去除。
在进行词形还原操作之前,需要先输入命令将Word Net Lemmatizer方法分配。经历上述步骤后,获得语料基本能够满足进行词汇搭配研究需要,可以对词汇出现频率和搭配进行研究,但当前基于语料库的研究已不仅仅限于词汇层面,还涉及句法、篇章等多个层面。要在更高层面开展研究,还需要对语料进一步处理即词性标注。在 Python 语言中,通过调用pos_ tag 方法实现。“emma”被标注为名词,“by”被标注为介词。限于技术原因,标注还不能做到 100% 准确,如人名“austen”被错误标注为动词。
下面还是以常见词“of”为例,介绍的自然语言程序处理包在检索词语搭配中的运用。在获得词汇“of”的常见搭配的估计之后,为进一步对词汇进行研究,证明提出的小说中“of”一词词汇搭配的猜想,还需要对搭配进行统计分析,以便证实猜想。在研究单词“of”附近一个位置范围内,常见搭配的频数统计上,自然语言处理包提供bigrams,ConditionalFreqDist等多种工具可满足研究需要。通过以下命令实现对词汇“of”附近一个位置范围内的出现词汇频数的统计。在实际研究中还需要生成词表以便对语料的整体特征有所掌握。Python 自然语言处理包提供了FreqDist对词汇进行统计。
四、语义逻辑分析检测
在NLP处理中实现的信息管理,将多个区域的数据进行分类,在规则的条件下根据统计的不同进行性能的变化,在以来与语言的分析和文本格式的调整,实现语言的语料分析,在不需要大的计算的条件下,进行知识的融合。在运用信息抽取的情况下,将数据模型中资源进行架构调整,并在思考的方式上进行改变,把原有的词汇精准性提高,在对计算机的理解下,将相互关系进行变换,提高智能服务的能力。在描述逻辑的语言分析中,对语言网进行调整,把概念性的语言进行识别,在对象的几何中,由于对象是二元对对立,保证本质的区分的同时考利到定义的不同,将具体的语言进行个别定义,利用模型的语义进行推理,保证在逻辑中模型不出现冲突的情况,在运算层面上保证知识同样不出现冲突性。
上述主要是在语义方面的逻辑冲突的检测,简单的来说就是在源数据的基础上利用不同的定义对原有的数据进行重新描述,在语言的严谨性和关联性方面实现统一,保证结构化的数据在思维的大数据模型中表现出概率分析的特性,当然,只利用数据的模式不能够过于单一,对语义的分析要遵循管理原理,在严谨性上使用主谓宾的管理方式,在顺序上进行相应的推导,保证不会出现歧义的情况发生,在保证描述性的一致性上,对定义词汇进行描述,在静态和数据动态进行直接推导,形成语句的标注和检索具体功能实现。
以语言中语句的标注为例,在多个应用场景中,利用语言的选择方式,在独立的浏览模式中,将语句接入场景中,提供实用性分析,在接入网络服务后,满足多个用户的需求。在不同的语句分析模块下,对需要标注的文本进行分析填注,在不同的实体之间进行切换,在实例与虚拟的空格之间上文本。对于语法的分析中,在选择标注的方式和标准的定义方式,对于无法标记的内容,缺乏逻辑内涵的数据进行屏蔽,把具有逻辑链条和相互作用的语句进行添加,实现数据的共通。在语义的推导中,利用不同的推导方式,将未知的数据进行问题形式分析,在模式型的解释分析中,将概念抽象以及后期的数据共享。所谓的概念模型就是在抽象中数据中将一些具体的描述性话语进行解释,在有明确的定义的分析中,对不明确的内容进行解释,使得语句的表述清晰,语义明确,保证用户的认可度提升,实现应用系统在语义上的串联,同时也是保证分类方面的一致性,确保词句直接在检测冲突上达到相同的概念分析。
五、结束语
由于数据库中语言的复杂性,在支持的数据中不同的语料情况较大,利用单一的数据分析方式无法满足自然语言的处理方式,利用概率论和数理统计的方式可以很好的解决语言管理方面的一系列问题。在今后的研究中,可根据语言处理包的不同,对语义进行划分,并将划分归纳的方式进一步统一,形成文字间固有的处理方式,提高自然语言的处理模式效率。
参考文献
[1]夏天,樊孝忠,刘林. 利用 JNI 实现 ICTCLAS 系统的 Java 调用.计算机应用, 2004(24):177-182.
[2]张宗仁.基于自然语言理解的本体语义信息检索. 广州:暨南大学,2011
[3]徐力斌基于 WordNet 和自然语言处理技术的半自动领域本体构建计算机科学,2007(34):219-222
[4]BIBERD,CONRAD S,REPPEN R. Corpus linguistics:
investigating language structure and use[M]. Cambridge:
Cambridge University Press,1998.
[5]BIRD S,KLEIN E,LOPER E. Natural language processing with python[M].New York:
O"Reilly Media Press,2009.
[6]PERKINS J.Python text processing with NLTK2.0 cookbook:
Lite edition[M].Birmingham:
Packt Publishing Ltd,2011.
作者簡介:翁宇旋(1987.09-),男,本科,主要研究方向:自然语言处理研究。
猜你喜欢概率论与数理统计浅谈概率论与数理统计课程与数学建模思想的融合教育教学论坛(2017年1期)2017-02-08概率论中几个事件之间的联系与区分东方教育(2016年9期)2017-01-17应用型本科院校《概率论与数理统计》教学模式的探索东方教育(2016年18期)2017-01-16《概率论与数理统计》教学创新探究科学与财富(2016年29期)2016-12-27行动导向教学法背景下的《概率论与数理统计》数学学习与研究(2016年19期)2016-11-22加强计算机技术在“概率论与数理统计”课程中的应用电脑知识与技术(2016年25期)2016-11-16翻转课堂教学模式在《概率论与数理统计》课堂教学中的实践研究考试周刊(2016年78期)2016-10-12民办高校概率论与数理统计教学改革探讨电脑知识与技术(2016年10期)2016-06-16数学建模在概率论与数理统计教学中的应用科教导刊·电子版(2016年11期)2016-06-03军校《概率论与数理统计》教学方法探讨科教导刊·电子版(2016年10期)2016-06-02