Document
检索banner
高级检索 在检索结果中检索
全部字段 题名 作者 关键词 摘要

基于Spark Streaming的流式并行文本校对

  • 【作者】杨宗霖,李天瑞,刘胜久,殷成凤,贾真,珠杰
  • 【作者单位】西南交通大学信息科学与技术学院;西南交通大学人工智能研究院;西藏大学计算机科学系
  • 【年份】2020
  • 【卷号】第4期
  • 【页码】36-41
  • 【ISSN】1002-137X
  • 【关键词】自动校对 流式计算 并行计算 多线程 Spark 
  • 【摘要】 互联网的高速发展催生了海量网络文本,这对传统的串行文本校对算法提出了新的性能挑战。尽管近年来文本自动校对任务受到了较多关注,但相关研究工作多集中于串行算法,鲜有涉及校对的并行化。文中首先对串行校对算法进行泛化,给出一种串行校对的通用框架,然后针对串行校对算法处理大规模文本存在的耗时长的不足,提出3种通用的文本校对并行化方法:1)基于多线程的线程并行校对,它基于线程池的方式实现段落和校对功能的同时并行;2)基于Spark MapReduce的批处理并行校对,它通过RDD并行计算的方式实现段落的并行...
  • 【基金】国家自然科学基金
  • 【文献类型】 期刊
进入发现系统查看更多信息

发文期刊《基于Spark Streaming的流式并行文本校对》历年引证文献趋势图

引证的期刊论文等列表

共11条记录 1/2 第一页 [1] [2] 下一页 最后一页 到第
页脚