800-830-3836

京華智能校對機器人產品白皮書

來源:發布時間:2021-08-30

分享到:


 1.1 趨勢和需求

      抗疫期間,“湖北省張家界市”“四川省重慶市江津區”等低級錯誤屢屢出現在官媒、公文中,失之毫厘,差之千里,中央紀委國家監委網站為此發表了批評文章《公文出錯事非小》。文風里面有作風,其背后是政府公信力和企業經營水平,正所謂:肩上有責任,筆下有乾坤!

      在機關和企業中,估計很多筆桿子都有這樣的經歷,辛苦加了幾個夜班寫成的文稿,自信滿滿地交給領導審閱,誰知上來就被圈上了幾個錯字、病句和誤用的標點符號,細一看還有邏輯不通的情況。如果這些錯誤沒有及時發現和修訂,相關文件發布后將產生嚴重的不良影響。

      如何避免出現這種尷尬狀況、保證文件質量?可謂寫作開流、修改正本、校對凈后,校對是對寫作、修改的補充和完善,是文書相關工作中必不可少的一環。



  1.2 產品簡介

      京華智能校對機器人(以下簡稱校對機器人)是一款針對文書的內容和形式進行糾錯的應用軟件。它主要是幫助黨政機關、企事業單位辦公人員在文書寫作、核稿等過程中快速地發現和訂正錯誤,降低文書錯誤量,提高文書質量。

      校對機器人糾錯支持漏字、多字、拼寫錯誤、內容重復、領導稱謂及排位不當、標點符號使用不當、文書語義錯誤、病句等幾大類幾十種錯誤。

      校對機器人具有自我學習能力,采用了機器學習技術,針對用戶不斷輸入的語料進行定期訓練和更新糾錯模型,保證持續和穩定的提升糾錯精準度。

      校對機器人可以具有獨立系統、嵌入辦公套件(金山WPS、永中Office、微軟Office、網頁編輯器等)、與OA集成等多元使用場景。



  1.3 產品架構

(手機端用戶請用雙指縮放)




2.1  糾錯支持幾十種錯誤


(手機端用戶請用雙指縮放)



2.1.1  字詞錯誤


(手機端用戶請用雙指縮放)

① 漏字
在打字輸入過程中少打了一字或修改內容時誤刪除了一個字,導致內容上缺少一字。例如:
例子1:結合易地扶貧搬遷工作實際。(全-->全國)
例子2:關于“廣西區對中央巡視‘回頭看’反饋的多建安置住房問題整改不實”問題。(項-->專項)
例子3:自治區工業和信息廳關于印發2021年度XX方案的通知。(信息-->信息化)

② 多字
在打字輸入過程中多打了一字,導致內容上多了一字。例如:
例子1:開閉所進出線電纜頭采用歐式結構,配置可觸摸型。(刪除:樣)
例子2:把做到“兩個維護”作為根本政治任務。(刪除:法)
例子3:同時能耗指標有限,要聚焦重點產業。(刪除:單)

③ 拼寫錯誤

在日常寫作中,由于輸入法的影響或者對詞語使用的方式不對,可能導致輸入的拼音或者筆畫不正確,使得最終寫入的文字不正確。例如:

例子1:第一批自治區統愁支持工業震興資金調整說明。(統愁-->統籌)

例子2:現組織開展2021年自治區本機西部陸海新通道建設資金項目計劃申報工作。(本機-->本級)

例子3:移民安置和后期扶持政策實施監督檢査涉及同一年度內在同一縣(市、區)的。(檢査-->檢查)


④ 字詞位置互換

在修改內容時,操作失誤導致兩個字或兩個詞位置相互調換。例如:

例子1:強增成員對社內事務的關注度、參與度。(強增-->增強)

例子2:整合利用各類識知產權在線資源。(識知-->知識)

例子3:產業項目要進業產園區。(業產-->產業)


⑤ 缺少數詞

缺少數詞是指在描述數量的文本中缺少數字內容。例如:

例子1:含家國有企業。(含X家)

例子2:我國節水灌溉面積達到畝。(達到X畝)

例子3:在慶祝中國共產黨成立年大會上重要講話精神。(成立X年)

例子4:開展農民教育培訓人次以上。(培訓X人次)


⑥ 敏感詞

當文章中誤使用了帶有政治敏感傾向或不健康色彩的詞語時,系統將進行提示。

常見政治敏感詞有“一黨專制”“臺獨”“藏獨”“疆獨”等。



2.1.2  內容重復


(手機端用戶請用雙指縮放)

我們摘抄文本時,經常因為疏忽而重復拷貝了相同的內容,導致文中出現重復段落、句子、詞語。例子:
例子1:天氣天氣真不錯。(“天氣”重復)
例子2:天氣是晴朗的的。(“的”重復)
例子3:提升執法人員行政執法人員素質。(定中內容“人員”重復)

例子4:我國重要的國際商貿中心、南方國際航運中心、對外交往中心、綜合交通樞紐和南方國際航運中心。(并列詞“南方國際航運中心”重復)


2.1.3  領導稱謂及排位錯誤


(手機端用戶請用雙指縮放)

校對機器人自動分析文本內容,識別文本中領導姓名、稱謂以及領導名單排列順序,并與正確的領導稱謂和排位進行比對,識別稱謂和排位錯誤信息,給出正確的稱謂和排位信息。例子如下:

例子1:到2027年,躋身核電標準化強國前列,依據習近平書記有關指示要求,在國際核電標準化領域發揮引領作用。(建議:習近平的可能稱謂有總書記、軍委主席、常委)

例子2:習近平、李克強、趙樂際、王滬寧領導下,充分總結、凝練我國核電工程技術經驗、科研成果的基礎上,提升我國核電標準的自主化程度。(建議:習近平、李克強、王滬寧、趙樂際)



2.1.4  標點符號使用不當


(手機端用戶請用雙指縮放)


校對機器人根據國家標準《標點符號用法》(GB/T15834-2011)中標點符號的使用規則,對常見標點符號使用不當進行糾錯,其中包括:

①  標點符號沒有配對
需要成對使用的符號:<>   《》   ()   〔〕   []   【】   {}   “”   ‘’
例子1:該村年人均收入增長了50﹪,達到1200元人民幣?!秴⒖枷ⅰ?998.7.25)(括號沒有配對正確)

②  并列內容之間符號錯用
例子1:各中小學要積極貫徹落實《中華人民共和國預防未成年人犯罪法》、《中華人民共和國義務教育法》及相關要求。(書名號之間不用加頓號)
例子2:公安部門要加強校園“警務室”、“護學崗”、“安全網”建設,落實護校制度。(雙引號之間不用加頓號)

③  標點符號多余
例子1:國務院辦公廳關于加強核電標準化工作的指導意見。。(句號重復)
例子2:《!國務院辦公廳關于加強核電標準化工作的指導意見》(“《!”不能連用)

④ 發文字號的年份代碼符號錯誤
發文字號組成規則:<發文機關代字>〔年份〕<份號>號,錯例如下:
例子1:粵府辦(2020)14號。(“(2020)”改成“〔2020〕”)
例子2:粵府辦[2020]14號。(“[2020]”改成“〔2020〕”)
例子3:粵府辦【2020】14號。(“【2020】”改成“〔2020〕”)

⑤  缺少雙引號
例子1:我區于2019年已整合水電氣等企業資源,在各設區市政務服務中心開辦“水電氣”聯辦窗口。(“水電氣”前后雙引號要一致)

⑥  引文缺少括號
如果引用文件名稱后面附帶了對應的文件號,要求用中文括號把文件號括起來。
例子1:我區積極落實《國務院關于在市場監管領域全面推行部門聯合“雙隨機、一公開”監管的意見》國發〔2019〕5號。(國發〔2019〕5號-->(國發〔2019〕5號

例子2:根據《國務院關于調整進口設備稅收政策的通知》國發〔1997〕37號,以下簡稱“國發37號文”及相關規定。(國發〔2019〕5號,以下簡稱“國發37號文”-->(國發〔2019〕5號,以下簡稱“國發37號文”


2.1.5  文書語義錯誤


(手機端用戶請用雙指縮放)


根據文書寫作、文書處理業務約定,針對一些常見的公文語義錯誤進行識別和糾正,其中包括:


①  引文名與文件編號不一致

例子1:我區認真貫徹落實國務院辦公廳《關于全面開展工程建設項目審批制度改革實施意見》(國辦發〔2019〕11號)文件精神。(關于全面開展工程建設項目審批制度改革實施意見-->關于全面開展工程建設項目審批制度改革的實施意見)


②  完整句子中間包含空格

例子1:認真貫徹落實國務院辦公廳《關于全面  開展工程建設項目審批制度改革實施意見》(國辦發〔2019〕11號)文件精神。

例子2:認真貫徹落實國務  院辦公廳《關于全面開展工程建設項目審批制度改革實施意見》(國辦發〔2019〕11號)文件精神。


③  標注簡稱不規范

人們常把一些形式上長而繁的名稱或習用的短語用縮略形式替代,這些縮略形式就是標注簡稱,比如“黨委”“政協”“奧運會”“彩電”“春晚”等。以下標注簡稱是錯誤的:


(手機端用戶請用雙指縮放)


④  附件說明與附件列表不一致

公文中附件說明是指公文正文尾部的“附件:”段落內容,例子如下:

附件:1.XX省人民政府辦公廳關于報送貫徹實施《優化營商環境條例》有關情況的報告的函(代擬稿)

2.XX省貫徹實施《優化營商環境條例》有關情況報告

3.評估發現的主要問題完成情況和整改措施

附件列表是指公文處理子系統中公文處理電子單的附件清單。附件說明與附件列表不一致包括附件缺失、附件多余、標題不一致。


⑤  公文頭與處理表不一致

公文頭是指一份公文的原數據,包括標題、發文字號、簽發人、密級、保密期限、主送機關、抄送機關、緊急程度、成文日期等,處理表是指公文處理子系統中的公文審批表單。兩者不一致是指:a、處理表中存在字段有值,而公文頭不存在或為空;b、處理表和公文頭都存在對應的字段,但是他們的值不相同。

錯誤樣例如下:

(手機端用戶請用雙指縮放)


⑥  經典句子引用偏差

經典句子是指經常被他人引用的、不能改寫的句子,通常指名言金句、文件中一些重要不能錯誤的句子(稱為重要句子)、古詩詞、諺語等。

人們在引用經典句子時,漏字、多字、改寫、換位會導致內容與經典句子實際內容不一致,例如:

(手機端用戶請用雙指縮放)


⑦   行政區域錯誤

行政區域錯誤通常指描述地域、地點的內容中出現市與省不匹配、區縣與市不匹配、區縣與省份不匹配等現象。例如:

例子1:關于做好湖北省張家界市來寧人員信息核查和健康管理的通知(湖北省-->湖南?。?/span>

例子2:金華市富陽區財政局行政信息公開事項統計表(金華市-->杭州市)

例子3:廣東省富陽區財政局行政信息公開事項統計表(廣東省-->浙江?。?/span>


⑧  公文標題成分缺失

公文標題不規范是指公文標題的各個組成元素缺失、元素重復、元素內容不符合規定等,其中包括:


(手機端用戶請用雙指縮放)



2.1.6  病

(手機端用戶請用雙指縮放)


針對病句糾錯,校對機器人主要支持以下兩個方面:


①  詞語搭配不合理

句子中主語和謂語之間、動詞和賓語之間、附加成分與中心詞之間搭配不當。例如:

例子1:我們要減少小學生學習負擔。(...減輕...負擔...)

例子2:人民的生活水平普遍增加了。(...水平...提高...)

例子3:要努力實現這一偉大的任務。(...完成...任務...)

例子4:加強自身改革和建設的步伐。(...加快...步伐...)


②  成分贅余

句子結構已完整,句意已明確,但添加了一些不必要的詞語,就會導致句子成分多余。例如:

例子1:報刊雜志,十分罕見,公開宣稱,致信給。(詞語冗余)

例子2:來自(從...來)于,這其中,并非(并不是)是。(虛詞冗余)

例子3:目前的當務之急、口若懸河地說個不停。(成語冗余)


 2.2  具有高精度識別率

識別率是智能校對的關鍵指標之一,它的高低決定了校對效果。目前校對相關的指標有:


(手機端用戶請用雙指縮放)



2.3  具有自我學習能力

校對機器人之所以“智能”,是因為它具備自我學習能力,其中包括:

①  自動采集語料

在校對服務過程中,系統自動收錄校對目標的文本內容,自動標注,形成正確語料庫。同時也收集用戶忽略錯誤的語料數據,降低誤識別率。


②  機器學習訓練

基于自動采集語料和人工增加的語料數據,采用n-gram模型定期進行訓練,構建校對模型數據,把新知識融入到校對模型中,從而提高校對識別率。


(手機端用戶請用雙指縮放)




2.4  多元化使用場景

為了更方便用戶使用校對功能,校對機器人支持多元化使用場景:


①  嵌入到文檔或網頁編輯器

直接嵌入到金山WPS、永中Office、微軟Word等文字編輯器中,實現“邊寫邊校對”,如下圖:

校對機器人嵌入到文檔編輯器中


直接嵌入到網頁編輯器中,實現“邊寫邊校對”,如下圖:

校對機器人嵌入到網頁編輯器中



②  校對機器人(獨立應用系統)

提供一個獨立的校對應用系統,支持批量上傳DOC、DOCX、PDF、OFD、HTML、TXT等文檔,系統自動校對并生成校對報告。如下圖:


    校對機器人獨立系統                                                      智能校對報告


③  使用接口集成到第三方系統

提供服務接口,與OA等第三方系統對接,在第三方系統直接使用校對功能。與OA對接效果如下圖:


校對機器人嵌入到OA系統中




3.1  服務器需要什么樣的配置?

校對機器人采用了大數據和人工智能技術,對算力要求比較高。

①  運行服務器一臺(5個并發),建議配置:32G以上內存、16核以上CPU。

②  機器學習服務器一臺,建議配置:64G以上內存、16核以上CPU。

建議選擇鯤鵬32核CPU、256G內存。


 3.2  必須要部署機器學習平臺嗎?

 校對機器人平時不停學習黨政官網上公開的文獻、政策、講話、法規等,校對識別率可以達到90%。如識別率要求達到95%,那就需要對用戶內部數據進行機器學習,即需要部署機器學習平臺。


 3.3  運維服務有哪些內容?

隨著社會的變化發展,公文內容不斷更新,持續出現新詞、新表述。因此,校對機器人需要定期補充和更新校對相關知識,具體包括:

①  更新詞庫數據:人名、機構名、術語等詞匯。

②  更新領導稱謂及排位:領導崗位變動引起的領導稱謂及排位數據變動。

③  模型定期訓練:更新公網采集的語料,融合用戶內部最新語料,進行機器學習,構建新模型。



分享到:
别揉了宝贝~都出水了,成人依依网站亚洲综合久,公和我做爽死我了a片,风韵丰满熟妇啪啪区老老熟女百度