久久国产亚洲欧美日韩精品,国产精品一区在线麻豆,国产拍揄自揄精品视频网站,欧美日本一区二区三区免费,无码福利视频,亚洲无码视频喷水,亚洲三级色,亚洲狠狠婷婷综合久久久久

基于可擴展的網頁關鍵信息抽取研究論文

2021-04-14 論文

  1 引言

  網頁的關鍵信息是網頁的最基本的信息,它體現了該網頁和其他網頁的差別。常見的關鍵信息有正文、作者、來源、發布時間等。在網絡輿情監控、網絡情報分析、搜索引擎等重大網絡應用中,這些關鍵信息都是后期分析挖掘必不可少的基礎數據。需要利用網絡信息抽取技術從網頁中抽取出這些關鍵信息。從某種角度上講,關鍵信息的抽取質量直接決定了網絡應用服務的效果。因此,網頁的關鍵信息抽取研究具有重大的應用價值。

  隨著網頁規模呈指數級增長,在網絡應用中,模板無關的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優勢成為信息抽取環節的主流算法。該算法通常針對特定需求,利用一些經驗規則處理特定領域或特定格式的網頁。因為抽取過程無需人工干預,所以此類算法越來越多地應用于實際網絡環境中。基于模板的信息抽取算法充分利用了動態網頁的規律:網頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數據。因此,該算法在對動態網頁進行抽取時能夠取得較高的精度。

  但是,這兩類抽取算法也存在著其固有的缺陷。模板無關的全自動抽取算法通常基于過強的假設。在處理多樣性日益顯著的網頁時,常常因為某些網頁不符合假設,而導致出現抽取精度不能滿足需求的情況;并且由于使用過多規則,導致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網頁學習出模板,后人工標注。面對日益增多的數據源,會導致網絡應用的運維代價過大;同時日益復雜的網頁使得模板的準確性下降,從而導致抽取精度下降。

  針對上述模板無關的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網頁關鍵信息抽取框架。該框架通過輸入訓練網頁或其他算法的抽取結果,生成關鍵信息模板集。再通過模板的正交過濾算法,生成候選的關鍵信息模板。最后通過模板的特征過濾算法,生成最終的關鍵信息模板。利用該模板可快速、準確地從同類型網頁中抽取關鍵信息。該框架很好地融合了模板無關的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發揮各自的優點,并在缺點方面互相彌補。實驗結果表明,該框架能夠在抽取精度、抽取效率方面有本質上的提高。此外,該框架具有很好的可擴展性,框架中的一些關鍵環節可根據需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓練網頁或其他算法的抽取結果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質上提高生成的模板的準確性,最后的實驗結果也充分驗證了這一結論。

  2 相關工作

  網頁信息抽取是一種針對網絡數據源和網頁進行深度處理和加工的過程。由于網頁的復雜性和多樣性,使得網頁信息抽取算法也越來越多。常見的網頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預,所以在實際的工程應用中,基于模板的信息抽取算法和模板無關的全自動信息抽取算法以其較強的實用性占據了主流的位置。基于模板的信息抽取通常基于這樣的假設:待抽取的網頁是由同一個模板生成的`,屬于模板的符號不會變化,變化的只是模板中填充的數據。符合這種生成模型的網頁都可以利用網頁模板分析方法來抽取。互聯網上大量存在的動態網頁是由機器生成的(例如論壇)網頁。基于模板的信息抽取的工作流程是:

  1)利用多個同類型網頁中具有共性的不變的部分生成一個模板;

  2)根據模板對同類型網頁進行抽取。因為此類算法過濾了網頁中的大量模板,只留下了數據,同時自動還原出了數據的結構,使得用戶在付出較小人工代價的同時,能夠獲得較為準確的關鍵信息。因此此類算法一直都是網絡應用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網頁生成一個模板。模板的準確性直接決定了后續信息抽取的精確度。隨著網頁復雜性以及同一類型網頁的差異性的增大,生成的模板準確性隨之降低。模板無關的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經驗規則處理特定領域或特定格式的網頁,例如,經典的全自動信息抽取算法MDR。該算法的缺陷在于通常基于過強的假設。以網頁正文抽取為例。網頁的正文往往是各大網絡應用都需要的關鍵信息,有不少針對正文抽取的模板無關的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標簽的密度來確定正文所在的范圍。CETD結合了二者優點。這些算法自動化程度高,通用性強,但是效率較低,且假設過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網頁。因此這種方法的效率較低。

  在以往的文獻中,較少看到將模板無關的全自動信息抽取算法和基于模板的信息抽取算法結合使用的相關研究。在本文提出的框架中,巧妙地將這兩種算法有機地結合起來,使得二者能夠取長補短,從本質上提高信息抽取的質量。

【基于可擴展的網頁關鍵信息抽取研究論文】相關文章:

基于數據抽取與訂閱實現數據共享分析及研究論文10-30

合理定價評審抽取研究論文03-30

有關合理定價評審抽取的研究論文04-03

基于多單片機的串口擴展設計論文11-17

基于科技信息共享云服務機制研究論文11-02

基于Web的農機推廣信息系統的研究與設計論文11-02

基于GIS的農業動態信息共享網絡平臺研究論文11-07

基于CDI0理念下的《網頁設計》教學思考與研究的論文01-11

基于視覺搜索因素的網頁設計論文11-15

主站蜘蛛池模板: 国产午夜福利片在线观看| 久久精品国产91久久综合麻豆自制 | 欧美精品亚洲二区| 99久久精品国产综合婷婷| 亚洲资源在线视频| 日本不卡在线视频| 国精品91人妻无码一区二区三区| 91精品国产无线乱码在线 | 一本色道久久88| 亚洲中文精品久久久久久不卡| 手机在线免费不卡一区二| 久久青青草原亚洲av无码| 亚洲欧美一区二区三区麻豆| 国产最爽的乱婬视频国语对白| a级毛片一区二区免费视频| 国产欧美视频一区二区三区| 日本精品视频| 美女国产在线| 全免费a级毛片免费看不卡| 国产在线麻豆波多野结衣| 一级毛片不卡片免费观看| 国产夜色视频| 妇女自拍偷自拍亚洲精品| 国模在线视频一区二区三区| 成人福利在线视频免费观看| 中文字幕无线码一区| 99精品在线看| 久久精品一卡日本电影| 国产亚洲欧美在线专区| 91无码视频在线观看| 日韩国产一区二区三区无码| 国产精品污污在线观看网站| 国产你懂得| 欧美午夜理伦三级在线观看| 欧美成人午夜视频免看| 国产96在线 | 欧美精品aⅴ在线视频| 91国内在线观看| 欧美精品H在线播放| 国产精品欧美在线观看| 亚洲人成影院在线观看| 国产精品网曝门免费视频| 国产白浆在线观看| 国产精品毛片一区视频播| 在线国产毛片| 精品久久人人爽人人玩人人妻| 国产资源免费观看| 嫩草在线视频| 中文字幕首页系列人妻| 日韩麻豆小视频| 成人精品区| 成人午夜精品一级毛片 | 亚洲swag精品自拍一区| 色久综合在线| 色婷婷成人| 亚洲人成亚洲精品| 国产va在线观看免费| 不卡无码网| 亚洲人妖在线| 91在线无码精品秘九色APP| 麻豆国产在线不卡一区二区| 91在线视频福利| 国产99精品久久| 国产精品任我爽爆在线播放6080 | 日本欧美一二三区色视频| 国产91av在线| 亚洲无码视频一区二区三区| 亚洲免费三区| 精品国产Ⅴ无码大片在线观看81| 成色7777精品在线| 欧美精品综合视频一区二区| 丁香六月综合网| 中文成人无码国产亚洲| 性做久久久久久久免费看| 国产青榴视频| 亚洲天堂网在线播放| 日韩av高清无码一区二区三区| 亚洲精品第一页不卡| 亚洲精品日产精品乱码不卡| 人妻精品全国免费视频| 国产欧美精品一区aⅴ影院| 久久久久青草线综合超碰|