久久国产亚洲欧美日韩精品,国产精品一区在线麻豆,国产拍揄自揄精品视频网站,欧美日本一区二区三区免费,无码福利视频,亚洲无码视频喷水,亚洲三级色,亚洲狠狠婷婷综合久久久久

基于可擴展的網頁關鍵信息抽取研究論文

2021-04-14 論文

  1 引言

  網頁的關鍵信息是網頁的最基本的信息,它體現了該網頁和其他網頁的差別。常見的關鍵信息有正文、作者、來源、發布時間等。在網絡輿情監控、網絡情報分析、搜索引擎等重大網絡應用中,這些關鍵信息都是后期分析挖掘必不可少的基礎數據。需要利用網絡信息抽取技術從網頁中抽取出這些關鍵信息。從某種角度上講,關鍵信息的抽取質量直接決定了網絡應用服務的效果。因此,網頁的關鍵信息抽取研究具有重大的應用價值。

  隨著網頁規模呈指數級增長,在網絡應用中,模板無關的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優勢成為信息抽取環節的主流算法。該算法通常針對特定需求,利用一些經驗規則處理特定領域或特定格式的網頁。因為抽取過程無需人工干預,所以此類算法越來越多地應用于實際網絡環境中。基于模板的信息抽取算法充分利用了動態網頁的規律:網頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數據。因此,該算法在對動態網頁進行抽取時能夠取得較高的精度。

  但是,這兩類抽取算法也存在著其固有的缺陷。模板無關的全自動抽取算法通常基于過強的假設。在處理多樣性日益顯著的網頁時,常常因為某些網頁不符合假設,而導致出現抽取精度不能滿足需求的情況;并且由于使用過多規則,導致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網頁學習出模板,后人工標注。面對日益增多的數據源,會導致網絡應用的運維代價過大;同時日益復雜的網頁使得模板的準確性下降,從而導致抽取精度下降。

  針對上述模板無關的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網頁關鍵信息抽取框架。該框架通過輸入訓練網頁或其他算法的抽取結果,生成關鍵信息模板集。再通過模板的正交過濾算法,生成候選的關鍵信息模板。最后通過模板的特征過濾算法,生成最終的關鍵信息模板。利用該模板可快速、準確地從同類型網頁中抽取關鍵信息。該框架很好地融合了模板無關的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發揮各自的優點,并在缺點方面互相彌補。實驗結果表明,該框架能夠在抽取精度、抽取效率方面有本質上的提高。此外,該框架具有很好的可擴展性,框架中的一些關鍵環節可根據需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓練網頁或其他算法的抽取結果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質上提高生成的模板的準確性,最后的實驗結果也充分驗證了這一結論。

  2 相關工作

  網頁信息抽取是一種針對網絡數據源和網頁進行深度處理和加工的過程。由于網頁的復雜性和多樣性,使得網頁信息抽取算法也越來越多。常見的網頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預,所以在實際的工程應用中,基于模板的信息抽取算法和模板無關的全自動信息抽取算法以其較強的實用性占據了主流的位置。基于模板的信息抽取通常基于這樣的假設:待抽取的網頁是由同一個模板生成的`,屬于模板的符號不會變化,變化的只是模板中填充的數據。符合這種生成模型的網頁都可以利用網頁模板分析方法來抽取。互聯網上大量存在的動態網頁是由機器生成的(例如論壇)網頁。基于模板的信息抽取的工作流程是:

  1)利用多個同類型網頁中具有共性的不變的部分生成一個模板;

  2)根據模板對同類型網頁進行抽取。因為此類算法過濾了網頁中的大量模板,只留下了數據,同時自動還原出了數據的結構,使得用戶在付出較小人工代價的同時,能夠獲得較為準確的關鍵信息。因此此類算法一直都是網絡應用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網頁生成一個模板。模板的準確性直接決定了后續信息抽取的精確度。隨著網頁復雜性以及同一類型網頁的差異性的增大,生成的模板準確性隨之降低。模板無關的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經驗規則處理特定領域或特定格式的網頁,例如,經典的全自動信息抽取算法MDR。該算法的缺陷在于通常基于過強的假設。以網頁正文抽取為例。網頁的正文往往是各大網絡應用都需要的關鍵信息,有不少針對正文抽取的模板無關的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標簽的密度來確定正文所在的范圍。CETD結合了二者優點。這些算法自動化程度高,通用性強,但是效率較低,且假設過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網頁。因此這種方法的效率較低。

  在以往的文獻中,較少看到將模板無關的全自動信息抽取算法和基于模板的信息抽取算法結合使用的相關研究。在本文提出的框架中,巧妙地將這兩種算法有機地結合起來,使得二者能夠取長補短,從本質上提高信息抽取的質量。

【基于可擴展的網頁關鍵信息抽取研究論文】相關文章:

基于數據抽取與訂閱實現數據共享分析及研究論文10-30

合理定價評審抽取研究論文03-30

有關合理定價評審抽取的研究論文04-03

基于多單片機的串口擴展設計論文11-17

基于科技信息共享云服務機制研究論文11-02

基于Web的農機推廣信息系統的研究與設計論文11-02

基于GIS的農業動態信息共享網絡平臺研究論文11-07

基于CDI0理念下的《網頁設計》教學思考與研究的論文01-11

基于視覺搜索因素的網頁設計論文11-15

主站蜘蛛池模板: 国产免费久久精品99re不卡| 国产美女无遮挡免费视频网站| 国产精品久久久久鬼色| 国产欧美综合在线观看第七页 | 超薄丝袜足j国产在线视频| 亚洲日韩AV无码精品| 国产午夜看片| 国产精品乱偷免费视频| 亚洲AV无码久久精品色欲| 国产成人AV大片大片在线播放 | 国产乱人伦精品一区二区| 国产在线无码av完整版在线观看| 久久香蕉国产线| 天天爽免费视频| 天天干伊人| 国产尤物视频网址导航| 天天综合网亚洲网站| 国产爽妇精品| 国产精品久久国产精麻豆99网站| 亚洲无线一二三四区男男| 国产一级特黄aa级特黄裸毛片| 午夜福利无码一区二区| 五月激情婷婷综合| 欧美性久久久久| 亚洲人成网站日本片| 亚洲国产AV无码综合原创| 香蕉eeww99国产在线观看| 18禁色诱爆乳网站| 91国内在线观看| 天天综合亚洲| 四虎综合网| 亚洲欧洲综合| 欧美综合区自拍亚洲综合天堂| 日韩在线播放欧美字幕| 97久久免费视频| 亚洲天堂网在线视频| 毛片免费试看| 91福利片| 国产精品自在线天天看片| 久久国产高清视频| 国产极品粉嫩小泬免费看| 国产精品粉嫩| 67194成是人免费无码| 欧美日韩国产在线观看一区二区三区| 亚洲天堂免费观看| 久久久噜噜噜久久中文字幕色伊伊 | 国产免费久久精品99re不卡| 欧美.成人.综合在线| 女人av社区男人的天堂| 成人日韩视频| 亚洲婷婷六月| 成年人视频一区二区| 国产青青操| 亚洲人人视频| 久久中文字幕不卡一二区| 中文无码精品A∨在线观看不卡| 欧美性猛交xxxx乱大交极品| 免费在线成人网| 在线a网站| 亚洲欧美综合精品久久成人网| 欧美精品黑人粗大| 亚洲av无码牛牛影视在线二区| 国产乱子伦精品视频| 免费女人18毛片a级毛片视频| 美美女高清毛片视频免费观看| 99ri国产在线| 亚洲欧美另类色图| 在线播放91| 日韩欧美国产区| 妇女自拍偷自拍亚洲精品| 亚洲黄色片免费看| 97人人做人人爽香蕉精品| 四虎影视无码永久免费观看| 亚洲人成电影在线播放| 亚洲香蕉久久| 国产麻豆91网在线看| 成年人免费国产视频| 国产成人亚洲综合a∨婷婷| 亚洲日韩高清在线亚洲专区| 四虎国产在线观看| 极品国产在线| 最新国产精品第1页|