善肯網(wǎng)頁TXT采集器是一款非常好用的網(wǎng)頁文字采集工具,也可以叫做小說采集工具,有了善肯網(wǎng)頁TXT采集器可以幫你一鍵進行小說的下載工作,將喜愛的小說下載到本地慢慢看。
善肯網(wǎng)頁TXT采集器是一款非常好用的網(wǎng)頁文字提取器,可以幫助你一鍵提取網(wǎng)頁中的所有文字,同時還擁有專業(yè)的正則表達式篩選,可以去除掉網(wǎng)站中不必要的內(nèi)容,并且軟件還支持各大網(wǎng)站的網(wǎng)頁小說采集,非常的好用,歡迎有需求的用戶前來下載使用。
1、規(guī)則設(shè)置:
①在規(guī)則設(shè)置窗口,在網(wǎng)站中隨便找一篇文,不寫任何規(guī)則,先點擊實時預(yù)覽,看看能不能獲取網(wǎng)頁源代碼,能獲取則再寫規(guī)則,不能獲取就沒必要繼續(xù)了。
②規(guī)則設(shè)置使用的是正則表達式匹配內(nèi)容,有一定基礎(chǔ)最好,沒基礎(chǔ)也可以參考給的范例,簡單學(xué)習(xí)下,不需要深入學(xué)習(xí)正則。
③規(guī)則設(shè)置的時候,目錄頁和內(nèi)容頁需要分開預(yù)覽,也就需要兩個鏈接,一個目錄頁鏈接、一個內(nèi)容頁鏈接。
④關(guān)于替換,有通用替換和定制替換,這里目前不需要正則,普通替換就好,需要注意的是必須要輸入值,空格也行。刪除:選中整行,再按住delete鍵就行。內(nèi)置\n再作為替換數(shù)據(jù)的時候代表換行。
⑤編碼,目前只設(shè)置有GBK和UFT-8,差不多大多數(shù)網(wǎng)站就是這兩種編碼其中之一。
2、解析與下載
①解析請按解析地址2按鈕,1按鈕目前任性不想刪,后面要開發(fā)其他功能,
②支持單章節(jié)下載和全文下載。
③支持添加章節(jié)數(shù)【有的小說沒有章節(jié)數(shù)的時候就可以勾上】
④支持在線看,但是需要聯(lián)網(wǎng),此功能只是輔助,并非專業(yè)的看小說軟件。
⑤下載進度和總需時間顯示,內(nèi)置多線程。
其實只要.exe就行,規(guī)則全是自己添加,commonrule.xml里面是通用替換規(guī)則。網(wǎng)站規(guī)則在rule文件夾下。我這邊在里面放了兩個網(wǎng)站的規(guī)則,主要是測試的時候是用的。其他網(wǎng)站規(guī)則,大家可以自己添加,或者支持開發(fā)者也行。
修復(fù)第一章不能點擊的bug。
新增功能使之提取網(wǎng)頁鏈接的方式更加靈活。
數(shù)據(jù)采集軟件有哪些?數(shù)據(jù)采集軟件顧名思義是一款可以幫助用戶快速將想要的相關(guān)數(shù)據(jù)快速搜集整理的輔助工具。各行各業(yè)都需要進行數(shù)據(jù)的采集,淘寶需要采集買家的數(shù)據(jù)信息,互聯(lián)網(wǎng)也需要才采集用戶的信息,現(xiàn)在是大數(shù)
關(guān)于騰牛 | 聯(lián)系方式 | 發(fā)展歷程 | 版權(quán)聲明 | 下載幫助(?) | 廣告聯(lián)系 | 網(wǎng)站地圖 | 友情鏈接
Copyright 2005-2022 QQTN.com 【騰牛網(wǎng)】 版權(quán)所有 鄂ICP備2022005668號-1 | 鄂公網(wǎng)安備 42011102000260號
聲明:本站非騰訊QQ官方網(wǎng)站 所有軟件和文章來自互聯(lián)網(wǎng) 如有異議 請與本站聯(lián)系 本站為非贏利性網(wǎng)站 不接受任何贊助和廣告