風(fēng)越批量文本提取網(wǎng)頁(yè)采集器是一款很實(shí)用的網(wǎng)頁(yè)采集軟件,可以批量提取HTML/DOC/RTF/TXT等文件中的文本信息。
批量提取HTML/DOC/RTF/TXT等文件中的文本信息。
支持從其它網(wǎng)站直接提取文本內(nèi)容,生成所需數(shù)據(jù)庫(kù)文件
支持GB2312/UTF-8多種編碼
可將提取信息生成文本文件、HTM網(wǎng)頁(yè)文件、MDB數(shù)據(jù)庫(kù)文件。
可設(shè)置提取文件的間隔,避免下載網(wǎng)頁(yè)過(guò)快,服務(wù)器不響應(yīng)
提供多種查找、獲取信息的方式
提取文件中全部email郵件地址
提取文件中全部互聯(lián)網(wǎng)址(無(wú)參數(shù))
提取文件中全部互聯(lián)網(wǎng)址(帶參數(shù))
提取HTML文件中body的文本內(nèi)容
提取HTML文件中title與body的文本內(nèi)容
提取HTML文件中textarea的文本內(nèi)容
提取HTML網(wǎng)頁(yè)的顯示文本內(nèi)容
提取DOC/RTF等文件中全部文本內(nèi)容
提取DOC/RTF等文件中全部文本內(nèi)容(自動(dòng)分析標(biāo)題)
并可自定義正則表達(dá)式獲取信息
增加提取種類