欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Java怎么實現(xiàn)利用搜索引擎收集網(wǎng)址的程序

這篇文章主要介紹Java怎么實現(xiàn)利用搜索引擎收集網(wǎng)址的程序,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

創(chuàng)新互聯(lián)擁有十年成都網(wǎng)站建設(shè)工作經(jīng)驗,為各大企業(yè)提供做網(wǎng)站、成都網(wǎng)站建設(shè)服務(wù),對于網(wǎng)頁設(shè)計、PC網(wǎng)站建設(shè)(電腦版網(wǎng)站建設(shè))、成都app軟件開發(fā)公司、wap網(wǎng)站建設(shè)(手機版網(wǎng)站建設(shè))、程序開發(fā)、網(wǎng)站優(yōu)化(SEO優(yōu)化)、微網(wǎng)站、域名與空間等,憑借多年來在互聯(lián)網(wǎng)的打拼,我們在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)積累了很多網(wǎng)站制作、網(wǎng)站設(shè)計、網(wǎng)絡(luò)營銷經(jīng)驗,集策劃、開發(fā)、設(shè)計、營銷、管理等網(wǎng)站化運作于一體,具備承接各種規(guī)模類型的網(wǎng)站建設(shè)項目的能力。

要利用google、百度搜索引擎的搜索規(guī)則中的兩條,關(guān)鍵字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的網(wǎng)址中本身帶有的關(guān)鍵字,比如http://www.xxx.com/post.asp ,這個網(wǎng)址就含有post.asp這樣的關(guān)鍵字,在搜索引擎中填寫規(guī)則是 inurl:post.asp,這是收集網(wǎng)址的關(guān)鍵,因為很多網(wǎng)址本身會帶有特定的信息,比如軟件發(fā)布的網(wǎng)頁網(wǎng)址信息中多含有 publish、submit、tuijian這樣的信息,如http://www.xxx.com/publish.asp,這樣的網(wǎng)址多是發(fā)布信息的網(wǎng)頁,在結(jié)合網(wǎng)頁中本身可能含有的關(guān)鍵字,就可以用搜索引擎搜索出結(jié)果,然后我們利用程序?qū)⒔Y(jié)果取回,對HTML頁面進行分析,去除沒有用的信息,將有用的網(wǎng)址信息寫入文件或者數(shù)據(jù)庫,就可以給其它應(yīng)用程序或者人來使用了。

第一步,用程序?qū)⑺阉鹘Y(jié)果取回,先以百度為例,比如我們要搜索軟件發(fā)布的網(wǎng)頁,關(guān)鍵字采用 “軟件發(fā)布 版本 inurl:publish.asp",先登錄百度看看,將關(guān)鍵字寫入,然后提交,在地址欄就會看到 http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關(guān)鍵字全都變成編碼了,沒有關(guān)系,我們在程序中直接用中文也是可以的,其中多個關(guān)鍵字用+號相連,去掉一些沒有用的信息,我們可以把地址優(yōu)化成 http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一頁顯示多少個結(jié)果,wd=表示你要搜索的關(guān)鍵字,pn表示從第幾條開始顯示,這個pn將是我們程序循環(huán)取結(jié)果的變量,每20條循環(huán)一次。我們用Java寫的程序來模擬這個搜索的過程,用到的關(guān)鍵類為 java.net.HttpURLConnection,java.net.URL,先寫一個提交搜索的class,關(guān)鍵代碼如下:

class Search
{
public URL url;
public HttpURLConnection http;
public java.io.InputStream urlstream;
......
for(int i=0;i++;i<100)
{
......
try {
 url = new URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
}catch(Exception ef){};
try {
 http = (HttpURLConnection) url.openConnection();
 http.connect();
 urlstream = http.getInputStream();
}catch(Exception ef){};
java.io.BufferedReader l_reader = new java.io.
BufferedReader(new java.io.InputStreamReader(urlstream));
try {
 while ((currentLine = l_reader.readLine()) != null) {
  totalstring += currentLine;
 }
} catch (IOException ex3) {}
....
//本次搜索的結(jié)果已經(jīng)放到totalstring中了,是一些HTML代碼,需要下一步進行分析了。
}
再以google為例,稍微有些不同,google對瀏覽器進行了一些檢測,編碼也不同,URL為http: //www.google.com/search?q=軟件發(fā)布+版本+inurl:publish.asp&hl=zh-CN&lr= &newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示,需要注意的是google對瀏覽器還要檢查,如果瀏覽器不符合它的要求,將返回錯誤代碼,所以在模擬瀏覽器提交中,我們要多加一行代碼,修改關(guān)鍵部分要將http屬性中的User-Agent設(shè)置為常用的瀏覽器,比如Mozilla/4.0,代碼如下:

try {
http = (HttpURLConnection) url.openConnection();
http.setRequestProperty("User-Agent", "Mozilla/4.0");
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};

第二步,對取回的HTML編碼進行分析,取出其中的有用網(wǎng)址信息,并寫入文件或者數(shù)據(jù)庫,由于這些搜索引擎都有網(wǎng)頁快照和相似網(wǎng)頁等網(wǎng)址信息混雜在HTML中,我們要將這些網(wǎng)址信息剔除掉,剔除的關(guān)鍵就是找出其中的規(guī)律,百度搜索引擎中的網(wǎng)頁快照和其它沒有用的的地址都含有baidu這個關(guān)鍵字,而google中含有的無用網(wǎng)址信息含有關(guān)鍵字 google和cache,我們就根據(jù)這些關(guān)鍵字剔除無用網(wǎng)址信息。在Java中要對字符串進行分析必然要用到 java.util.StringTokenize這個類,用來將字符串以特定的分隔符分開,java.util.regex.Pattern和 java.util.regex.Matcher用來匹配字符串,關(guān)鍵代碼如下:

class CompareStr
{
public boolean comparestring(String oristring,String tostring)
{
Pattern p=null; //正則表達式
Matcher m=null; //操作的字符串
boolean b;
p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
m = p.matcher(tostring);
b = m.find();
return b;
}
}

class AnalyUrl
{
......
StringTokenizer token = new StringTokenizer(totalstring," <> "");
String firstword;
CompareStrcompstr = new CompareStr();
String dsturl = null;
while (token.hasMoreTokens())
{
firstword = token.nextToken();
if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
{
 if (firstword.length() > 7)
 {
  dsturl = firstword.substring(6,firstword.length() - 1);
  WriteUrl(dsturl); //成功取到URL,記錄到文件中
 }
}
}
}
通過以上程序,我們就可以收集到自己要的網(wǎng)址信息了,還可以再寫另外一個應(yīng)用程序,對收集到的網(wǎng)址信息進一步分析,取出自己需要的信息,這里就不再累贅,道理都是一樣的。最后需說明一點,google搜索引擎搜索所能返回的結(jié)果不能超過1000條,過了1000條,就直接提示“對不起, Google 為所有查詢的結(jié)果數(shù)都不會超過 1000 個。”,百度搜索引擎返回的結(jié)果不能超過700多條,所以我們要搜索時盡可能多加關(guān)鍵字,將結(jié)果范圍縮小。

以上是“Java怎么實現(xiàn)利用搜索引擎收集網(wǎng)址的程序”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

網(wǎng)頁標題:Java怎么實現(xiàn)利用搜索引擎收集網(wǎng)址的程序
路徑分享:http://www.aaarwkj.com/article24/pchgce.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設(shè)計、App開發(fā)、網(wǎng)站建設(shè)、移動網(wǎng)站建設(shè)外貿(mào)網(wǎng)站建設(shè)、做網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站
成人精品淫片一级免费| 亚洲成人日韩成人av| 亚洲成人有码在线观看| 亚洲一二三无人区是什么| 天天操时时操夜夜操| 欧美日韩男女性生活视频| 国内久久婷婷综合五月趴| 在线观看免费国产不卡| 欧美老熟妇子乱视频在线| 国产一区国产二区中文字幕| 台湾三级一区二区三区| 欧美一区二区日韩一区二区| 最新日本人妻中文字幕| 久久香蕉香蕉公开视频| 日本不卡的三区四区五区| 精品女同一区二区三区网站| 精品久久久久久久久极品| 国产精品成人亚洲一区二区| 国产999精品免费国产| 亚洲精品午夜久久久av| 色综合久久天天射天天干| 国产精品久久午夜伦鲁鲁| 人妻中文字幕在线av| 日本人妻久久中文字幕精品| 中文字幕人妻紧贴拍摄| 久久久精品免费福利视频| 粗长挺进新婚人妻诗岚| 青青草原一区在线观看| 播放欧美日韩特黄大片| 欧美大片高清在线观看| 久久久久久精品国产毛片| 久久久久久国产精品亚洲| 亚洲天堂,男人的天堂| 一区二区欧美日韩91| 97免费在线视频观看| 熟女一区二区三区免费视频| 激情五月天色婷婷久久| 欧美两性色一区二区三区| 丰满人妻视频一二三区| 中文字幕日韩欧美一区| 三级久久三级久久三级|