python如何提取網頁資訊,Python怎樣抓取當前頁面HTML內容?

2022-08-20 21:17:05 字數 2792 閱讀 6798

1樓:八爪魚大資料

page = urllib2.urlopen(url)contents = page.read()#獲得了整個網頁的內容也就是源**

print(contents)

2樓:匿名使用者

#不用第三方模組

from urllib import request

import re

url = '' # 你的**

req = request.request(url)

with request.urlopen(req,timeout=60) as htm:

htm = htm.read().decode('gbk',errors='ignore')

pat = re.compile(r'二氧化硫<.+?

>(\d.*?)<.

+?>(\d.*?

)<.+?>(\d.

*?)<.+?

>(\d.*?)<')

data = pat.search(htm)

for i in range(5):

print(data.group(i)) # 第 0 個是整體匹配字串,1-4才是所要的數字

3樓:陽光的雷咩咩

requests庫+ 正規表示式/dom庫/xpath庫等

python怎樣抓取當前頁面html內容?

4樓:匿名使用者

當然這樣子也是可以的,不過通用點的方法是用beautifulsoup庫去定位id=phonecodestatus

5樓:匿名使用者

就是這個思路,用正則

你這個是正確的,不過有一點就是要處理一下異常 不然沒有相應的內容會報錯

6樓:八爪魚大資料

python用做資料處理還是相當不錯的,如果你想要做爬蟲,python是很好的選擇,它有很多已經寫好的類包,只要呼叫,即可完成很多複雜的功能,此文中所有的功能都是基於beautifulsoup這個包。

1 pyhton獲取網頁的內容(也就是源**)

page = urllib2.urlopen(url)

contents = page.read()

#獲得了整個網頁的內容也就是源** print(contents)

url代表**,contents代表**所對應的源**,urllib2是需要用到的包,以上三句**就能獲得網頁的整個源**

2 獲取網頁中想要的內容(先要獲得網頁源**,再分析網頁源**,找所對應的標籤,然後提取出標籤中的內容)

如何用python解析一個網頁並提取其內容

7樓:匿名使用者

你可以用用現成的python模板:beautifulsoup。

或者最起碼你得了解python的正則,然後自己去用正則解析網頁。

8樓:匿名使用者

用程式模擬訪問網頁獲得網頁內容的話就用urllib和urllib2來模擬請求

若是要擷取網頁中的部分內容,那就先獲得全部html內容,然後直接用re根據html標籤來匹配分段,然後獲取

9樓:匿名使用者

urllib urllib2 re這些模組對你或許有幫助

python提取網頁標籤內容 10

10樓:匿名使用者

from bs4 import beautifulsouphtml = """

anderson, c. (2008). the end of theory:

 the data deluge makes the scientific method obsolete.

wired,

16, 07.

"""soup = beautifulsoup(html, 'html5lib')

print soup.find('cite').get_text()

11樓:旋轉的沉醉

用beautifulsoup這個外掛

如何用python抓取網頁特定內容

12樓:八爪魚大資料

python用做資料處理還是相當不錯的,如果你想要做爬蟲,python是很好的選擇,它有很多已經寫好的類包,只要呼叫,即可完成很多複雜的功能,此文中所有的功能都是基於beautifulsoup這個包。

1 pyhton獲取網頁的內容(也就是源**)

page = urllib2.urlopen(url)

contents = page.read()

#獲得了整個網頁的內容也就是源** print(contents)

url代表**,contents代表**所對應的源**,urllib2是需要用到的包,以上三句**就能獲得網頁的整個源**

2 獲取網頁中想要的內容(先要獲得網頁源**,再分析網頁源**,找所對應的標籤,然後提取出標籤中的內容)

13樓:匿名使用者

用urllib2讀取通過httpserver傳遞request,獲取html檔案。

用正規表示式規定那個**附近的格式內容,查詢整個html,找到**。

關鍵在於**html檔案並不規範,可能經常有變化導致失敗。

定時執行指令碼發現**變化就報告。

14樓:匿名使用者

這個需要借用**的api,自己去找找看,還有可以用解析網頁的模組自己抓取

python如何讀取網頁中的資料

就是屬於網頁抓取,可參考 如何用python,c 等語言去實現抓取靜態網頁 模擬登陸 裡面有邏輯解釋和 此處不能貼地址,可以通過google搜標題,即可找到帖子地址 不知道你說的網頁是指的什麼,如果你說的是我儲存了一網頁在你的電腦上,那就直接用open函式開啟,read函式讀就行了。如果你說的是某個...

如何執行Python程式的方法,如何執行Python程式

linux下 方法一 1python my.py 方法二 在my.py上加上檔案頭 12 usr bin env python.然後12chmod x my.py.my.py方法三 1234mkdir p mylibcp my.py mylibexport pythonpath mylibpytho...

Excel請問如何用VBA提取這個網頁上的開獎號碼

sub cc cells.clearcontents set odoc createobject htmlfile a1 c1 array 時間 開獎號碼 冠亞軍和 f1 1 5龍虎 可以提取,哪個網頁?excel 如何用vba提取網頁資料 1 首先開啟excel 2007工作表,點選想要把資料匯入...