2021年3月31日 星期三

Python - BeautifulSoup 基本應用 (1)

BeautifulSoup

紀錄下 Python 網頁爬蟲大部分會用到的 BeautifulSoup。BeautifulSoup 本質上就是 parser,知道這點後其 function 和 parameter 的使用就能得心應手。
  • Install
    這裡紀錄使用 pip 安裝
        pip install beautifulsoup4
        pip install lxml # 非必要
  • Import
    第一行的 import 就可以包含 99%,第二行則是此篇會用的 import,多了 2 個說明用的 object。
        from bs4 import BeautifulSoup
        from bs4 import BeautifulSoup, NavigableString, Comment
  • Load html
    此篇會用第一行來 make soup
        soup = BeautifulSoup("<html>a web page</html>", features="html.parser")
        soup = BeautifulSoup("<html>a web page</html>", features="lxml") # 如果你有安裝的話

Tag object

Tag object 對應到的就是 XML 跟 HTML 裡的 Tag。
這裡可以從 soup object 下 2 個 Tag 開始,一個是 b 一個是 p。
    """ html
    <b class="boldest" id="bold man">
        <u>Extremely bold</u>
    </b>
    <p>Just a paragraph</p>
    """
    soup = BeautifulSoup(html, 'html.parser')
    print(type(soup))   # <class 'bs4.BeautifulSoup'>
    print(soup.b)       # <b class="boldest" id="bold man"><u>Extremely bold</u></b>
    print(soup.p)       # <p>Just a paragraph</p>

    # Tag 有兩個基礎參數 name 跟 attrs
    tag = soup.b
    print(type(tag))    # <class 'bs4.element.Tag'>
    print(tag.name)     # b
    print(tag.attrs)    # {'class': ['boldest'], 'id': 'bold man'}

    # name 跟 attrs 都可以直接修改
    tag.name = "d"
    tag.attrs = {'class': ['boldest', 'cutest'], 'id': 'pui pui'}
    print(str(tag))     # <d class="boldest cutest" id="pui pui"><u>Extremely bold</u></d>
Tag 的 child Tag 可以像 class 的 element 一樣直接呼叫 (上面的 soup.b 和 soup.p 也是一種呼叫 child Tag)
    print(str(tag.u))   # <u>Extremely bold</u>
    print(tag['class']) # ['boldest', 'cutest']
    print(tag['id'])    # pui pui
Tag 的 attr 也可以修改和刪除
tag['class'] = ['car']
del tag['id']
print(str(tag))     # <d class="boldest cutest"><u>Extremely bold</u></d>
P.S. HTML 裡的 class 是可以允許多參數的,所以上述的例子裡 class 是 string list,而非 string

NavigableString object

NavigableString 就等於 Tag 裡的 string,可以使用 replace_with 做修改。
    tag.u.string.replace_with("No longer bold.")
    print(type(tag.u.string)) # <class 'bs4.element.NavigableString'>
    print(str(tag.u.string))  # No longer bold.

BeautifulSoup object

其實一開始就有示範了,可以把他想像成沒有 name 和 attributes 的 Tag。但有時候你在 load 真正的 html 檔,他的 name 可能會是 "[document]"。
    print(str(soup))
    # <d class="car"><u>No longer bold.</u></d><p>123</p>
    print(soup.prettify())
    # <d class="car">
    #  <u>
    #   No longer bold.
    #  </u>
    # </d>
    # <p>
    #  123
    # </p>
參考資料 :
1.Beautiful Soup 4.9.0 documentation

2021年3月26日 星期五

Python - sys, os.path 常見的 module 應用

Common python module - sys

  • sys parameter
    一些常見系統參數
        import sys
        print(sys.platform) # linux
  • sys.argv
    像 c/c++ 的 argv 一樣,可以吃從 command line 傳入的參數。
        # test.py 123 456 789
        print (argv)    # ['test.py', '123', '456', '789']
        print (argv[1]) # 123
  • sys.path
    import 時的 search list,可以也透過改變(增加, 刪除, 更改順序) list 來在想要的位置 import。除了 built-in 的 lodule,其他額外安裝的 module 都可以用這個順序做調整。以下例子就等於會先去找 tool/ 底下的 module,找不到才會找 local/lib/python3.X/site-packages 或 local/lib/python3.X/dist-packages
        print (sys.path)            # [......]
        sys.path.insert(0, "tool/") # ['tool/',......] 
        import markdown             # 已安裝 markdown,但 import 的卻是 tool 底下的
        print(markdown.__file__)    # tool/markdown.py

Common python module - os

  • os.function
    一些常用的 os.function
        import os
        os.system(command)  # 執行 command , command 為系統指令的字串。
        os.getcwd()         # 取得目前所在路徑。
        os.rename(src, dst) # 將 src 改名為 dst 。
        os.mkdir(path)      # 建立 path 路徑,如果已存在就會發起例外。
        os.remove(path)     # 移除 path ,如果 path 是目錄就會發起例外。
        os.rmdir(path)      # 刪除 path 目錄。
  • os.path (1)
    檢查檔案目錄。
        import os
        os.path.isfile(path)            # 判斷 path 檔案是否存在。
        os.path.isdir(path)             # 判斷 path 路徑是否存在。
  • os.path (2)
    os.path 路徑處理。
        import os
        path = "/home/JunYe/123.txt"
        os.path.dirname(path)  # 回傳 path 的目錄路徑。
        os.path.basename(path) # 回傳 path 的檔案名稱。
        os.path.split(path)    # 分割路徑為 (head, tail) ,其中 head 為目錄, tail 為檔案名稱。
        os.path.splitext(path) # 分割路徑為 (root, ext) ,其中 root 為目錄包括檔名, ext 為副檔名。
        print(os.path.dirname(path))  # /home/JunYe
        print(os.path.basename(path)) # 123.txt
        print(os.path.split(path))    # ('/home/JunYe', '123.txt')
        print(os.path.splitext(path)) # ('/home/JunYe/123', '.txt')
參考資料 :
1.sys — 你所不知道的 Python 標準函式庫用法 01
2.Python 速查手冊 - 12.5 基本檔案與目錄處理 os 與 os.path

2021年3月21日 星期日

英文 Mail - 催促

 英文催促信件範本

    記錄下一些常用句型。井字號後之內容純屬虛構,如有雷同...你 Bad!!
# 跟他打招呼
Hello, JunYe. 

# 靠夭他
Do you have any updates about the project that we discussed in the last weekly meeting ?

# 假裝很關心 + 會幫忙
If you have any further queries, please do not hesitate to contact me.

# 假惺惺提醒要加快腳步
You can consider checking your schedule to make sure progress of the project is hitting the target.

# 給截止時間
We would be grateful if the job can be finished by 30th June.

# 輕輕施加壓力的結尾
Your early reply will be much highly appeciated.
參考資料 :

Popular Posts