スナックelve 本店

バツイチ40代女の日記です

タグ付した記事の確認

カテゴリページからタグを取得して一覧にします(URLダブりあり。はてな記法
各カテゴリページの1ページ目だけ対応。
Headless Chromeで動かしてみました。
参考:Windows環境でSeleniumからHeadless Chromeを動かしてみた | Developers.IO

#よくわかってない
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options

from bs4 import BeautifulSoup

import urllib.parse
options = Options()
options.binary_location = 'C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe'
options.add_argument('--headless')

#タグをゲットするカテゴリ
setTags=['C#','Excel','JavaScript','jQuery','Outlook','php','PowerPoint','python3','vba','Word','FC東京']
with open(r"C:\Users\user\Documents\tagLog.txt", mode='w') as f:
    f.write("|*No|*Tag|*Entry|\n")
    #ログイン画面設定フラグ
    loginFig=False
    #タグ設定画面初回フラグ
    fastTaguSet=False
    #chrome開くよ
    with webdriver.Chrome(options=options) as driver:
        #よくわかってない
        wait = WebDriverWait(driver, 10)
        i=1
        for setTag in setTags:
            #カテゴリページのURL
            driver.get("https://elve.hatenadiary.jp/archive/category/" + urllib.parse.quote(setTag))
            print("==="+setTag+"===")
            WebDriverWait(driver, 15).until(EC.presence_of_all_elements_located)#読み込み待ち

            #記事の一覧画面
            html = driver.page_source.encode('utf-8')
            #解析用
            soup = BeautifulSoup(html, 'lxml')
            entrys=soup.find_all("section", class_="archive-entry test-archive-entry autopagerize_page_element")
            for entry in entrys:
                URL=entry.find("a", class_="entry-title-link")
                tag = entry.find("div", class_="archive-entry-tag-label")
                if tag!=None:
                    f.write("|" + str(i) + "|#"+setTag+"|"+"[" + URL["href"] + ":title]|\n")
                i+=1

出力結果(記事重複あり)

各タグでちょっと邪魔な感じになってると思います。すみませんすみません(-_-;)

No Tag Entry
1 #C# はてなブログのソースから文字列検索。はてなブックマークから文字列検索。 - スナックelve 本店
2 #C# あるフォルダにあるフォント名の一覧をファイルに出力 - スナックelve 本店
3 #Excel MicrosoftOffice2010 英語版を日本語にする - スナックelve 本店
4 #Excel 今日やったこと:マクロでエクセルのグラフの書式を変更する(不完全) - スナックelve 本店
5 #Excel オートフィルターかけた後のデータ数(行数)を数えようとするとハマるよね - スナックelve 本店
6 #Excel またお前(文字コード)か!! - スナックelve 本店
7 #Excel あれとこれを数えたいの・・・ - スナックelve 本店
8 #Excel フィルターで抽出後データがないとき - スナックelve 本店
9 #Excel 書類を受け入れた人を複数の名簿の中から見つけてチェックして欲しい、と言われて・・・。 - スナックelve 本店
10 #Excel 年と月を指定して各週の月曜日と金曜日を求める - スナックelve 本店
11 #Excel 数式を文字列として入力したい - スナックelve 本店
12 #Excel 行をシマシマにする。グループごとにシマシマにする。 - スナックelve 本店
13 #Excel マクロで隣のセルの内容によってリストの内容を変化させたい - スナックelve 本店
14 #Excel 隣のセルの内容によってリストの内容を変化させたい - スナックelve 本店
15 #Excel サブの予定表やら共有の予定表やらから予定や会議開催通知を作る - スナックelve 本店
16 #Excel 一日の予定から会議開催通知出す - スナックelve 本店
17 #Excel カレンダーの長さ - スナックelve 本店
18 #Excel フォルダごとのファイルを数えたい年頃ってあるだろ? - スナックelve 本店
19 #Excel No.2521 ユーザーフォームでラベルのテキストが上下中央に行かない問題 - スナックelve 本店
20 #Excel No.1530 条件に一致するファイルの一覧を出力 その3 - スナックelve 本店
21 #Excel No.1529 条件に一致するファイルの一覧を出力 その2 - スナックelve 本店
22 #Excel No.1528 条件に一致するファイル一覧を出力 その1 - スナックelve 本店
23 #JavaScript 関数分けの話 - スナックelve 本店
24 #JavaScript SimpleModal 20200926現在の概要 - スナックelve 本店
25 #JavaScript 関数を分けるとthisが変わっちゃう? - スナックelve 本店
26 #JavaScript はてなでCookieを使って、モーダルウィンドウの年齢認証を作成する方法 - スナックelve 本店
27 #jQuery 関数分けの話 - スナックelve 本店
28 #jQuery SimpleModal 20200926現在の概要 - スナックelve 本店
29 #jQuery はてなでCookieを使って、モーダルウィンドウの年齢認証を作成する方法 - スナックelve 本店
30 #Outlook MicrosoftOffice2010 英語版を日本語にする - スナックelve 本店
31 #Outlook Windows10でOutlook2010を起動して、初期設定キャンセルしたら起動しなくなった時 - スナックelve 本店
32 #Outlook 共有メールの受信ボックスのメールのリストを取得する - スナックelve 本店
33 #Outlook サブの予定表やら共有の予定表やらから予定や会議開催通知を作る - スナックelve 本店
34 #Outlook 一日の予定から会議開催通知出す - スナックelve 本店
35 #php はてなブログの過去記事500件取得するよ - スナックelve 本店
36 #PowerPoint MicrosoftOffice2010 英語版を日本語にする - スナックelve 本店
37 #PowerPoint パワーポイントで波線 ずれる時はWordで作ろう!! - スナックelve 本店
38 #python3 はてなブログのカテゴリをタグにする - スナックelve 本店
39 #python3 最新20件の記事のカテゴリをタグに設定する - スナックelve 本店
40 #python3 最初の一歩 - スナックelve 本店
41 #python3 ネガティブなことを呟いてるのはいつだ!? - スナックelve 本店
42 #python3 全ツイートログから抽出してcsvに保存 - スナックelve 本店
43 #python3 まだやる過去ログリスト作成w - スナックelve 本店
44 #python3 pandasでソートしてみた - スナックelve 本店
45 #python3 被はてブのリスト出力 - スナックelve 本店
46 #python3 ツイート用過去記事のタイトルとURLの一覧出力 - スナックelve 本店
47 #python3 そうだ、過去記事をツイートさせよう - スナックelve 本店
48 #python3 3日はてブ Unicode 文字対応 - スナックelve 本店
49 #python3 エポック秒(文字列)を日時に変換できない(;´Д`)[追記]できた!! - スナックelve 本店
50 #python3 やりたいことはできなかった - スナックelve 本店
51 #python3 DM取得、その前に - スナックelve 本店
52 #python3 ツイートしたり取得したり - スナックelve 本店
53 #python3 アプリ普通にありそうだけどあえて - スナックelve 本店
54 #python3 ブコメ一覧出力プログラム - スナックelve 本店
55 #python3 フォルダごとのファイル数、Python3で数えようぜー - スナックelve 本店
56 #python3 python3ではてなapiをいじる - スナックelve 本店
57 #python3 長谷川健太っぽくなってきた東京 - スナックelve 本店
58 #python3 三日はてブ移植 - スナックelve 本店
59 #python3 No.2511 はてなブログの記事の数を数える(by bg4kids)/はてダの記事も - スナックelve 本店
60 #python3 No.2505 とうとうギフハブに手を出してしまうのか・・・ - スナックelve 本店
61 #python3 No.2504 はてなダイアリの記事の数を数える - スナックelve 本店
62 #python3 罠www - スナックelve 本店
63 #python3 はてなダイアリの記事の数を数えたい! beautifulsoupを使えるまで(;´Д`) - スナックelve 本店
64 #vba 今日やったこと:マクロでエクセルのグラフの書式を変更する(不完全) - スナックelve 本店
65 #vba あるフォルダにあるフォント名の一覧をファイルに出力 - スナックelve 本店
66 #vba 共有メールの受信ボックスのメールのリストを取得する - スナックelve 本店
67 #vba オートフィルターかけた後のデータ数(行数)を数えようとするとハマるよね - スナックelve 本店
68 #vba あれとこれを数えたいの・・・ - スナックelve 本店
69 #vba フィルターで抽出後データがないとき - スナックelve 本店
70 #vba お勉強中 - スナックelve 本店
71 #vba マクロで隣のセルの内容によってリストの内容を変化させたい - スナックelve 本店
72 #vba サブの予定表やら共有の予定表やらから予定や会議開催通知を作る - スナックelve 本店
73 #vba Outlookで選択したメールの添付ファイル(エクセル)を印刷するマクロ(アラートなし) - スナックelve 本店
74 #vba フォルダごとのファイルを数えたい年頃ってあるだろ? - スナックelve 本店
75 #vba No.2521 ユーザーフォームでラベルのテキストが上下中央に行かない問題 - スナックelve 本店
76 #vba No.1530 条件に一致するファイルの一覧を出力 その3 - スナックelve 本店
77 #vba No.1529 条件に一致するファイルの一覧を出力 その2 - スナックelve 本店
78 #vba No.1528 条件に一致するファイル一覧を出力 その1 - スナックelve 本店
79 #Word MicrosoftOffice2010 英語版を日本語にする - スナックelve 本店
80 #Word パワーポイントで波線 ずれる時はWordで作ろう!! - スナックelve 本店
81 #FC東京 なんと川崎に勝っていた!! - スナックelve 本店
82 #FC東京 おやつは何でも大好きです - スナックelve 本店
83 #FC東京 ラッキーだったね(;´Д`) - スナックelve 本店
84 #FC東京 悔しいのぅ悔しいのぅ - スナックelve 本店
85 #FC東京 うちが「選手を休ませる」とか器用なことできるようになるとは - スナックelve 本店
86 #FC東京 ホームで負けた夜に - スナックelve 本店
87 #FC東京 完勝です!! - スナックelve 本店
88 #FC東京 ヒロシま……。 - スナックelve 本店
89 #FC東京 名古屋戦 辛勝 - スナックelve 本店
90 #FC東京 室屋くんがドイツに行くっていうんです・・・(決定) - スナックelve 本店
91 #FC東京 勝てねーなwwww ( ノД`)シクシク… - スナックelve 本店
92 #FC東京 抱けない枕 - スナックelve 本店
93 #FC東京 この勝ち点に多分後で泣く - スナックelve 本店
94 #FC東京 なぜそこで追いつかれるのか・・・(鹿島戦) - スナックelve 本店
95 #FC東京 きー!! 札幌ドーム!! 勝てないな!! - スナックelve 本店
96 #FC東京 味スタでは16年ぶりの勝利・・・って俺が観始めて初勝利か - スナックelve 本店
97 #FC東京 4点取られた悲しみは4点取らないといやせない - スナックelve 本店
98 #FC東京 再開だよJリーグ!! - スナックelve 本店
99 #FC東京 東京が優勝に近かった夏 - スナックelve 本店
100 #FC東京 だめだダメだと言いながら最後の試合に希望を託す - スナックelve 本店
101 #FC東京 ちょwww おまwwwww - スナックelve 本店
102 #FC東京 そこは勝っておいてよ〜 - スナックelve 本店
103 #FC東京 首位東京!! - スナックelve 本店
104 #FC東京 さらにサッカー観戦を薦めてみる - スナックelve 本店
105 #FC東京 突然サッカー観戦を勧めてみる - スナックelve 本店
106 #FC東京 平成は首位で終える - スナックelve 本店
107 #FC東京 ホーム最終戦終了 - スナックelve 本店
108 #FC東京 ビックリするねぇ - スナックelve 本店
109 #FC東京 ヒロシは遠くになりにけり - スナックelve 本店
110 #FC東京 こーすけぇぇぇぇ(枯れた黄色い声) - スナックelve 本店

グリーンスター100個!ヾ(o´∀`o)ノワァーィ♪wwwww