ブログを統合したいのであれコレ・・・

追記

・どっかで/entry/が抜けたらしくところどころリンクが死んでる。
・スナックエルベで過去の記事にリンクしてるのが死んでる（？）
なんかとにかくうまくいっていないようだがまーいいか(^_^;)

始まり

吾輩のブログがゴチャッてるのである*1
f:id:elve:20220117210210p:plain

いつかプロを引退する日も来るであろうから少しまとめておきたい。画像はフォトライフなのでこのままでＯＫ。
性懲りもなくTypescriptとかに挑戦しようと思ったが、サーバーサイドでやることなどない！！　ので、秀丸とPythonに頑張ってもらいました。

追記
始まり
習作
方向転換
エクスポート
重複記事の抽出
重複記事削除
ブクマページ追加
参考

習作

# URLを開いて記事タイトル、時間取得
# 元ページのブコメ数取得 https://bookmark.hatenaapis.com/count/entry?url=URL
# エクスポートから該当記事の先頭取得（BODY:）
# CATEGORY: はてなダイアリ時代：
# CATEGORY: はてなブログhttp時代：
# カテゴリ↑追加：秀丸で済
# 元ページのブコメが有れば https://b.hatena.ne.jp/entry/s/URL　へのリンクを貼る
# 次のページがでなくなるまで繰り返す

みたいなことを最初考えてて途中まで作って、エクスポートのファイルだけで行けるわ、と方向転換

from numpy import append
import requests
import bs4
import json
myUrl = 'https://elve.hatenadiary.jp/'
bUrl = 'https://bookmark.hatenaapis.com/count/entry'
res = requests.get(myUrl)
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, 'html.parser')
entries = soup.select('article')
eTitles = []
eTimes = []
eUrls = []
eUrls2 = []
eBkC = []
eBkC2 = []
for e in entries:
    # 記事タイトル
    eTitles.append(e.h1.a.string)
    # 投稿時間
    eTimes.append(e.find_all('span',  {
                  'class': 'entry-footer-time'})[0].contents[0].contents[0].get('datetime'))

    # 記事URL
    str = e.find_all(
        'span',  {'class': 'entry-footer-time'})[0].contents[0].get('href')
    eUrls.append(str)
    # 記事ID部分
    eUrls2.append(str[len(myUrl+'entry/'):])

    # ブクマ数
    param = '?url=' + \
        e.find_all('span',  {'class': 'entry-footer-time'}
                   )[0].contents[0].get('href')
    res = json.loads(requests.get(bUrl + param).text)
    eBkC.append(res)

    param = '?url=' + \
        'http://d.hatena.ne.jp/elve/'+str[len(myUrl+'entry/'):]
    res = json.loads(requests.get(bUrl + param).text)
    eBkC2.append(res)
print(eTitles)
print(eTimes)
print(eUrls)
print(eUrls2)
print(eBkC)
print(eBkC2)

方向転換

ヘッダ部分のBASENAMEの文字列をhttps://elve.hatenadiary.jp/entry/にくっつけたところにインポートされる。

--------
AUTHOR: elve
TITLE: No.1500　生後40年パワー
BASENAME: 2018/02/21/234751
STATUS: Publish
ALLOW COMMENTS: 1
CONVERT BREAKS: 0
DATE: 02/21/2018 23:47:51
CATEGORY: 日記
CATEGORY: はてなブログhttp時代
-----

d.hatena.ne.jp/elveをhttps://elve.hatenadiary.jp/entryに置換（秀丸）
過去ブログ2つの記事をエクスポート
重複記事の抽出
重複記事削除
ブクマついてたら統合前のブコメページ挿入
いんぽーつ！

というわけで上記手順を踏んでインポートしたはずである。*2

エクスポート

設定→詳細設定のイッチャン下までスクロールして1行さらっとリンクされている。

私の場合↓なので青をはてなID、赤を対象ブログのURLにすれば行けると思われる。
https://blog.hatena.ne.jp/elve/elve.hatenadiary.jp/export/movable_type

重複記事の抽出

コレ最初に両方の出力出して比較してみたが日付めちゃくちゃでようわからんので、とりあえずだめし側の同じタイトルの記事を消すことにしました。
タイトルだけ出力すればよかったのに余計なものまで出力してます。

from numpy import append
import requests
import json
import re
bassPath = 'C:\\python\\はてな記事移行\\'
myUrl = ['elveさん抜きで.txt', 'だめし.txt']

with open(bassPath + myUrl[0], encoding='utf-8') as f:
    lines = f.readlines()

myTitles1 = []
myBaseName1 = []
myDates1 = []

for i in range(0, len(lines)):
    if lines[i][0:6] == 'TITLE:':
        myTitles1.append(lines[i][7:])
    if lines[i][0:9] == 'BASENAME:':
        myBaseName1.append(lines[i][10:])
    if lines[i][0:5] == 'DATE:':
        myDates1.append(lines[i][6:])

with open(bassPath + myUrl[1], encoding='utf-8') as f:
    lines = f.readlines()

myTitles2 = []
myBaseName2 = []
myDates2 = []

for i in range(0, len(lines)):
    if lines[i][0:6] == 'TITLE:':
        myTitles2.append(lines[i][7:])
    if lines[i][0:9] == 'BASENAME:':
        myBaseName2.append(lines[i][10:])
    if lines[i][0:5] == 'DATE:':
        myDates2.append(lines[i][6:])

sameEntry = []

for mt1 in myTitles1:
    for mt2 in myTitles2:
        if mt1 == mt2:
            i = myTitles2.index(mt2)
            str='TITLE: '+mt2+'\tBASENAME: '+myBaseName2[i]+'\tDATE: '+myDates2[i]
            sameEntry.append(str.replace('\n','')+'\n')
with open(bassPath + '重複情報2.txt', 'a', encoding='utf-8') as f:
    f.writelines(sameEntry)

重複記事削除

↑でできたファイル使って該当entry削除

from numpy import append
import requests
import json
import re
with open("C:\\python\\はてな記事移行\\だめし.txt", encoding='utf-8') as f:
    base = f.readlines()
with open("C:\\python\\はてな記事移行\\重複情報2.txt", encoding='utf-8') as f:
    delen = f.readlines()
def getEndEntry(i):
    for l in range(i,len(base)):
        if base[l]=='AUTHOR: elve\n':
            return l-1


for d in delen :
    tmp=d.replace('\t','\n\t')
    searchStr=tmp.split('\t')
    if searchStr[0] in base:
        i=base.index(searchStr[0])
        s=i-1
        e=getEndEntry(i)
        del base[s:e]

with open("C:\\python\\はてな記事移行\\だめし重複削除.txt", 'w', encoding='utf-8') as f:
    f.writelines(base)

ブクマページ追加

# エクスポートファイルを開く
# BASENAMEを読み込んでブクマがあるかチェック
# 元ページのブコメ数取得 https://bookmark.hatenaapis.com/count/entry?url=URL
# 有ればBODY:の下に
# 以前のブクマページ[https://b.hatena.ne.jp/entry/s/URL]
# を追加


from numpy import append
import requests
import json
import re
bkUrl = 'https://bookmark.hatenaapis.com/count/entry'
bkCPage='https://b.hatena.ne.jp/entry/s/'
bassPath = 'C:\\python\\はてな記事移行\\'
myUrl = ['elveさん抜きで.txt', 'だめし重複削除.txt']
bassUrl = ['https://elve.hatenadiary.jp/entry/', 'http://elve.hateblo.jp/entry/']
PageaddFlug = False
for u in myUrl:
    with open(bassPath + u, encoding='utf-8') as f:
        lines = f.readlines()

    for i in range(0, len(lines)):
        if lines[i][0:9] == 'BASENAME:':
            # 記事URL
            eUrl = bassUrl[myUrl.index(u)] + lines[i][10:]
            # ブクマ数
            param = '?url=' + eUrl.replace('\n', '')
            res = json.loads(requests.get(bkUrl + param).text)
            if res > 0:
                # BODYに記事追加
                addFlug = True
            else:
                addFlug = False
        if lines[i] == "BODY:\n":
            if addFlug:
                bStr = '移動前ブクマページ: ['+ bkCPage+ re.sub('http.*//','',eUrl.replace('\n', '')) + "]\n"
                lines.insert(i+1, bStr)
                addFlug = False
                i = i+1
    with open(bassPath + 'new_' + u, 'w', encoding='utf-8') as f:
        f.writelines(lines)