スナックelve 本店

バツイチ派遣40代女性の日記です

pandasでソートしてみた

snack.elve.club

のソートつけたやつ。pandasってのであっという間だった!! しかし多分勿体ない使い方してる(;´Д`)

# -*- coding:utf-8 -*-
import urllib
import codecs
import requests
import json
from lxml import etree
import datetime as dt
import pandas as pd
 
def HtmlOutput(df):
    #ファイルを開く
    f = open('被はてブlist.html', 'wt')
    #最低限のタグ書き込み
    f.write('<html><body><table border="1" style="border-collapse: collapse">')
    #ヘッダ
    f.write('<tr><th>★</th><th>URL</th><th>ユーザー</th><th>日付</th><th>コメント</th>\n')
    #ノードごとに書き込む
    for index, b in df.iterrows():
        bUrl = urllib.parse.quote(b['url'])
       
        f.write('<tr>')

        #死んどる
        f.write('<td>')
        if b['star']==1:
            f.write('★')
        f.write('</td>')

        #書き出し
        try:
            f.write('<td><a href="http://b.hatena.ne.jp/entry/' + bUrl + '" target="_blank">' + b['url'] + '</a></td><td>' + \
            b['user'] + '</td><td>' + b['date'].strftime("%Y/%m/%d") + '</td><td>' + b['comment'] + '</td>')
        except:
            #絵文字があったらどうにかする(消える)
            s = '<td><a href="http://b.hatena.ne.jp/entry/' + bUrl + '" target="_blank">' + b['url'] + '</a></td><td>' + \
            b['user'] + '</td><td>' + b['date'].strftime("%Y/%m/%d") + '</td><td>' + b['comment'] + '</td>'
            b = s.encode('cp932', "ignore")
            f.write(b.decode('cp932'))
            
            
            
        f.write('</tr>\n')

    #後処理
    f.write('</table></body></html>')
    f.close()

#####死んどる#####
def  GetImgIndex(time, eid, user):
    #URL作成
    url = "http://b.hatena.ne.jp/entry/" + str(eid) + "/comment/"
    url = url + user
    url = urllib.parse.quote(url)
    headers = {'User-Agent': 'Sample Header'}
    r = requests.get("http://s.hatena.com/entry.json?uri=" + url, headers=headers).json()
    for st in r['entries']:
        for st2 in st['stars']:
            if st2['name'] == myId:
                return 1
    return 0
##########################################
#検索したいurl: 
myStr="https://snack.elve.club/"
#あなたのはてなID
myId = "elve"

#大元のURL読み込み(はてブをURLで検索した結果)rss表示
r = requests.get("http://b.hatena.ne.jp/search/text?safe=off&q=" + urllib.parse.quote(myStr) + "&users=1&mode=rss").text
r = r.encode('utf-8')
root = etree.fromstring(r)

#各記事のノードの束取得
links = root.findall(".//{http://purl.org/rss/1.0/}link")

#データ空に
bmInfos = []

#ノードごとに処理
for link in  links:
    if link != links[0]:
        #適当にヘッダ設定
        headers = {'User-Agent': 'Sample Header'}
        #各記事のブクマページ取得
        json = requests.get("http://b.hatena.ne.jp/entry/jsonlite/?url=" + link.text, headers=headers).json()
        try:
            #ブクマごとの処理
            for bm in json['bookmarks']:

                #タイムスタンプ               
                tdatetime = dt.datetime.strptime(bm['timestamp'], '%Y/%m/%d %H:%M')

                #スターなし(現在機能していない)|ブクマページURL|ユーザー名|日付|コメント
                bmInfo={"star":0,"url":json['url'],"user":bm['user'], "date":tdatetime,"comment":bm['comment']}

                #死んどる
                #bmInfo["star"] = GetImgIndex(tdatetime, json['eid'], bm['user'])

                #データ追加
                bmInfos.append(bmInfo)                
        except:
            #不穏な動き
            print("ERR!!")
            break
df = pd.DataFrame(bmInfos)
df = df.sort_values('date')

#データをHTMLに出力
HtmlOutput(df)
print("END")

「 for index, b in df.iterrows():」のindex忘れてまともに値とれなくて泣きそうになったw
出力はソートしただけなので省略

↑Top