また、AIもgoogle先生も解析不能なタイトルでAIによる文章生成話いきます。
私に興味ある人がクスリと笑えれば意味なんてどうでもええねん!!←
GTPも直さないよ!!(*´﹃`*)
前回のあれこれ
snack.elve.club
snack.elve.club
さて、前回は私のブログを1行ごとに別の話題として学習させました。
↓改行のところに<|endoftext|>を入れていますね。これが話題変わるサインらしい。
ので、1記事ごとに別の話題として学習してもらったらもうちょっとどうにかなるんじゃないか、という試みです。
結果から言うと変わりませんでした(爆)
はてなブログのエクスポート
さて、まずブログの記事からある程度HTMLタグを削除したいぞ、と。
あ、その前にエクスポートがめちゃわかりにくいんすよ、はてなブログ。
ダッシュボード→設定→詳細設定
下の方にスクロールしまくってようやく
です(;´Д`)
多分、はてなIDがXXXXだとしたら下のURLで。緑の部分は自分のURL(独自ドメイン設定前)にしてね。
https://blog.hatena.ne.jp/XXXX/XXXX.hatenadiary.jp/export/movable_type
カテゴリで記事削除
後、プログラム系の話題の記事は削除したいので~。んと~カテゴリで~えと~と試行錯誤。
あと、なんかよくわからないけどgoogle drive? に接続してそっちに保存するようにしました。消えちゃうんで。
はてなでダウンロードしたテキストをblogpost.txtってリネームしてGoogle Driveにアップロード。
ソース
#マウント from google.colab import drive drive.mount('./drive')
import re import unicodedata #なんか制御コード置換 def remove_control_characters(s): return "".join(ch for ch in s if unicodedata.category(ch)[0] != "C") #あれこれ置換(正規表現) def strset(outstr): outstr = re.sub('<blockquote[\s\S]*?</blockquote>?', '', outstr) outstr = re.sub('<pre[\s\S]*?</pre>?', '', outstr) outstr = re.sub('<table[\s\S]*?</table>?', '', outstr) outstr = re.sub('<img [^>]+>?', '', outstr) outstr = re.sub('<a [^>]+>([\s\S]*?)</a>?', '\\1', outstr) outstr = re.sub('<iframe [^>]+>[\s\S]*?</iframe>?', '', outstr) outstr = re.sub('<cite[\s\S]*?</cite>?', '', outstr) outstr = re.sub('<video[\s\S]*?</video>?', '', outstr) outstr = re.sub('<[^>]+?>([\s\S]*?)</[ -~]+>?', '\\1', outstr) outstr = re.sub('<br />', '\\n', outstr) outstr = re.sub('<[^>]+>?', '\\n', outstr) outstr = re.sub('^[ -~]*\\n', '', outstr) outstr = re.sub('\\n{2,}', '\\n', outstr) return outstr # 出力フラグ outFlg = False # 記事フラグ postFlg = True outstr = "" #読む f = open('/content/drive/My Drive/blogpost.txt', 'r', encoding="utf-8") t = f.read() f.close() #複数行に渡るタグを削除したい t = strset(t) #一旦書き込み(tmp.txt) with open('tmp.txt', mode='w+', encoding="utf-8") as f: f.write(t) #1行ごとに処理 with open('tmp.txt', encoding="utf-8") as f: for line in f: line = remove_control_characters(line) if line.startswith("COMMENT:"): # COMMENTは出力オフ outFlg = False elif line.startswith("AUTHOR:"): # ヘッダは出力オフ outFlg = False # 記事ON postFlg = True elif re.fullmatch('^CATEGORY: [C-Wptv].*', line): # このカテゴリは出力しない outFlg = False postFlg = False elif line == '-----': # 出力ON outFlg = True elif line == '--------': # 記事ON postFlg = True # 出力ON outFlg = True outstr = outstr + '\n話題変更\n' else: if postFlg & outFlg: if re.fullmatch('[ -~]+', line) == None: outstr = outstr + strset(line) + '\n' outstr = re.sub('&#x[0-9A-F]+;', '', outstr) outstr = re.sub('\\n{2,}', '\\n', outstr) outstr = re.sub('\n話題変更\n', '<|endoftext|>\\n', outstr) with open('/content/drive/My Drive/blogpostData.txt', mode='w+', encoding="utf-8") as f: f.write(outstr)
何も考えないで実行したんで、削除したカテゴリが
Excel/ Outlook/ vba/ Word/ Microsoft Office/ python3/ PowerPoint/ iPad Pro/ iPhone/ DQ11/ JavaScript/ jQuery/ C#/ wordpress/ MHW/ twitter/ php/ google/ FSO/ WSH
意図しないものも消えてます(;´Д`)
結果
blogpostData.txtの記事の切れ目はこんな感じになっています。
人間はきっとたくましいと信じてるよ・・・。生きよう。<|endoftext|>
今週のお題「叫びたい!」
で、まぁアレコレしていつもより多めに学習させたつもりだったんだけど、ここまでやって、学習後のファイルをGoogle Driveに保存し忘れて消えてしまったんだよね・・・(ノД`)ナェルシク
生成文章
見せてもらおうか、長文学習の成果を!!!
一緒に住むのはうちのマンション。ずっと暑くて北海道は出られないよーとか言ってる現実は崩れていません。室屋さんには入られてるみたいだけど窓が開けざまにやってきますでチャイムは何度か鳴らしてます。
入ってみると、随分とシンプルな部屋で一番低い位置にベッドがあります。これが千葉の街のお散歩? みたいな説明を受けた記憶があります。
20ン券でちょっと顔を出すといいらしいです。私は不忍池に惹かれてチョット待ちみたいです。
室屋くんは待機しててもうストーカーになってるわよ!!
相変わらず狭い部屋で散歩する僕らは暑い暑いとまくならない無様を晒してます。
やっぱり夏は必須アイテムなのかなぁ。福まではいかないけど、とりあえずいろはり1枚。
写真撮りまくるw 同じ場所で同じ商品切り取ってるw
室屋くんは待ち方を変に変えてて、回し車のキーボードを打ってる人を突き放してて、福間くんは耐えがたきを受けてる。
っぱらわが!! 室屋キムチである!!! 福間照会中!!! キャラが!!! だまらねば!!! 捕まえられれば!!! だまらねば!!! 捕まえて!!!
家にいる間は色々なアイテムからお好きなおやつを選んでくれる
室屋くんは元FC東京の選手です(ノД`)ナェルシク 名誉毀損で怒られかねません。福間くんはわからん。誰!?
どなた様でがっかりされてるのでしょうか?
人間関係の構築というのは面倒ですね。
たまにはおめでとうございます。仕事終わったぁーい!! と声をかけたらわかると思ったのですが・・・(;_;)
皆さま、いい子ですよね。私の知らない子。
マリ (id:mari1216)さんが薦めてくれたのでCD(?)を買いました。金が(家賃の光熱費など)かかっても去年サポートに送られてくるような袋なのですが、難なく回収してしまう、たいらしいのがかわいい!!!
袋の裏にでもメモしておけば、カード情報は入ってはこないのです。ブランドマーク出てきません・・・w
amazon Echo 器 (id:AzuLitchi) ブランドカード スピーカー LCD 表示器 薄い 心胸式 チャコールD.wdk-13発売日: 2013/10/07メディア: エレクトロニクス
ダリBella クリスタル コイン津々98g×3枚=128ーハイブリック×786円楽天で詳細を見る【3】クリスタル クリスタル コイン津々98g×3枚=128ーハイブリック×786円 だようなしいたん型のはるかへりかく
bit.y〜とかhyde.とか言ってた気
お前にがっかりしてるよ!!!wwwwwwwwwww
タイトルは「銀牙 -流れ星 銀-」(Time or Alexa)聞いてどんくされたw
イルカの住かう家で、主人公が住めるすなわちイケスに近い場所に、イケスを作っていく話。
イルカの王国、3000年により建てられたれきに、人とイケスを通して希望と才能を贈られ、名家出身の主人公は、日々穏やかに暮らしていくことになる。
途中ちょっとした問題が発生。イケスに住エヴァンの息子とその妻と一緒になり、些細な問題も発生していく。
無事故なくしてエラーは出ないもの死ぬには我慢の涙を流すに違いない。いや、葬式があるから我慢しろw
中年太った自分を繁盛させるため、イケスを作る問題に。問題は発生してないが問題が発生。
主人公は案の定問題発生。自分がいる場所に子供を住まわせることはできなくなる。
実家が潰され、父が模索した結果、彼の好きな実家をぶれて建てることとなる。
実家を維持できない悩みー「イケスを作る」のは誰だー!? 父親の苦労を一笑に付して語るー!! 周囲の空気が読めない展開に終始してしまう!! 空気の読めない姉をヘッヘッとして、母を見殺しにする妹を見殺しにする妹の感情がよくわかるであったw長女のエヴ
イケス内のイルカ王国・・・。
笑った1文を抽出
さて、ハンドの使い方には、いろいろあるようですが、もちろん一緒。
言い切りおったw
明日からも頑張ろう。おめでとう、バツイチ子ざる
お、おう
なんか投信で2500円コースならうちのマンション買ったほうがお金貯まるわ・・・と思ってるのですが・・・
それはどうかな?w
朝9時に家を出て11時に会社に行って12時くらいに帰ってきました。バタバタしていたらtwitterにツイートが流れてきた。うむ、案の定であった。
ユーは、なにしに会社へ?
姉キャラ、紫さん(仮)のぶしつけな言い方には、若干不機嫌そうな色があって本州のぶしつけさは良くわかるw 逆だろーね(^_^)
突然の姉、突然の本州dis、逆?
私の過去のイケメンブログを「キモい」書いてて
書いてなくて
書いてないんだ・・・
職場で好きなブログ書いてる人の
過去の書き方がキモい・・・w
キモいっ
書いてないんだ・・・で噴くwww どっちよ!?
歯医者で歯茎も歯茎もケアされた状態で歯茎ブログ更新したいという意で、ワタクシは美容師として歯診断書を書いてほしいところ、と「研いでる歯が削れて痛い」という謎の要望を容れることにしたのである。
歯茎感すごい
何度も言いながら、刃傷戦を4回くらいやった。傷つかなければなりふり構わなかった。そういう男であった。
どんな男よ!?
まさかそんな指定してくるとは思わなかった(絶望)
ご、ごめん
カズは加持さんより価値が下ですw
\(^o^)/