Stimulator

機械学習とか好きな技術話とかエンジニア的な話とかを書く

Webスクレイピング

ダジャレを判定する

- はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。 そのような背景があり、ダジャレを判定するア…

Pythonでyahoo画像検索した結果をimgcatに流して表示してURLをクリップボードにコピーするやつ

- はじめに - 近年では、チャットツールの発展が睦まじく、グループ内、企業内においてもチャットツールによるコミュニケーションが盛んとなっている。チャットツールでのコミュニケーションにおいて欠かせないのが、画像によるハイコンテクストなやり取りで…

Qiitaの特定記事やタグ付記事をいいね、ストックしているユーザを見るPythonスクリプト

- はじめに - Qiitaは、プログラミングに関する知識を記録・共有するためのサービスです。Qiitaアカウントには企業情報が紐付いている場合があり、Qiitaの様々な記事から情報を取得し分析する事で「機械学習を記事を多くストックしている勉強熱心な会社はこ…

Webスクレイピングする際のルールとPythonによる規約の読み込み

- はじめに - この記事は Webスクレイピング Advent Calendar 2017 - Adventar の1日目の記事です。近年では、Pythonが様々な場面で使われるようになりました。 Webからデータを取ってくる際のスクリプトとして利用し、そのままデータを機械学習における学習…

UbuntuにPythonのWebスクレイピングと自然言語処理環境を作るメモ

- はじめに - Webから文章を取得して、自然言語処理かけた後に機械学習にかけるみたいな事はままある。大体Docker使えば良いんだけど、そうじゃないんだよなという時のための個人的なメモ。Ubuntu 16.04でPython3.xなら大体インストールできるはず。 - スク…

Firefox headlessモードをUbuntuとPythonとSelenium環境で動かす

- はじめに - headless Chromeが来た頃、Firefoxのheadless対応の噂がありました。ヘッドレスFirefoxも近々出るよ / 他46コメント https://t.co/kxeWpaLiTR “PythonでWebスクレイピングする時の知見をまとめておく - Stimulator” https://t.co/eiKaWd1lCb— …

PythonでWebスクレイピングする時の知見をまとめておく

- はじめに - 最近はWebスクレイピングにお熱である。趣味の機械学習のデータセット集めに利用したり、自身のカードの情報や各アカウントの支払い状況をスクレイピングしてスプレッドシートで管理したりしている。最近この手の記事は多くあるものの「~して…

headless chromeをPythonのseleniumから動かして引数を考えた (Ubuntu 16.04)

- はじめに - Chrome 59が正式版となりheadless版も正式に動き始めました。めでたい。New in Chrome 59 | Web | Google Developersheadless chromeをUbuntuに導入してPythonから触ったという記事です。Ubuntuへの導入から、実行時の引数となるargsの考察など…