Stimulator

機械学習とか好きな技術話とかエンジニア的な話とかを書く

「機械学習のための特徴量エンジニアリング」が良かったので訳者に媚を売る

- はじめに -

本ブログでは恒例になりつつある、献本されたので媚を売るシリーズです。

機械学習のための特徴量エンジニアリング」は2/23に発売される、機械学習エンジニアのための書籍です。

本記事は、筆者に媚びを売りつつ、どういった内容の書籍か、どういう人が読むと良さそうか、私がどう感じたかをつらつら書いていくもでのす。

 

機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践

機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践

 

- 書籍の概要 -

機械学習のための特徴量エンジニアリング」は、謎のデータサイエンス集団「株式会社ホクソエム」によって翻訳された、オライリー出版の「Feature Engineering for Machine Learning」日本語版にあたります。元の書籍を書いたAlice ZhengはMSRやAmazon機械学習の研究開発に従事している方で、共著者のAmanda Casariは現在Googleで働いているようです。業界のトップといっても過言ではないですね…。

Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists

Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists

私はこちらの英語版については会社で目を通した事があり、ふんわりとした理解で「幅広くて良い本っぽいなー」くらいに思っていましたが、日本語翻訳が出るとの事で、Twitterで情報を見た瞬間に1冊予約しました。後日ホクソエムの中の人から献本されたので、一冊は妻にでもあげようと思っています。

 
 
翻訳の株式会社ホクソエムについて「謎の集団」とは言いましたが、データサイエンスの業界においてはR言語界隈での活動やブログが非常に有名で、中の人達も寄りすぐりのエンジニアが揃った良い会社であると噂されています。

blog.hoxo-m.com


ホクソエムさんのより有名な実績として、昨年度に出版された「前処理大全」があります。

 
こちらもまた「ITエンジニア本大賞 2019」の技術書部門TOP10入も果たした良書です。
www.shoeisha.co.jp

 
 
そして「機械学習のための特徴量エンジニアリング」の実際の書籍ですが、機械学習コンペティションの最高位となるKaggle Grand Masterである@smlyさんの推薦帯もついており、書店で目立つ事間違いなし。書店に入ってから迷わず書籍に向かい購入に至る事ができると思います。

f:id:vaaaaaanquish:20190219201019j:plain:w400
Kaggle Grand Master推薦帯

 
上記の通り、最強に最強を重ねた布陣でオライリーから出版された書籍ということになります。


 

- どんな層に向けた書籍か -

前項で媚を売りきったので、どんな層が読むと良さそうか個人的な感想をまとめます。
端的にまとめると以下のようになると思います。

  • 大学学部レベルの知識を持ち、今後機械学習エンジニアとしてやっていきたい人
  • 機械学習のモデル構築を幅広く学びたい人
  • Kaggle Expert前後くらいの人


まず、前提知識はそれなりに必要な書籍ではあると思います。「1章・機械学習パイプライン」「2章・数値データの取り扱い(前半)」では、導入のため数行でベクトル空間や分布といったワードが解説されますが、数行です。その後の2章中盤からは「線形回帰モデルによってオープンデータを学習させクロスバリデーションを行いR^2スコアの信頼区間を見ると…」「pairwiseな特徴を使ってモデリングしてみると…」という話に一気に飛躍し、コードが紹介されていきます。最低限の知識としてサンプル程度の機械学習モデルを構築した事があり、その前提となるモデルや評価に関する情報は得る、もしくは調べながら状態で読むのが良さそうです。
(翻訳者は"まえがき"において他オススメの書籍を紹介しているため、参考にすると良いと思います)

 
機械学習モデル構築を幅広く学びたい人にもオススメできる書籍です。例えば、「新卒で業務で今から本格的にモデリングするんだけど…」とか「Python機械学習のサンプルスクリプトはQiitaや本見ながら動かしたけど次何すれば良いのか…」という人は読んでおくと良いと思います。理由として、この書籍は以下のような構成になっているからです。

  • 1章・機械学習パイプライン
  • 2章・数値データの取り扱い
  • 3章・テキストデータの取り扱い
  • 4章・特徴量スケーリングによる効果
  • 5章・カテゴリ変数の取り扱い
  • 6章・次元削減
  • 7章・非線形特徴量の生成
  • 8章・特徴量生成の自動化(画像特徴と深層学習)
  • 9章・論文レコメンドシステム構築を模したトレーニン

数値、テキスト、画像の特徴に関する情報が万遍なく入っており、モデリングにおいていつ何時も重要な特徴量の取り扱いや生成について深く触れられています。「テキストの処理どうするんだっけ」と困ったらこの書籍と前処理大全を開けば、ひとまず正しいモデリングができるようになっていると感じました。たとえテキスト分析やったことなくても、ベースラインになるちゃんとしたモデル作れるようなコードになってるなと思います。
前述したように、事前知識が必要となる箇所が少しずつ見受けられるため、「ん?この表現よくわからないな」と思ったら調べる根気もあると良いでしょう。
 
 
Kaggle Expertくらいだと「機械学習を初めて成果が出たけど、Kernelの手法ばかり試していて、古典的な特徴量エンジニアリングのベース知識が欲しい…!」という人も多くいるでしょう。この書籍に書いてある事くらいはスラスラ出てくるくらいにしておくと良いと思います。まえがきもですが、途中でもKaggleの話出てきますよ(leakageやstackingなど)。


 

- 感想とか -

前述の通り、前提知識は普通に必要です。その分参考文献を多く記載しており、そちらまで読みに行ったり、自分で調べたりする根気は少なからず必要だと思います。これは悪い点というわけではなく、少し大変なので大学で最低限統計と機械学習やったりしてるくらいじゃないと初学者にポンとは渡せない的な意。あまり理論的な深みに行き過ぎると、書籍として重くなるのは間違いないので、あくまで「普段から機械学習モデリングに触れる機会がある」という中級者を一段引き上げる書籍という立ち位置だと思います。(オライリーの本って大体そんな感じだけど)
 
k-meansで特徴量作ったりだとか特徴量ハッシングだとか、昔からある手法ではあるけど皆意外と知らないから突然はてブで話題になるというタイプのやつ最近増えてきてるし、知識の補強という意味でも、機械学習エンジニアの皆さんは読むと良いと思います。

機械学習でよく出てくる分布やplotの説明もあり、概念的な理解も進むと思います。

f:id:vaaaaaanquish:20190219221400j:plain:w450
図とその見方の説明


個人的には、ソースコードついてるのもGoodで、全てJupyter notebookで可視化までやってくれているので、是非触って遊ぶのも良いでしょう。
github.com
 
 
強いて気になる所をあげるとするならば、訳書という事もあり、少し情報としては古いものが多めかなという気持ちにはなりました。

例えば、「深層学習ではZCAを前処理ステップとして使用する」という文言がありますが、これは2009年のLearning Multiple Layers of Features from Tiny Imagesが元になっており、今ではDeep LearningでZCAを前処理として利用するモデルはほぼ聞かないという認識です。画像で出てくるCNNもReLUなAlexNetですし、そっくりそのまま現代で最高精度かと言われたら微妙なところです。私が院生くらいの頃実際にZCAで白色化して〜というの流行ってましたし、時系列知ってれば大丈夫なので、一緒に色々調べてモダンな物についても見てみると良いと思います。他にもEmbeddingやSamplingなどで新しい手法が続々出てきている昨今では、情報を追い続けるというのも機械学習エンジニアとしての1つの力だなと改めて思いました。

(このあと前処理大全を買えというメッセージなのかも知れません…!)


 

- おわりに -


私個人としては、目新しい発見こそなかったものの、特徴量エンジニアリングの基礎がつまっており、「うんうん、そうだね」と頷きながら読める良書でした。今まで日本の書籍で機械学習の基礎を抑えた書籍こそあったものの、特徴量や前処理を主題にした書籍が出てくるというのは珍しく、非常に良い事だと思います。昔は本当特徴量生成の手法とか全然外に出してくれないような情報だったので、知の高速道路が整備されて良いですね。


本文では「Kaggle Expertくらいの人は買えば」と言った私がまだExpertである事を恥じながら、より勉強に励まねばという表明をして締めにしたいと思います。

知識として色々知っていても出来なきゃ意味ないですからね。がんばってやっていきましょう。
 

機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践

機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践

2019/2/23発売 ただいま予約受付中みたいです


 

horovodを用いたPytorchの分散学習

- はじめに -

近年、分散深層学習の研究、ライブラリ開発が盛んに行われている。

本記事はuber社が公開しているhorovodを利用した分散CNNのメモである。


 

- 前提 -

horovodとは、バックエンドをOpenMPIとしTensorFlow、Keras、PyTorchを最小限のコード変更で分散学習できるようにするためのパッケージである。

github.com

現状TensorFlowを使って書かれたコードをDistributed TensorFlowに対応させるにはパラメータサーバやマスタサーバの動きを理解した上で多くの変更を要するが、horovodではそれらをncclのall reduceを利用しwrappingしてあるため、最小限のコード変更で分散学習が可能となる。

また、公式によると普通に書くより早いらしい(未検証)
https://user-images.githubusercontent.com/16640218/38965607-bf5c46ca-4332-11e8-895a-b9c137e86013.png


複数ノードで利用する場合、各ノードがOpenMPIを通して疎通できる必要がある。その環境構築については以下に記載している。ChainerMNが動けば、ほぼ変更なくhorovodを動かす事ができる。

vaaaaaanquish.hatenablog.com

OpenMPI周りの設定が終わったらpipでhorovodを導入する。

pip install horovod

もしくは、DockerHubにHorovod-dockerも公開されていため、バックエンドの設定が整えば、こちらを利用する事で分散学習を始められる。
horovod/docker.md at master · uber/horovod · GitHub


 
PyTorchでCNNモデルを簡易に利用する方法は以下に記載している。
以下に記載のpretrain modelを利用したCNNモデルをhorovodで分散学習させる。

vaaaaaanquish.hatenablog.com


 

- 学習スクリプトの変更 -

学習を行うtrain.pyを以下に示す。
学習スクリプトpretrainを学習させる記事に詳細を書いてあるので参考に。
読み込むデータのPathやログ出力先はマウントしているディレクトリ等でよしなに。

(※ 以下はPyTorch 0.4.0ですが、バージョンによってDataloader周りとかちょいちょい違いがあるので注意)

import os
import traceback
import datetime
import torch
import torchvision.transforms as transforms
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset
from cnn_finetune import make_model
import pandas as pd
from PIL import Image

# --- 追加 ---
import horovod.torch as hvd
torch.manual_seed(42)
hvd.init()
torch.cuda.set_device(hvd.local_rank())
torch.cuda.manual_seed(42)
# ----------

# 10クラス分類を想定
model = make_model('senet154', num_classes=10, pretrained=True, input_size=(256, 256))
criterion = nn.CrossEntropyLoss()

class MyDataSet(Dataset):
    def __init__(self, csv_path, root_dir):
        self.train_df = pd.read_csv(csv_path)
        self.root_dir = root_dir
        self.images = os.listdir(self.root_dir)
        # normalizeのmean, stdはpretrain modelより
        # https://github.com/Cadene/pretrained-models.pytorch/tree/master/pretrainedmodels/models
        self.transform = transforms.Compose([
            transforms.Resize((256, 256)),
            transforms.ColorJitter(brightness=1, contrast=1, saturation=1, hue=0.5),
            transforms.RandomHorizontalFlip(),
            transforms.ToTensor(),
            transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
        ])
        
    def __len__(self):
        return len(self.images)
    
    def __getitem__(self, idx):
        image_name = self.images[idx]
        image = Image.open( os.path.join(self.root_dir, image_name) )
        image = image.convert('RGB')
        label = self.train_df.query('ImageName=="'+image_name+'"')['ImageLabel'].iloc[0]
        return self.transform(image), int(label)

train_set = MyDataSet('train.csv', './train')

# --- 追加, 変更 ---
train_sampler = torch.utils.data.distributed.DistributedSampler(
    train_set, num_replicas=hvd.size(), rank=hvd.rank())
train_loader = torch.utils.data.DataLoader(
    train_set, batch_size=batch_size, sampler=train_sampler, pin_memory=True)
hvd.broadcast_parameters(model.state_dict(), root_rank=0)
model.cuda()
optimizer = optim.SGD(model.parameters(), lr=0.01 * hvd.size(),
                      momentum=0.9)
optimizer = hvd.DistributedOptimizer(
    optimizer, named_parameters=model.named_parameters())
# ----------

    
def train(epoch):
    total_loss = 0
    total_size = 0
    model.train()
    train_sampler.set_epoch(epoch)

    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.cuda(), target.cuda()
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        total_loss += loss.item()
        total_size += data.size(0)
        loss.backward()
        optimizer.step()

        # --- hvd.rankで出力を絞るよう変更 ----
        if batch_idx % 100 == 0 and hvd.rank() == 0:
            now = datetime.datetime.now()
            with open('/mnt/log.text', 'a') as fa:
                fa.write('[{}] Train Epoch: {} [{}/{} ({:.0f}%)]\tAverage loss: {:.20f}\n'.format(now, epoch, batch_idx * len(data), len(train_loader.dataset), 100. * batch_idx / len(train_loader), total_loss / total_size))


# main
try:
    for epoch in range(1, 100):
        train(epoch)
         # --- hvd.rankでstate_dict保存を絞るよう変更 ---
        if hvd.rank() == 0:
            torch.save(model.state_dict(), '/mnt/senet154_{}.model'.format(epoch))
except Exception as e:
    now = datetime.datetime.now()
    with open('/mnt/log.text', 'a') as fa:
        fa.write('[{}]error: {}\n'.format(now, str(e)))
        fa.write(traceback.format_exc()+'\n')
    raise

変更箇所はコメントの通り少ない。

初回起動時に「cnn_finetune.make_model」でpretrainモデルのダウンロードが走ってしまうため、複数ノードでdockerを利用するなら一回docker内でmake_modelを実行しダウンロードしてモデルファイルをdocker imageに含めるか、lusterfsのような共通で見れるディレクトリをマウントしてそのモデルを参照するようにすると良い。

また、こちらで学習したモデル(state_dict)は、前述したpretrainを学習させる記事内のtestコードで推論できる。


 

- 実行 -

動作させるどこかしらのノードないしdockerにログインし以下を実行する。

もし各ノードでdockerを利用している場合は、PyTorchではdocker run時に「--ipc=host」を付けなければ「Unable to write to file」となってしまう事に留意する。
Unable to write to file </torch_18692_1954506624> - PyTorch Forums

また、horovodでは/tmpを利用するため、docker run時に「-v /tmp:/tmp」等としtmpもマウントしておく必要がある。

 
mpiexecコマンドを利用し実行する。
hostfileについてはChainerMNの記事参照。

mpiexec --allow-run-as-root \
     --mca btl_tcp_if_include ib0 \
     -mca pml ob1 \
     -mca btl ^openib \
     -x PATH=$PATH -x PYTHONPATH=$PYTHONOATH -x LD_LIBRARY_PATH=$LD_LIBRARY_PATH -x CPATH=$CPATH -x LIBRARY_PATH=$LIBRARY_PATH -x NCCL_ROOT=$NCCL_ROOT \
     -bind-to none \
     -map-by slot \
     --hostfile /mnt/host.txt \
     -np 8 \
     python3 /mnt/train.py

dockerを利用している場合「--allow-run-as-root 」が必須である。
また、ChainerMNの記事に記載のコマンドとの違いとして、以下を設定しTCP通信を強制する必要がある。

  • -mca pml ob1
  • -mca btl ^openib

これを設定しないと以下のようにsubprocessが次々死んでいき、全体の動作も止まってしまう。

HorovodBroadcast_residual_layer_batch_normalization_moving_variance_0 [missing ranks: 1]

 
OpenMPI 3以降であれば、以下を利用してprocessを単一CPUにバインドさせないようにする。
また、defaultではNUMA設定が単一となってしまうため、map-by slotも利用しておくと良いらしい。

  • -bind-to none
  • -map-by slot


ログが吐かれ始めれば成功。


参考:https://github.com/uber/horovod/blob/master/docs/running.md


 

- おわりに -

「horovodならコード変更最小限に分散学習!」とは言うけど、OpenMPIが動く前提があり、正直「何よりOpenMPIが動作する環境を作るのがしんどいんじゃい…」と思う。

OpenMPIのsettingが一通り上手くいってしまえば、後はかなり自由にモデリングできると思う。各ノードにhvd.broadcastで別々のデータを送ったり、hvd.allreduceでなくallgatherを使えばaggregationの方法を追加できたりするので結構柔軟に書けるとも思う。

要は使い分け。



 

2018年のxonshrc

- はじめに -

この記事はXonsh Advent Calendar 2018 - Qiita最終日の記事です。

私のxonshrc、業務用のコマンドとか含めると大体1500行くらいあるんでgithubで公開するんじゃなくて一部ずつ切り取ってここで紹介しようかなと思いました。

なんか作る時の参考になれば幸いです。


 

- 基本的な設定 -

以下に過去の大まかな設定が書いてあります。
xonshのPROMPTにdatetimeを表示する - Stimulator

環境変数

基本的な設定は大体以下のようになっています。

$EDITOR = '/usr/local/bin/vim'
$VISUAL = '/usr/local/bin/vim'
$VI_MODE = False
$COMPLETIONS_CONFIRM = True
$IGNOREEOF = True
$INDENT = "    "
$CASE_SENSITIVE_COMPLETIONS = False
$HISTCONTROL = "ignoredups"
$XONSH_AUTOPAIR = False
$AUTO_CD = True
$XONSH_SHOW_TRACEBACK = True
$SUPPRESS_BRANCH_TIMEOUT_MESSAGE = True
$UPDATE_COMPLETIONS_ON_KEYPRESS = True
def get_git_user():
    return '{BLUE}' + $(git config user.name).strip() + ' {INTENSE_GREEN}{hostname}{WHITE} ( {YELLOW}"{cwd}" {WHITE}) {INTENSE_RED}$ '
$PROMPT = get_git_user
$LS_COLORS="di=34:ln=35:so=32:pi=33:ex=31:bd=46;34:cd=43;34:su=41;30:sg=46;30:tw=42;30:ow=43;30"
$XONSH_HISTORY_SIZE = (3000, 'commands')
XONSH_HISTORY_MATCH_ANYWHERE = True
$PTK_STYLE_OVERRIDES={
 "completion-menu": "bg:ansiblack ansiwhite",
 "completion-menu.completion": "bg:ansiblack",
 "completion-menu.completion.current": "bg:ansiwhite ansiblack",
 "scrollbar.background": "bg:ansibrightblack",
 "scrollbar.arrow": "bg:ansiblack ansiwhite bold" ,
 "scrollbar.button": "bg:ansiblack",
 "auto-suggestion": "ansibrightblack",
 "aborting": "ansibrightblack",
 }

前年との違いで言えば以下辺りが大きい気がします。

  • get_git_userによってPROMPTにgit user nameを出すようにした
  • PTK_STYLE_OVERRIDESによってstyleを上書きした

githubの所持ユーザ名が増えて、関係ないリポジトリにvaaaaanquishでpushしてしまうみたいな事が2回起こったので確認するようにしました。
後述しますが、gitユーザ変える関数とかも作っています。
またPTK_STYLE_OVERRIDESは以下のissueでも発言した通り、目がチカチカするのを抑えるために必須です。
Change auto_completer's color style · Issue #2840 · xonsh/xonsh · GitHub

キー入力ごとに更新されるCOMPLETIONSですが、iTerm2のcolorと合わせて調整しています。

f:id:vaaaaaanquish:20181221000811p:plain
補完の色合いとか
xonshの補完はzsh風にもできるんですが、私はこちらに慣れてしまいました。

 

aliases

エイリアスは別にgithubでxonshrcで検索して好きなだけ改造すればと思いますが一応省略して外観を。

if platform.system() == 'Darwin':
    aliases["lt"] = "colorls --tree"
    aliases["l"] = "colorls -ltr --sf"
    aliases["la"] = "colorls -la"
else:
    aliases['ls'] = "ls --color=auto"
    aliases["l"] = "ls -lh"
    aliases["la"] = "ls -lha"
    aliases['free'] = "free -h"
    aliases['f'] = 'free -h'
    aliases['wf'] = 'watch free -h'
aliases['ee'] = "exit"
aliases["v"] = "vim"
aliases["vi"] = "vim"
aliases["vx"] = "vim ~/.xonshrc"
aliases["vv"] = "vim ~/.vimrc"
aliases["vs"] = "vim ~/.ssh/config"
...(gitとか色々etc)

MacLinuxで分けれるように書いてあります。
あと "ee" でexitして、zshrcでもbashrcでもに "x" でxonsh起動するようにしています。xonshrcもすぐ開けるようにしておけば、xonsh本体の開発にコントリビュートする時に便利です。

 

xontrib

xontribは以下に落ち着いています。zコマンド病みつき。

xontrib load z
xontrib load readable-traceback
$READABLE_TRACE_STRIP_PATH_ENV=True
$READABLE_TRACE_REVERSE=True
xontrib load coreutils

最近はxonshもptkも開発が早く、まだptkのスピードに追いついてないxontribが見受けられます。
まあ書き直せばいいだけですが、自分は今の所こんな感じです。
(readable-tracebackもpython3.7で動かない情報があるので時間見つけて直します…)

他のxontribはこのへんに
Xontribs — xonsh 0.8.8 documentation
xonshにおけるxontribの紹介 - Stimulator


 

- ライブラリ周り -

ライブラリの管理はpipでやってます。
その他import周りを工夫しておくことでより便利に扱う事ができます。

import, xontrib_load時の自動install

ライブラリの管理について以下記事で書いていますが、import、xontrib load時にライブラリがない場合、自動でpip installするようにしてあります。
Python moduleがない場合に自動でpip installする - Stimulator


以下のようにすることで、新しい環境でひとまずxonshだけ動かしたいという時に、xonshrcを送るだけで対応できます。

import importlib
import builtins
from xonsh.xontribs import xontrib_context, update_context
import xonsh.xontribs

def _import(name, module, ver=None):
    try:
        globals()[name] = importlib.import_module(module)
    except ImportError:
        try:
            import subprocess
            cmd = "sudo pip install -I {}".format(name)
            subprocess.call(cmd, shell=True)
            globals()[name] = importlib.import_module(module)
        except:
            print("can't import: {}".format(module))
_import('pexpect','pexpect')

def _update_context(name, ctx=None):
    if ctx is None:
        ctx = builtins.__xonsh__.ctx
    if not hasattr(update_context, "bad_imports"):
        _update_context.bad_imports = []
    modctx = xontrib_context(name)
    if modctx is None:
        import subprocess
        cmd = "sudo xonsh -c 'xpip install -I xontrib-{}'".format(name)
        subprocess.call(cmd, shell=True)
        remodctx = xontrib_context(name)
        if remodctx is None:
            _update_context.bad_imports.append(name)
            return ctx
        return ctx.update(remodctx)
    return ctx.update(modctx)
xonsh.xontribs.update_context = _update_context

xonshアップグレードでPATHが見えなくなったりした時にも発動するので割と重宝しています。
実際削除

f:id:vaaaaaanquish:20181202210419p:plainf:id:vaaaaaanquish:20181202210543p:plain
実際にライブラリなくてもインストールされる様子

 

importの遅延ロード

以下の記事で書いていますが、xonshrcでは起動が遅くなるのでimportしないけど、xonsh実行時に逐一import書く必要がないようにlazy_moduleを利用しています。
Pythonモジュールの遅延import - Stimulator

import importlib
from xonsh.lazyasd import lazyobject

lazy_module_dict = {
    'pd': 'pandas',
    'np': 'numpy',
    'requests': 'requests',
    'sci': 'scipy',
    'plt': 'matplotlib.pyplot',
    'Path': 'pathlib.Path',
        }
for k,v in lazy_module_dict.items():
    t = "@lazyobject\ndef {}():\n    return importlib.import_module('{}')".format(k, v)
    exec(t)

色々追加したり消したりしましたが、今は利用頻度高いけどimportにちょっと時間がかかる系統が残り上記で落ち着いています。

f:id:vaaaaaanquish:20181221125657p:plain
遅延numpy

- 認証周り -

基本的にパスワード入力をpexpectで処理しています。大体以下にも書いています。
xonshにおけるpexpectを利用した対話コマンド自動化 - Stimulator
ssh等は2要素認証等も含めて自動でやるようにしています。

 

1passwordを利用したpassword, one-time-passwordの取得

私は、ワンタイムパスワードも利用したい事を理由に全てのパスワード管理に1password、それらをshell上で利用するため1password-cliを使っています。
1Password command-line tool: Full documentation

import pexpect

# masterパスワードをstrで取得する(自分で書いて)
masterp=get_master_pasword()

# 1password-cliから1password.appへの認証
def _pass_auth():
    # 1pass auth
    p = pexpect.spawn("op signin my.1password.com --output=raw")
    while 1:
        i=p.expect([
            r'.*(Enter the password for).*',
            pexpect.EOF, pexpect.TIMEOUT], timeout=3)
        if i==0:
            p.sendline(masterp)
            p.sendline('')
        elif i in [1,2]:
            break
    return str(p.before.strip())[2:-1]


# サービスxのパスワードを取得
def _get_p(x):
    # get_pass
    $op_key = _pass_auth()
    p = $[echo $op_key | op get item @(x) | jq '.details.fields[] | select(.designation=="password").value']
    return p
aliases['getp'] = _get_p


# サービスxのワンタイムパスワードを取得
def _get_op(x):
    # get one time password
    print('auth 1password...')
    $op_key = _pass_auth()
    print('get one time pass...')
    p = $(echo $op_key | op get totp -v @(x))
    return p.strip()
aliases['getop'] = _get_op

masterパスワードをstrで取得する部分はファイル読み込みとかで自身で書いて欲しいです。
これでコマンドで、パスワードやワンタイムパスワードを取得できます。

$ getp yahoo
hoge1234

$ getop yahoo
987123

これをpbcopyコマンドとかに送ればクリップボードから直接ペーストできます。
最近の悩みは_pass_authが若干遅い事です。(多分認証キャッシュの機能で解消できるけどやってない)

 

sshの自動化

上記のパスワード取得の仕組みを利用しながらssh周りも自動化しています。
サーバの接続の際にも踏み台などでパスワード、ワンタイムパスワードの入力が必須な作業環境で便利です。

import pexpect

# masterパスワードをstrで取得する(自分で書いて)
masterp=get_master_pasword()

# 画面サイズ
import curses
curses.setupterm()
term_lines = int(curses.tigetnum("lines"))
term_cols = int(curses.tigetnum("cols"))

# ssh認証
def _ssh_pex(p):
    while 1:
        i = p.expect([
            r".*(Enter passphrase for key).*",
            r".*(Are you sure you want to continue).*",
            r".*(Verification code).*",
            pexpect.EOF, pexpect.TIMEOUT], timeout=3)
        if i==0:
            print('enter passphrase.')
            p.sendline(masterp)
            p.sendline('')
        elif i==1:
            print('continue: yes.')
            p.sendline('yes')
            p.sendline('')
        elif i==2:
            print('[auth]')
            otp = _get_op('yahoo')
            p.sendline(otp)
            p.sendline('')
        elif i in [3,4]:
            break
    p.interact()

こんな感じで書いておけば上手くいくと思います。
ワンタイムパスワードの期限がきれても_get_opリトライしてくれるので便利です。

これを利用してsshやscp周りを拡張しています。

import pexpect

def _ssha(x):
    if '/' in x[0]: x[0]=x[0].replace('/','')
    p = pexpect.spawn("ssh " + x[0]) #, encoding='utf-8')
    p.setwinsize(term_lines,term_cols)
    # p.logfile = sys.stdout
    _ssh_pex(p)
aliases["ssha"] = _ssha

def _scpa(x):
    if '/' in x[0]: x[0]=x[0].replace('/','')
    p = pexpect.spawn("scp -r " + x[0] + ' ' + x[1])
    _ssh_pex(p)
aliases["scpa"] = _scpa

なんかたまに入るゴミのために変な処理が入ってますが、大体これでなんとかなると思います。

これとconfig組み合わせてワンタイムパス必須なサーバへの接続も自動化しています

local $ ssha gpu001
[auth]
auth 1password...
get one time pass...[123456]
bastion server...
fowarding port [8888]

gpu001.server.hoge.co.jp $

この辺柔軟に書けるのは良いところだと思ってます。

 

ssh-hostの管理

会社でも趣味でもめちゃくちゃ沢山のhostにsshしたりコマンド飛ばしたりします。
そのため~/.ssh/configがぐちゃぐちゃになってしまう問題があったので、xonshコマンドで管理しています。
 
~/.ssh/configを雑にparseして表示、もしくはstrで返すxonsh関数です。
ptkのstyleを利用して、colorで出したり出さなかったりしています。

from prompt_toolkit import print_formatted_text
from prompt_toolkit.styles import Style
inquirer_style = Style.from_dict({
    'qa': '#5F819D',
    'qu': '#FF9D00',
    'dp': '#000'
})
def _get_host(color=False):
    all_text = ''
    text = ''
    for x in $(cat ~/.ssh/config).split('\n'):
        if 'LocalForward' in x:
            text += ', ' + x.strip().split(' ')[1]
        if 'HostName' in x:
            text += ', ' + x.strip().split(' ')[1]
        elif 'Host ' in x:
            if text!='':
                all_text += text + '\n'
            text = x.split(' ')[1]
    all_text += text + '\n'
    if not color:
        all_d = []
        for x in all_text.split('\n'):
            for i,y in enumerate(x.split(', ')):
                if i==0:
                    all_d.append(('class:qu', y))
                if i==1:
                    all_d.append(('', ', '))
                    all_d.append(('class:qa', y))
                    if len(x.split(', '))==2:
                        all_d.append(('','\n'))
                if i==2:
                    all_d.append(('', ', '))
                    all_d.append(('class:qp', y))
                    all_d.append(('','\n'))
        print_formatted_text(FormattedText(all_d),
                style=inquirer_style)
        return
    return all_text
aliases['host']=_get_host

こんな感じでhost一覧出したりgrepしたりpecoしたりしています。
f:id:vaaaaaanquish:20181221120604p:plain


これを利用して~/.ssh/configも読み書きできるようにしておくと、柔軟にお仕事できます。
一部切り抜いて紹介すると以下。

# _get_host()してparse
def _ssh_host_to_dic():
    host = {}
    for x in _get_host(True).split('\n'):
        rows = x.split(', ')
        if len(rows)>=2:
            host[rows[0]]={'s':rows[1], 'p':None}
        if len(rows)==3:
            host[rows[0]]['p']=rows[2]
    return host

# config生成
def _w_host(host):
    # 中身はよしなに
    with open('~/.ssh/config', 'w') as f:
        f.write('HostKeyAlgorithms +ssh-dss\n')
        f.write('AddKeysToAgent yes\n')
        f.write('host *\n')
        f.write('    ForwardAgent yes\n')
        for k,v in host.items():
            f.write('\nHost {}\n'.format(k))
            f.write('    HostName {}\n'.format(v['s']))
            if k != 'hoge':
                f.write('    IdentityFile ~/.ssh/id_rsa\n')
                f.write('    ProxyCommand ssh hoge.co.jp ncat %h %p\n') # springboard
                f.write('    IdentitiesOnly yes\n')
                if v['p'] is not None:
                    f.write('    LocalForward {} localhost:{}\n'.format(v['p'],v['p'])) #LocalForward

import argparse
def _update_host(args):
    host = _ssh_host_to_dic()
    parser = argparse.ArgumentParser()
    parser.add_argument('name')
    parser.add_argument('-s')
    parser.add_argument('-p')
    args = parser.parse_args(args)
    if args.name not in host.keys():
        host[args.name]={'s':None, 'p':None}
    if args.s is not None:
        host[args.name]['s'] = args.s
    if args.p is not None:
        host[args.name]['p'] = args.p
    _w_host(host)
aliases['uh'] = _update_host

ちょっと切り抜きなので雑ですが、こんなん作っとけば以下でconfig更新したりしてサーバが増減しても安心です。

$ cat ~/.ssh/config
HostKeyAlgorithms +ssh-dss
AddKeysToAgent yes

$ uh hogehoge -s hoge.server -p 9920
$
$ cat ~/.ssh/config
HostKeyAlgorithms +ssh-dss
AddKeysToAgent yes
host *
    ForwardAgent yes

Host hoge
    HostName hoge.server
    IdentityFile ~/.ssh/id_rsa
    IdentitiesOnly yes
    LocalForward 9920 localhost:9920

あとは、自身が欲しいままにconfig_generatorを作っておけば安心。
Tipsですが、ちょっと複雑なコマンド作るときはargparseしておくと --help でオレオレdiscription出せるのでいい感じに使えます。

 

gitアカウントの管理

gheとかgitのcliは充実してますが、自分は以下だけ。
いくつかあるgitアカウント間違えないように変更しやすくしています。

# git chenge
def g_change(account):
    account = account[0]
    if account=='vanquish': account='vaaaaanquish'
    git config --global user.name f"{account}"
    if account=='hoge':
        git config --global user.email hoge@company.jp
        print(f'change:{account}')
    elif account=='vaaaaanquish':
        git config --global user.email 6syun9@gmail.com
        print(f'change:{account}')
    else:
        print(f'check account name:{account}')
aliases['gac']=g_change

gitacコマンドで複数のアカウントを切り替えて、上記「 環境変数」の項目で書いたようなスクリプトでshellのPROMPTに表示しています。

hoge $
hoge $ gac vanquish
shukawai $

多分もっと優勝できると思ってます。

 

- 移動、操作 -

移動はもっぱらzとpecoを使っています。
GitHub - peco/peco: Simplistic interactive filtering tool
GitHub - rupa/z: z - jump around

xontrib-zを導入しても良いですし、以下のように書いても良い感じに使えると思います。

def z():
    lines = open($DIR_HIST_PATH[0]).read().rstrip("\n").split("\n")
    return("\n".join([p for p, c in Counter(lines).most_common()]))

 

履歴の取得

以下の記事で紹介されているものを利用しています。
Xonshを快適にするptk(Python Prompt Toolkit) - Qiita
以下の記事と書きましたが、書いたのは元同僚で私にxonshを薦めてきた諸悪の根源です。

import os
import json
from collections import OrderedDict

def get_history(session_history=None, return_list=False):
    hist_dir = __xonsh__.env['XONSH_DATA_DIR']
    files = [ os.path.join(hist_dir,f) for f in os.listdir(hist_dir)
              if f.startswith('xonsh-') and f.endswith('.json') ]
    file_hist = []
    for f in files:
        try:
            file_hist.append(json.load(open(f))['data']['cmds'])
        except:
            pass
    cmds = [ ( c['inp'].replace('\n', ''), c['ts'][0] )
                 for cmds in file_hist for c in cmds if c]
    cmds.sort(key=itemgetter(1))
    cmds = [ c[0] for c in cmds[::-1] ]
    if session_history:
        cmds.extend(session_history)
    # dedupe
    zip_with_dummy = list(zip(cmds, [0] * len(cmds)))[::-1]
    cmds = list(OrderedDict(zip_with_dummy).keys())[::-1]
    cmds = reversed(cmds)
    if return_list:
        return cmds
    else:
        return '\n'.join(cmds)

後述するkeybindとpecoの連携によって、過去のコマンド実行をあいまい検索できるようにしています。

 

dirの保存

移動したディレクトリは、on_chdirで発火する関数を作成しファイルでざっくり管理しています。

# file save dir
$DIR_HIST_PATH = "~/.dirhist"
@events.on_chdir
def add_to_file(olddir, newdir, **kw):
    with open($DIR_HIST_PATH[0], 'a') as dh:
        print(newdir, file=dh)

これも後述のkeybindとpecoの連携部分で最近行ったdirをpecoで利用したいがためです。
普段はこれをもうちょっと拡張して、特定の作業ディレクトリに行きやすくなったりするようにしています。

 

keybindings

キーバインドです。
何でもかんでもpecoに流しています。

from prompt_toolkit.keys import Keys
from prompt_toolkit.filters import (Condition, IsMultiline, HasSelection, ViInsertMode)


@events.on_ptk_create
def custom_keybindings(bindings, **kw):

    # ctrl+vで入力中の単一、複数行コマンドをvimで開く
    @bindings.add('c-v')
    def edit_in_editor(event):
        event.current_buffer.tempfile_suffix = '.py'
        event.current_buffer.open_in_editor(event.cli)

    # ctrl+rで過去の実行コマンドをpeco
    @bindings.add('c-r')
    def select_history(event):
        sess_history = $(history).split('\n')
        hist = get_history(sess_history)
        selected = $(echo @(hist) | peco)
        event.current_buffer.insert_text(selected.strip())

    # ctrl+sでssh_config内のhost先をpeco
    @bindings.add('c-s')
    def select_ssh(event):
        hosts = _get_host(True)
        selected = $(echo @(hosts) | peco)
        if selected:
            event.current_buffer.insert_text('ssha ' + selected.strip().split(', ')[0])

    # ctrl+fで今いるディレクトリのfileをpeco
    @bindings.add('c-f')
    def select_file(event):
        r = lambda x: './'+x if os.path.isdir(x) else x
        files = '\n'.join([r(x.split(' ')[-1]) for x in $(ls -l).split('\n')])
        selected = $(echo @(files) | peco)
        event.current_buffer.insert_text(selected.strip())

    # ctrl+dで過去移動したディレクトリをpeco
    @bindings.add('c-d')
    def _z(event):
        selected = $(echo @(z()) | peco)
        cd_cmd = "cd " + selected.strip()
        event.current_buffer.insert_text(cd_cmd)

    # ctrl+tで翻訳コマンドを入力
    @bindings.add('c-t')
    def _engs(event):
        event.current_buffer.insert_text('t ')

    ....

利用してるkeybinding、実際はもっとあるんですが、業務に関わる部分が多かったものは削っています。

f:id:vaaaaaanquish:20181221135842g:plain
sshやcommandをpecoであいまい検索

tコマンドは後述しますがGoogle翻訳としてよく使っているので書いときました。


 

- other -

大体上記のような環境でやっていってますが、他に結構使ってる便利なお手製コマンドを書いておきます。

 

google-translation

仕事で英語圏メンバーとMTGを毎日してますが、英語力低いので翻訳が手元に欲しかったりします。
GitHub - soimort/translate-shell: Command-line translator using Google Translate, Bing Translator, Yandex.Translate, etc.

keybindingで ctrl+t でt を入力、あとは日本語か英数字か正規表現で判定してGoogle翻訳かけるというコマンドを作っています。
VivaldiなるブラウザのWebパネルにもGoogle翻訳をセットしていますが、Shellだとそのままpbcopyでクリップボードに流したり、英語か日本語かの判定文自分で雑にかけるので何だかんだ結構こちらを使っています。

import re

jap = re.compile('[あ-んア-ン一-鿐]')
def _eng(x):
    if len(x)==0: return
    x = ' '.join(x)
    if jap.search(x) is None:
        y = $(trans en:ja @(x))
    else:
        y = $(trans ja:en @(x))
    return y
aliases['t'] = _eng
vaaaaanquish $ t 翻訳
翻訳
(Hon'yaku)

translation

翻訳 の定義
[ 日本語 -> English ]

名詞
    translation
        翻訳, 訳書, 翻訳物, トランスレーション
    deciphering
        解読, 翻訳

翻訳
    translation

最初はDMM英会話の「英語でなんていうknow」なるサービスがすごくよくてスクレイピングするコマンドを作って多用していましたが、慣用句以外なら単語さえわかればconversationに盛り込めるくらいにはなってきたので今はこれだけに落ち着いています。

ドキュメントやコード内の謎の英語とか調べるのにも重宝しています。

 

画像の表示

ディレクトリ内の画像から雑にsampleして、iterm2経由で表示するやつです。
画像処理なんかをやってる時に、「あ〜、このtrainディレクトリって何入ってんだっけ」となるので使ってます。

import matplotlib.pyplot as plt
import xontrib.mplhooks
import numpy as np
import cv2
import random
from mimetypes import guess_extension


def _imgls(path):
    fig, ax = plt.subplots(3, 3, sharex='col', sharey='row')
    fig.set_size_inches(10, 10)
    d=[]
    for x in os.listdir(path):
        if x.split('.')[-1] in ('jpe', 'jpeg', 'png'):
            d.append(path+x)
    if len(d)>9:
        d = random.sample(d,9)
    for i, imgid in enumerate(d):
        col = i % 3
        row = i // 3
        img = cv2.imread(imgid)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        ax[row, col].imshow(img)
    xontrib.mplhooks.display_figure_with_iterm2(fig)
aliases['imgls'] = _imgls

f:id:vaaaaaanquish:20181221175030p:plain
ディレクトリ内の画像をshell上でsample

以下あたりを参考に作っていて、基づいて少し変更すればLinuxやwinでも動きます。
Pythonでyahoo画像検索した結果をimgcatに流して表示してURLをクリップボードにコピーするやつ - Stimulator
Xonshでmatplotlibグラフをコンソールにインライン描画してメモリ状況を観察する - Stimulator

これが結構便利なので割と使います。


 

おわりに

1つ1つ記事にも出来ましたが、Xonsh Advent Calendar 2018 - Qiitaがまさかの大盛況で助かりました。

一旦業務部分を切り取ってとりあえず書いたので、今後もうちょっとこの記事は更新されると思います。
業務的なところでは、社内サーバの起動から、GPUクラスタGPUを監視してリソース奪い取るコマンド、勤怠や日報の自動化、社内チャットへの投稿、社内のMTGルームの取得…など全部適当に書いたコマンドで何とかしています。(なかなか切り分けできてないので見せられないですが)


サッと書いたスクリプトがxonshrcに入り常用してしまうという1年だったため、結構rc自体が汚く肥大化しています。

今現在も、xonshrcのリファクタリングとか、コマンドのhistory backendをAWSに乗せるとか、起動の高速化とかをやっていきたいと思ってるので2019年も更にがんばっていきたいと思います。


それではhappy xonsh year。


 

Python moduleがない場合に自動でpip installする

- はじめに -

この記事は、Xonsh Advent Calendar 2018 - Qiita 10日目の記事です。

複数のサーバを業務で利用おり、それぞれのサーバ環境設定のためpythonパッケージもインストールする作業が必要だが、別サーバからpip freezeするほどでもない(ちょっとした作業サーバなど)という時にjupyter_configや.xonshrc等の設定ファイルに自動インストールするように書いておけば良いのではと思って書いたメモです。

端的にはimportが失敗したらpip moduleを使ってインストールしてやる仕組みを作ります。
また加えて「PyPiに登録されているパッケージのリストを取得し、その中になければ諦めるという仕組み」「xontribの自動インストール」も示します。

 

- 動的なpip install -

python3にはpipモジュールが含まれているため、以下のような形で動的なインストールを実装します。
as構文を利用したい場合もあるかと思いますので、globalsに入れるように書いておきます。

from pip._internal import main as _main
import importlib

def _import(name, module, ver=None):
    try:
        globals()[name] = importlib.import_module(module)
    except ImportError:
        try:
            if ver is None:
                _main(['install', module])
            else:
                _main(['install', '{}=={}'.format(module, ver)])
            globals()[name] = importlib.import_module(module)
        except:
            print("can't import: {}".format(module))

_import('pd','pandas', '0.22.0')
print(pd)

pandasをアンインストールした状態でもスクリプト実行時にインストールが行われます。


試しに、上記スクリプトpythonが動くshellであるxonshの設定ファイルに書き込んでみます。
pandas 消してもxonsh起動時になければ新しくインストールされています。
f:id:vaaaaaanquish:20181202210419p:plain

たぶんjupyterもconfigに書けば同じことができると思います。


参考:pip - Installing python module within code - Stack Overflow

 

- PyPiに登録されているパッケージのリストを取得する -

上記に記載の仕組みに加え「自身が作成しているオリジナルのモジュールもpipで入れたい」などの要望と入り混じった時、PyPiに登録されているライブラリかどうかを判定する必要が稀に出てきます。
PyPiに登録されているライブラリ一覧を取得するスクリプトを加えたものを以下に示します。

if not os.path.exists('~/.pypilist'):
    import xmlrpc.client as xmlrpclib
    client = xmlrpclib.ServerProxy('https://pypi.python.org/pypi')
    packages = client.list_packages()
    with open('~/.pypilist', 'w') as f:
        f.write('\n'.join(packages))
pypilist = open('~/.pypilist', 'r').read().split('\n')
if module in pypilist:
     print('not found pypi')

また、月更新くらいでpypiにあるパッケージやバージョンを見るようにしておけば、rcファイル等に書く時にも便利になるでしょう。

参考:JSON API for PyPi - how to list packages? - Stack Overflow


 

- xonshrcに書くために -

xonshアドベントカレンダーの記事ですので、xonshに書くためのtipsも示します。

xontribをインストールする

xontribも先程と同様にインストールできますが、xontribの場合、xontrib loadなるコマンドが用意されています。

実装を見ると、xontribs_load関数で読み込めなかった場合、prompt_xontrib_install関数で生成した以下のような文字列を返す実装になっています。

The following xontribs are enabled but not installed:
   z
To install them run
    xpip install xontrib-z

参考:xonsh/xontribs.py at master · xonsh/xonsh · GitHub

文字列返しても仕方ないので、ロード部分となるupdate_contextをoverrideして自動でpipするようにしてみます。

from pip._internal import main as _main
import xonsh.xontribs
from xonsh.xontribs import xontrib_context, update_context

def _update_context(name, ctx=None):
    if ctx is None:
        ctx = builtins.__xonsh__.ctx
    if not hasattr(update_context, "bad_imports"):
        _update_context.bad_imports = []
    modctx = xontrib_context(name)
    if modctx is None:
        _main(['install', 'xontrib-{}'.format(name)])
        remodctx = xontrib_context(name)
        if remodctx is None:
            _update_context.bad_imports.append(name)
            return ctx
        return ctx.update(remodctx)
    return ctx.update(modctx)

xonsh.xontribs.update_context = _update_context

xonshにはxpipなるpip wrapperがあり、xonsh環境配下にpip packageをinstallし、他env環境などから切り離すことが出来ます。
そちらを利用する事でxonshのアップグレードにも対応できます。
そちらはpip._internal.mainからは利用できないため、その場合は以下のように_mainでなくsubprocessなどでインストールしてやれば良いでしょう。

import subprocess

cmd = "xonsh -c 'xpip install xontrib-{}'".format(name)
subprocess.call(cmd, shell=True)

 
これらを組み合わせ、xonshrcに書いた上でxontrib loadコマンドを実行すれば、勝手にpipでパッケージを取ってくることが出来ます。
f:id:vaaaaaanquish:20181202210543p:plain

xontrib-readable-tracebackは以前XonshのException発生時のtracebackを見やすくする - Stimulatorなる記事で私が作成したライブラリです。結果として1/0のException messageが短くキレイに色付けされ表示されています。



 

コマンドをxonshrc内でインストールする

コマンドの有無も確認し、なければインストールするようにしておくと便利です。
pythonではshutil.whichメソッドがそれらをサポートしてくれているので利用すると良いでしょう。

「コマンドが無ければ〜」というサンプルを以下に示します。

import shutil

if shutil.which( COMMAND_NAME ) is None:
    # install script


xonshではpython以外にshell scriptもほぼ同等に動くわけなので、何も考えず最新版をインストールシェルスクリプトを書くだけです。

例えば私がよく使っているpecoなら以下をそのまま書くだけ。
Linux に最新版の peco をインストールするシェルスクリプト - Qiita


 

- おわりに -

これでxonsh周りの実行環境作成は、xonshrcだけで完結すると思います。

個人的には以下のlazy load等も組み合わせながら、xonshの起動を高速化しつつ、最低限のラインとして使っています。
vaaaaaanquish.hatenablog.com


xonshアドベントカレンダーのほうはまだ空きがあるみたいなので、よければ是非。
qiita.com


 

macOSの通知リストをpython経由で取得しShellに流す

- はじめに -

macOSを使っていると、通知(Notifications)に色んな情報が集約される。
メールが来ただのSlackの更新だの、アプリのアップデート等がそれにあたる。
f:id:vaaaaaanquish:20181124204404p:plain
「OS通知を定期的に取得してシェルのbottom barとかに表示してやれば、作業中でも社内チャットやらメールの通知とかを厳選して気付けたりするしサイコーなのでは?」という所を目的にした作業ログを示すものである。

ちなみにこの記事は、Xonsh Advent Calendar 2018 - Qiitaの7日目の記事。

- macOSの通知の取得 -

2014年くらいにHigh Serriaになった時、ユーザ向けにもAPIが公開されたNotifications。それらを叩けるterminal-notifierや、そのPython wrapperとなるpyncなどが出てきて、ユーザが通知欄に任意のメッセージを送る事は難しくなくなった。
GitHub - julienXX/terminal-notifier: Send User Notifications on macOS from the command-line.
GitHub - SeTeM/pync: Python wrapper for Mac OS 10.8 Notification Center


macOSが提供するAPIでは「アプリXから通知を送る」「アプリXから送った通知を消す」「アプリXが送った通知のリストを取得する」が利用できるが、これらを利用しても「全てのアプリから送られた全ての通知を取得する」事はできない(記事執筆時、2018/11/24)。

完全な情報を取得する事はできないが、以下のpatreon記事によると、システムデータベースには通知の断片ログが残っているようである。patreon主はSignalや各所登壇で良く見るあのPatrick Wardle氏である。
www.patreon.com
Macのsystemのpythonに含まれるFoundationクラスを利用する事でこのログを読むことができる。*1

 
上記記事内のdumpNotificationDB.pyをベースに、通知毎のタイトルと内容と日付、アプリ名を取得し表示するスクリプトを以下に示す。

# -*- coding: utf-8 -*-
# /usr/bin/python (macOS system python)
import os
import sys
import sqlite3
import datetime
import tempfile
import Foundation


def parse_req(req):
    # reqをparseしtitleとbodyのみ取得する
    res = {}
    for x in str(req).split(';'):
        if 'body' in x or 'titl' in x:
            d = x.replace('{','').strip().split(' = ')
            res[d[0]] = d[1].replace('"','')
    return res


def get_notif_json():
    # DBファイルにアクセスしparseして返す
    notificationDB = os.path.realpath(
            tempfile.gettempdir() + '/../0/com.apple.notificationcenter/db2/db')
    conn = sqlite3.connect(notificationDB)
    conn.row_factory = sqlite3.Row
    cursor = conn.execute("SELECT data from record");

    res_j = []
    for row in cursor:
        plist, fmt, err = \
                Foundation.NSPropertyListSerialization.propertyListFromData_mutabilityOption_format_errorDescription_(
                buffer(row[0]),
                Foundation.NSPropertyListMutableContainers,
                None, None)
        if err is not None:
            continue

        notif_dic = {}
        for key, value in plist.iteritems() :
            if key == 'date':
                notif_dic['date'] = Foundation.NSDate.alloc().initWithTimeIntervalSinceReferenceDate_(value)
            if key == 'req':
                req = parse_req(value)
                if 'titl' in req.keys():
                    notif_dic['title'] = req['titl']
                notif_dic['body'] = req['body']
            elif key == 'app':
                notif_dic['app'] = value
        res_j.append(notif_dic)
    return res_j

# データ取得
d = get_notif_json()
# 日付順ソート
d = sorted(d, key=lambda x: x['date'])
# 表示
import codecs
for x in d:
    print x['date']
    print x['app']
    print codecs.decode(x.get('title','no title').lower(), 'unicode-escape')
    print codecs.decode(x['body'].lower(), 'unicode-escape')
    print ''

macOSのpython2系を利用するため、codecsを利用してunicodeをdecodeしたり、printがアレだったりするが仕方ない。

 
先述の通り、system-pyhtonのFoundationが必要なため、/usr/bin/pythonを利用して実行する。

$ /usr/bin/python get_notification.py

2018-11-14 14:58:05 +0000
_SYSTEM_CENTER_:com.apple.battery-monitor
バッテリー残量低下
電源コンセントに接続しない場合、お使いのmacは間もなくスリープ状態に入ります。

2018-11-16 23:27:59 +0000
com.adobe.acc.AdobeCreativeCloud
creative cloud
4 個のアプリのアップデートがあります

2018-11-21 10:08:50 +0000
com.tinyspeck.slackmacgap
teamy
miku : 完全に未来人扱いされてますね笑

2018-11-21 10:10:36 +0000
com.tinyspeck.slackmacgap
teamy
miku: オッケです!

あくまで通知時のログなので、既に通知欄から削除した、していないという情報は得られないが、概ね十分そうである。


 

- xonshを利用してshell上に表示する -

xonshのアドベントカレンダーなのでxonshを利用してshellに流し込む

上記スクリプトの出力部分を一行空白区切りで情報を出力するように修正します。

import codecs
for x in d:
    date = str(x['date']).split(' ')
    print date[0].encode('utf-8'), date[1].encode('utf-8'), x['app'].encode('utf-8'),\
            codecs.decode(x.get('title','no title').lower(), 'unicode-escape').replace(' ','').encode('utf-8'),\
            codecs.decode(x['body'].lower(), 'unicode-escape').replace('\n','').replace(' ', '').encode('utf-8')

そもそもコードも酷いというのもあるが、encodeしないと「UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-8: ordinal not in range(128)」みたいになるためさらに酷くなっているが仕方ない。
 
このpython2のスクリプトにおけるprintを標準出力から受け取り、xonshで表示できるような関数にする。
 
python3からsubprocess経由で/usr/bin/pythonを使い、上記ファイルを実行するスクリプトを以下に示す。

import subprocess

res = subprocess.run(['/usr/bin/python get_notification.py'], stdout=subprocess.PIPE, shell=True)
print(res.stdout)

これをxonshの関数にそのまま採用して情報を厳選して、xonsh toolbarに表示してみる。

 
python2と3を経由するかなり気持ち悪い感じだが出来たコマンドは以下のような感じ。

import subprocess

def get_last_notif():
    # 最後の通知を返す
    res = subprocess.run(['/usr/bin/python /path/to/get_notification.py'], stdout=subprocess.PIPE, shell=True)
    return res.stdout.decode('utf-8', 'replace').strip().split('\n')[-1]

# xonsh bottom toolbarに表示する
$BOTTOM_TOOLBAR = get_last_notif

f:id:vaaaaaanquish:20181124215447p:plain
(クソ…!よこせストレージを…!!)

 
このままだとUPDATE_COMPLETIONS_ON_KEYPRESSをTrueにしていれば、キー入力毎に評価され、DBを読みに行ってparseしてという処理がキー入力毎に発生してしまいますので、一度どこかにキャッシュして一定時間ごとに更新するなどの処理が必要そうである。

まあとりあえず目的は達成したので、キャッシュの話はまた別途という事にする。


 

- おわりに -

通知をキャッシュして、直近のものを順繰りで表示しておいたりすると便利そう。
ちゃんと書けばxontribみたいにできるかも…?

ただMacの通知取得の方法が若干アレなので、アップデートで使えなくなる可能性もあるし、素直にAppleが相応のAPIを公開してくれたほうが良さそうだなと思う。

 
xonshアドベントカレンダーの方がまだまだ後半ガラ空きという状態なので書いてほしいです。宜しくお願いします。
qiita.com

 
 

*1:記事内にもある通りsystem pythonが実行できる権限があれば過去の通知の一部を読めてしまうため脆弱性になり得る要素である

ptk1.xから2.xへの変更を選択コマンド実装から学ぶ

- はじめに -

この記事は、Xonsh Advent Calendar 2018 - Qiitaの5日目の記事です。


前年度、Xonsh Advent Calendar 2017 - Qiitaにおいて、私は以下のような2つの記事を投稿しています。
Python Prompt Toolkitで対話的な選択コマンドを作る - Stimulator
PythonでHatenaブックマークのホットエントリを取得して表示する - Stimulator
これは、xonshのコアライブラリとなるpython prompt-toolkit (以下、ptk)を利用したものです。

今回のアドベントカレンダー2018の1日目の記事にも書いた通り、xonshはptkのwrapperと言っても過言ではないレベルでptkは重要な役割を担っています。つまりptkを理解する事は、xonshを理解する事に繋がっています。
そして2018年、ptkは1.xから2.xへのメジャーアップデートにおいて多くの破壊的変更を含んでいます。
参考:Upgrading to prompt_toolkit 2.0 — prompt_toolkit 2.0.7 documentation


本記事は、前年度の以下のようなコマンドをptkの破壊的変更を逐一確認しながら進めるものです。
f:id:vaaaaaanquish:20171225155520g:plain:w400:h200
このコマンドにはptkの多くの要素が含まれており、これらを確認していくとおのずと詳細にふれる事ができます。
xonshがptk 2.xに対応した今年にぴったりの記事です。

 

- スクリプトの変更箇所を理解していく -

前年度実装したコマンドから変更点を抜き出しながら逐一確認していきます。
また、コマンドの全容が見たい場合は、こちらのgit repositoryにも公開しています。
GitHub - vaaaaanquish/select-command-using-ptk: select command using python prompt toolkit

 

MouseEventTypeのリネーム

マウス操作が入った時に落とすためのデコレータ部分です。
MouseEventTypeはMouseEventTypesにリネームされていますので変更が必要です。

- from prompt_toolkit.mouse_events import MouseEventTypes # ptk 1.x
+ from prompt_toolkit.mouse_events import MouseEventType # ptk 2.x

def if_mousedown(handler):
    def handle_if_mouse_down(app, mouse_event):
        if mouse_event.event_type == MouseEventType.MOUSE_DOWN:
            return handler(app, mouse_event)
        else:
            return NotImplemented
    return handle_if_mouse_down

また、詳細な理由を後述しますが前記事でhandle_if_mouse_down(cli, mouse_event)としていた第一引数の変数名をappに変更しています。cliという表記は後方互換性のためにptkの中でもいくつか残っているものの、今後無くなっていくかと思われますので、ここでもそれに習います。

 

KeyBindingManagerとKeybindings

キーバインディング周りは、KeyBindingManagerクラスが廃止され、KeyBindingsクラスによって全て賄う事ができるようになっています。これは、xonshrc等を書く場合でも同様です。
加えて、Keysクラスによって管理されていたキー入力周りですが、KeyBindingsでは「c-a」のようなstrを利用する事ができます。

その他、KeyBindingsのデコレータを付けた関数の引数に入るevent.cliはset_return_valueメソッドを持たなくなっています。
ptk 1.xではここにCommandLineInterfaceというクラスが入っていましたが、CommandLineInterfaceはapplication.Applicationクラスに統合されました。
上記MouseEventTypeの項でもcliという表記をappに変更したのは、そのためです(詳細は後述)。

Applicationクラスにset_return_valueメソッドはないため、exitを利用して同様の動作を実現します。
https://python-prompt-toolkit.readthedocs.io/en/master/pages/reference.html?highlight=Application#prompt_toolkit.application.Application

###### ptk 1.x ######
from prompt_toolkit.key_binding.manager import KeyBindingManager
from prompt_toolkit.keys import Keys
manager = KeyBindingManager.for_prompt()
@manager.registry.add_binding(Keys.ControlQ, eager=True)
@manager.registry.add_binding(Keys.ControlC, eager=True)
def _(event):
    event.cli.set_return_value(None)
@manager.registry.add_binding(Keys.Enter, eager=True)
def set_answer(event):
    ic.answered = True
    event.cli.set_return_value(None)

###### ptk 2.x ######
from prompt_toolkit.key_binding import KeyBindings
kb = KeyBindings()
@kb.add('c-q', eager=True)
@kb.add('c-c', eager=True)
def _(event):
    event.app.exit(None)
@kb.add('enter', eager=True)
def set_answer(event):
    ic.answered = True
    event.app.exit(None)

ガラッと変わっているのが目に見えてわかると思います。
前回の記事に記載のmove_cursor_down、move_cursor_upについてもKeyBindingsに対応させる事で動作させる事ができます。

 

Styleの設定

Style周りの変更は、かなり大きな影響を与えているように思います。
ptkは長らくPygrids、PygmentsにSyntaxColor、lexer等を依存させていましたが、ptk 2.xでは、Pygmentsのトークンのサポートを残しつつ、CSSのような独自コンポーネントが作成され、自由なクラス名を割り当てて自由なスタイリングを行う事が可能になりました。

以下がptk 1.xを利用してstyleを定義する部分です。

###### ptk 1.x ######
from prompt_toolkit.token import Token
from prompt_toolkit.styles import style_from_dict

inquirer_style = style_from_dict({
    Token.QuestionMark: '#5F819D',
    Token.Selected: '#FF9D00',
    Token.Instruction: '',
    Token.Answer: '#FF9D00 bold',
    Token.Question: 'bold',
})

 
同様の記載方法を利用したい場合はpygmentsのTokenクラスを利用する必要があります。

###### ptk 2.x ######
from pygments.token import Token
from prompt_toolkit.styles.pygments import style_from_pygments_dict

inquirer_style = style_from_pygments_dict({
    Token.QuestionMark: '#5F819D',
    Token.Selected: '#FF9D00',
    Token.Instruction: '',
    Token.Answer: '#FF9D00 bold',
    Token.Question: 'bold'
})

この記法を利用した場合、inquirer_styleの中では「Token.QuestionMark: '#5F819D'」が「'class:pygments.questionmark': '#5F819D'」のように取り扱われます。ptkの中でこのpygments.tokenを利用してStyleを適応させたい場合は、styles.pygments_token_to_classnameなるメソッドが用意されているのでそちらを使ってToken -> ptk classnameに変換して使う必要があります。

 
もちろん前述の通りptk2.xではpygemntsを使わない記法も可能です。

###### ptk 2.x ######
from prompt_toolkit.styles import Style
inquirer_style = Style.from_dict({
    'qu': '#5F819D',
    's': '#FF9D00',
    'instruction': '',
    'aaa': '#FF9D00 bold',
    'question': 'bold'
})

上記の例は大げさですが、他クラスに被らなければ自由なクラス名をつける事が可能です。これらを表示時に適応したい場合は「('class:qu', 'hogehoge')」「('instruction': 'piyo')」のようなtupleを作ってprint_formatted_textに投げてあげるとコンソール上にカラースタイルが適応された状態で表示する事ができます。

実際にxonshで表示してみます

###### ptk 2.x ######
from prompt_toolkit import print_formatted_text
from prompt_toolkit.formatted_text import FormattedText
print_formatted_text(
        FormattedText([('class:qu', 'hogehoge piyopiyo')]),
        style=inquirer_style)

f:id:vaaaaaanquish:20181121151916p:plain

より詳細には以下を参考にすると良いでしょう。pygmentsとprompt_toolkit classnameの比較表もあります。
https://python-prompt-toolkit.readthedocs.io/en/master/pages/printing_text.html

 

Styleの出力

前回の記事においては、get_prompt_tokens関数を定義して、promptに動的にテキストを渡すようにしています。

こちらも上記Styleの変更に対応するため、変更が必要です。
ptkのtokenの利用を止め、pygments.tokenを利用する事でほぼ同じ記述で同じ動作が実現できます。
最後returnする時にpygments_token_to_classnameで「class:pygments.hoge」な記法に変換してやれば良いです。

- from prompt_toolkit.token import Token
+ from pygments.token import Token
+ from prompt_toolkit.styles import pygments_token_to_classname

###### ptk 1.x #####
def get_prompt_tokens(cli):
###### ptk 2.x #####
def get_prompt_tokens():

    tokens = []
    T = Token
    tokens.append((Token.QuestionMark, '?'))
    tokens.append((Token.Question, string_query))
    if ic.answered:
        tokens.append((Token.Answer, ' ' + ic.get_selection()))
        selected_item(ic.get_selection())
    else:
        tokens.append((Token.Instruction, inst))

    ###### ptk 1.x #####
    return tokens    

    ###### ptk 2.x ######
    return [('class:'+pygments_token_to_classname(x[0]), str(x[1])) for x in tokens]

tokenとテキストのtupleをリストにして返す関数ですが、returnする時にtuple[0]のtokenを変換する処理を挟んでいます。
前述のStyleでも紹介した通り、pygmentsを使わない記法も使えますので、そちらも検討すると良いでしょう。

 

TokenListControlがFormattedTextControlにリネーム

前回の記事では、layout.controls.TokenListControlなるクラスを継承し、InquirerControlなる独自のセレクトアイテムを制御するClassを定義していました。
まず前提として、ptk 2.xではTokenListControlクラスはFormattedTextControlにリネームされています。

加えて、前述したStyle出力と同様に、pygments_token_to_classnameを使ってStyleの記法を変更する必要もあります。

- from prompt_toolkit.layout.controls import TokenListControl
- from prompt_toolkit.token import Token
+ from pygments.token import Token
+ from prompt_toolkit.layout.controls import FormattedTextControl
+ from prompt_toolkit.styles import pygments_token_to_classname

- class InquirerControl(TokenListControl):
+ class InquirerControl(FormattedTextControl):

    selected_option_index = 0
    answered = False

    def __init__(self, choices, **kwargs):
        self.choices = choices
        super(InquirerControl, self).__init__(self._get_choice_tokens, **kwargs)

    @property
    def choice_count(self):
        return len(self.choices)

    def get_selection(self):
        return self.choices[self.selected_option_index]

    def _get_choice_tokens(self):
        tokens = []
        T = Token

        def append(index, label):
            selected = (index == self.selected_option_index)
            def select_item(app, mouse_event):
                self.selected_option_index = index
                self.answered = True
                app.set_return_value(None)
            token = T.Selected if selected else T
            tokens.append((T.Selected if selected else T, ' > ' if selected else '   '))
            if selected:
                tokens.append((Token.SetCursorPosition, ''))
            tokens.append((T.Selected if selected else T, '%-24s' % label, select_item))
            tokens.append((T, '\n'))

        for i, choice in enumerate(self.choices):
            append(i, choice)
        tokens.pop()  # Remove last newline.
        
        ###### ptk 1.x #####
        return tokens    

        ###### ptk 2.x ######
        return [('class:'+pygments_token_to_classname(x[0]), str(x[1])) for x in tokens]
 
ic = InquirerControl(choices)

Tokenについては前述同様pygments.tokenを利用していますが、tokenを利用しない記法に変えても大丈夫です。

 

LayoutとContainer

前述の通り、TokenListControlはリネームされました。
その結果、引数のとり方が変わっているため注意が必要です。

加えて、ptk2.xでは表示アーキテクチャにContainerという概念が出てきました。
RendererオブジェクトはLayoutで定義されたオブジェクトを画面に表示します。
ptk 2.xにおいて、Layoutを構成する要素はContainerとUIControlの2つです。
Containerは水平、垂直分割を利用したContainerを再帰的に定義する事ができます。
UIControlはWindowやFormattedTextControl等を含んでおり、表示のサイズ、形式を定義する事ができます。

ptk1.xまでHSplitメソッドはContainerではなくLayoutを直接返していましたが、ptk2.xではContainerを再帰的に定義できるようにすることでより複雑なLayoutを実現できるようになったため、HSplitメソッドはContainerを返すようになりました。
よって以下のように、Layoutの定義の最後にLayoutクラスにする変更が必要です。

from prompt_toolkit.layout.containers import ConditionalContainer, ScrollOffsets, HSplit
from prompt_toolkit.layout.dimension import LayoutDimension as D
- from prompt_toolkit.layout.controls import TokenListControl
+ from prompt_toolkit.layout.controls import FormattedTextControl
+ from prompt_toolkit.layout.layout import Layout

###### ptk 1.x ######
layout = HSplit([
###### ptk 2.x ######
HSContainer = HSplit([

    Window(height=D.exact(1),

           ###### ptk 1.x ######
           content=TokenListControl(get_prompt_tokens, align_center=False)),
           ###### ptk 2.x ######
           content=FormattedTextControl(get_prompt_tokens)),

    ConditionalContainer(
        Window(
            ic,
            width=D.exact(43),
            height=D(min=3),
            scroll_offsets=ScrollOffsets(top=1, bottom=1)
        ),
        filter=~IsDone())])

###### ptk 2.x only ######
layout = Layout(HSContainer)

LayoutとContainerの関係については、以下を見ておくと良いでしょう。
https://python-prompt-toolkit.readthedocs.io/en/master/pages/advanced_topics/rendering_flow.html
https://python-prompt-toolkit.readthedocs.io/en/master/pages/full_screen_apps.html?highlight=Container#the-layout

また、アーキテクチャの全体像については(少し古いですが)以下が参考になります。
https://python-prompt-toolkit.readthedocs.io/en/master/pages/advanced_topics/architecture.html

 

CommandLineInterfaceがApplicationにマージ

MouseEventType、Keybindingsの項でも触れた通り、ptk 2.xではinterface.CommandLineInterfaceはapplication.Applicationにmergeされています。
後方互換のため、少なからずcliなる記載やメソッドが残っていますが)

最後に今までの項で作った設定や関数を利用してptkアプリを実行する部分のコードを以下に示します。

###### ptk 1.x ######
app = Application(
    layout=layout,
    key_bindings_registry=manager.registry,
    mouse_support=False,
    style=inquirer_style
)
eventloop = create_eventloop()
try:
    cli = CommandLineInterface(application=app, eventloop=eventloop)
    cli.run(reset_current_buffer=False)
finally:
    eventloop.close()

###### ptk 2.x ######
app = Application(
    layout=layout,
    key_bindings=kb,
    mouse_support=False,
    style=inquirer_style
)
app.run()

ApplicationはCommandLineInterfaceと違って適切にeventloopを設定してくれるようになっているため、eventloopを明示的に書く必要はありません。


 

- 全体のコード -

コード全体はptk 1.xと2.xのそれぞれを以下のrepositoryに入れてあります。
それぞれのdiffを見る事で違いを確認できます。
github.com



 

- おわりに -

ptkの理解はxonshの理解です。
他にもptkのリファレンスには様々なApplicationのサンプルがありますので、一読し是非ともxonshに活かして頂ければと思います。

アドベントカレンダーですが後半が空いてますので参加者を募集しています!!
宜しくお願いします!!
qiita.com

xonshの2018年の歩み

- はじめに -

この記事は、Xonsh Advent Calendar 2018 - Qiitaの1日目の記事です。
1日目という事ですので、2018年を振り返ってxonshにどんな動きがあったかの簡単な振り返りです。


私は社内チャットにおいても #xonsh なるxonshの情報を発信する部屋を運用しています(誰も発言してくれないので私しか発言してないですが)。そこでxonshのアップデート情報及び、xonsh関連の情報をまとめていまして、今回はそちらから引用しつつ2018年の節目とできればと思います。


 

- 2018年まとめ -

xonshの2018年の流れを順を追いながらまとめます。
重要なワードを節としていくので、気になるところは目次より飛んで頂けると良いかと思います。

2018年前半のpython shellとしての歩み

2018年の0.5.2から0.5.8

2018年のreleaseタグは少々混雑していまして3月に0.5.3から0.5.8までが一気に打たれました。
2018年、最初のreleaseは0.5.2で、そこから一気に0.5.8まで流れていきます。
 
 
0.5.3を軽く振り返ります。
Release 0.5.3 · xonsh/xonsh · GitHub

多くのbugfixに加えて、python-prompt-toolkit(以下、ptk)のpygments依存が解消しています。
2018年の多くのxonsh releaseにおいてこのptkとのやり取りは切っても切り離せません。

ptkはPythonにおける補完やサジェスト、Syntax highlightなどの機能を含んだPure Pythonなツールキットです。
github.com
xonshのshell機能における根幹を担っているパッケージで、他にもjupyterに含まれるIPython REPL、python実装のvimであるpyvimなど、多くの実装がこのptkを利用しています。

ここまでptkは、pygmentsというSyntax highlightのためのパッケージに完全に依存していました。pygmentsの別途installが必要かつ、環境によってはカラー設定が変化してしまう事から、ptkではansiカラーを利用してFormatted textベースなカラーリングもできるようになりました。
Welcome! — Pygments
Asking for input (prompts) — prompt_toolkit 2.0.7 documentation

また、このreleaseではTab completion xontribの追加、subprocessの結果のredirect等、shellとしての強化が多く成されています。
  
0.5.4ではXONSH_HISTORY_BACKENDやHistoryEntryなど、履歴関連周りが良くなりました。
Release 0.5.4 · xonsh/xonsh · GitHub
また、この時bash_completionが別プロジェクトとして切り離されました。
xonsh上でbash補完を利用したい場合は、bash_completionを別途導入する形になりました。
bash_completionについてはまたアドベントカレンダー内で書ければと思います)
  
0.5.5では、$UPDATE_COMPLETIONS_ON_KEYPRESSで補完出す出さないの管理が出来たり、configファイルとなるxonshrc関連が多く変更されています。0.5.6では、catやechoなどのaliasを追加するcoreutils xontribやjediベースのタブ補完が使えるjedi xontribが追加されています。
Release 0.5.6 · xonsh/xonsh · GitHub
Release 0.5.5 · xonsh/xonsh · GitHub
import文の前後で発火するイベントが増えたり、Windows上のコンソールにおけるbug fixなども入っています。
 
0.5.7です。
Release 0.5.7 · xonsh/xonsh · GitHub
subprocessのリスト、文字列のリダイレクトは非常に大きな改善だったかと思います。以下がやっと動くように。

echo hello world >/dev/null.

加えて、xonsh独特な@(...) syntax がgenerators、tuples をサポートするようになったり、python shellとしても改善が進みました。
 
0.5.8では_TeeStdクラスに変更が入っています。
Release 0.5.8 · xonsh/xonsh · GitHub
xonshでは標準入出力を独自のTeeStdクラスによって管理している事は知っておいた方が良いでしょう。
xonsh/base_shell.py at master · xonsh/xonsh · GitHub
前年度のアドベントカレンダーで、xonshの入出力をイジろうとした時、私もこのクラスでハマっています。
vaaaaaanquish.hatenablog.com

0.6.0に向けた怒涛のbugfixラッシュ

0.6.0に向けた細かなbugfixやrelease.xshの修正が続きます。
Release 0.5.9 · xonsh/xonsh · GitHub
Release 0.5.10 · xonsh/xonsh · GitHub
Release 0.5.11 · xonsh/xonsh · GitHub
Release 0.5.12 · xonsh/xonsh · GitHub

xonshにcontributeした時は、以下にあるように/newsディレクトリ配下に更新内容を書いた[branch名].rstを追加します。
(プルリク出すと「追加してくれ!」って言われます)
Developer’s Guide — xonsh 0.8.3 documentation

各プルリクで追加されたrstファイルがmergeされてreleaseタグの内容となる仕組みです。
自分出したプルリクで書いたrstがreleaseタグに書かれているとちょっと嬉しいですし、後で記録に残る良い習慣です。
開発者向けですが、それらが整備されているのも非常に大切なOSSの要素の一つだと感じます。

 

Python3.6以降もサポート0.6.xが出た!

0.6.0ではついにPython3.6のf-stringがサポートされました。
(といってもこの時はまだprint時に使えるかなくらいのレベルでしたが)
Releases · xonsh/xonsh · GitHub
またdeprecation用のデコレータ、xonsh関数のAssertion等が追加され、Python shellとしての機能拡張が進みます。
個人的には、この時追加されたTask Scheduler、cronの役割を担うschedule xontribも割と使っています。

0.6.1ではWindowsにおけるMSYS2のサポートや`~/.config/xonsh/rc.xsh`にあるrcファイルの読み込みが追加されています。
Release 0.6.1 · xonsh/xonsh · GitHub
0.6.xでの変更箇所は大きく、同僚とも「Linuxでlsできなくなった」「コメントが効かなくなった」等の会話をした記憶があります。0.6.0以降、毎週のreleaseにおいて数多くのbug fixが発生しています。ここでは書ききれないので省きますが、この辺りで多くのPython周りのbugが修正されています。

0.6.xのどこか辺りでimportも高速化されたんですが、ちょっと思い出せなかったです…
 

config.jsonの死

0.6.2より前では、xonshrcの他にconfig.jsonなるファイルを利用して設定できる項目がいくつか存在していました。
Release 0.6.2 · xonsh/xonsh · GitHub

ここでconfig.jsonは完全にサポートされなくなりました。
「Static configuration is dead (config.json), long live run control (xonshrc)!」
config.jsonに関する記載がWeb上には幾つかありますが、今はもう亡き存在として扱って大丈夫です。
 

Python3.7の問題児Async/Await対応

0.6.3でいくつかのbug fixとError入出力の変更を経て、0.6.4ではPython3系の革命児であり問題児であるAsync/Awaitをトークナイザーのキーワードに追加する対応をしています。
Release 0.6.3 · xonsh/xonsh · GitHub
Release 0.6.4 · xonsh/xonsh · GitHub
Python3.7で予約語に追加され、様々なフレームワークで課題になっているAsync/Await。
xonsh本体に大きな影響はなかったと捉えていますが、それでもやっぱり対策は大事です。

promptゾンビ問題の解消

0.6.5で設定ウィザードのI/Oが修正、0.6.7でEnvPathのメソッド拡充が行われた後、0.6.7でゾンビプロセス問題が解消しました。
Release 0.6.5 · xonsh/xonsh · GitHub
Release 0.6.6 · xonsh/xonsh · GitHub
Release 0.6.7 · xonsh/xonsh · GitHub
これは割と使う側から見て大きな改良かと思います。pythonのサブプロセスが結果を返せなかった時に発生していたissueで「xonsh使うとPCが重い」といった現象の元になっていました。この辺りから、不意にxonshが落ちる現象がほぼ無くなり、安定して常用できるshellになってきたように記憶しています。

 

2018年後半の山場 ptk2.xへの移行

ptk2.x対応スタート

大きな変更となったのが前述しているコアライブラリであるptkのバージョンアップです。
ptk 1.xから2.xにおいては、いくつかの破壊的変更が含まれており、それらを利用するjupyter等も順次対応していく形となったのが2018年の後半の動きです。

0.7.0がそろそろ出るか否かという時期の0.6.8で、ptk 2.x対応必要だよねという流れが出来てきました。
Release 0.6.9 · xonsh/xonsh · GitHub
ひとまずreadlineが起動する所まで、ここでfixされています。

その後小さなサブプロセス周りの拡充0.6.10を経て、ptk2.xに完全対応していく0.7.xが始まりました。
Release 0.6.10 · xonsh/xonsh · GitHub

怒涛のptk2.x対応

7月には0.7.0が出ました。

ptk2.xの対応は、ひとまず動くという状態でしたが、$SHELL_TYPEで切り替え可能になっていたりしたので一通り使えるようにはなっていました。

ユーザ目線では、prompt-toolkitに含まれるメソッドが大きく変更されたため、xonshrcの書き換えが必要になりました。
以下にも記載していますが、一番汎用的な例を出すとKeybindの書き方が変わります。
vaaaaaanquish.hatenablog.com
以下は複数行のコマンド入力中にctrl+vでvim編集できるようにする設定ですが、メソッド構成が変更になったことによって書き方を変える必要が出ました。

from prompt_toolkit.keys import Keys

@events.on_ptk_create
def custom_keybindings(bindings, **kw):

    # ptk 2.x
    @bindings.add('c-v')
    def edit_in_editor(event):
        event.current_buffer.tempfile_suffix = '.py'
        event.current_buffer.open_in_editor(event.cli)

    # ptk 1.x
    handler = bindings.registry.add_binding
    @handler(Keys.ControlV)
    def edit_in_editor(event):
        event.current_buffer.tempfile_suffix = '.py'
        event.current_buffer.open_in_editor(event.cli)

前年度のアドベントカレンダー等を見返してもptk 1.x形式で記載している場合があるため、注意が必要になってきます。


0.7.1では、その他ptk2.xで動かなくなった機能などの一斉fixが行われました。
Release 0.7.1 · xonsh/xonsh · GitHub
手前味噌ですが、私もここからcontributerになりました。最初は「コンソールが下までスクロールした時ptk2.xが補完出してくれない」というbugをptkのソース読みながら直しました。以降は、bugやドキュメントの整備などをやっています。

2018年の冒頭に出てきたpygmentsもptk2.xへの変更で更なる課題となってきました。
マルチプラットフォームに対応するだけでなく、新しいptkのcolor styleも取り入れながら0.7.3が登場しました。
Release 0.7.3 · xonsh/xonsh · GitHub

また、ここでjupyter notebookのxonsh Kernelも上手く動作するようになっていきます。
0.7.4でもxonsh-catなどjupyter kernel周り、ptk2.x移行時のcolors names、補完のバグが修正されています。
Release 0.7.4 · xonsh/xonsh · GitHub

0.7.4から数時間後には、ptk2におけるhistoryの順番がfixした0.7.5が出ました。爆速開発です。
Release 0.7.5 · xonsh/xonsh · GitHub

はじまるptk拡張

なんでこんな大きな変更を含んだptk2.xなんじゃいというのもあるんですが、ptk2.xの更新はデカいです。
例えば「補完を上下移動で選択」が「左右移動でも選択可能」になったのはptk2.xからです。

補完の拡張となるalias stackが0.7.6で出ました。メイン開発者のscopatzは個人的に使ってたみたいですが、乗っかる形ですね。補完魔改造時代のスタートです。
Release 0.7.6 · xonsh/xonsh · GitHub

def _f():
    def j():
        pass
    global aliases
    aliases['j'] = j
    def completions(pref, *args):
        return set(['hello', 'world'])
    completer add j completions "start"
_f()
del _f

f:id:vaaaaaanquish:20181118021840p:plain

続く0.7.7では、$XONSH_HISTORY_MATCH_ANYWHEREをTrueにする事で上矢印で履歴エントリを検索できるようになりました。
xonsh/xonsh https://github.com/xonsh/xonsh/releases/tag/0.7.7
これ自体はptk2.xの恩恵という訳ではないですが、shellとしてかなり一般的に使われている機能で、また一つ力強くなったように感じます。

opensource.comとクックパッド、そしてHacker News、GitHubトレンドへ

ちょうど0.7.7周辺でMoshe Zadka氏により「Why I love Xonsh」なる記事がOpensource.comに投稿されます。
opensource.com

また、0.7.8になる手前辺りでクックパッドインターンの体験記事に「インターン生がxonshを使っている」という文言が出てきました。
nanabyo.hatenablog.com
流石クックパッドさんですね。

少しずつxonshが話題にされていた9月頃、Hacker Newsに「Xonsh: Python-powered, cross-platform, Unix-gazing shell」なるスレッドが立ちました。
Xonsh: Python-powered, cross-platform, Unix-gazing shell | Hacker News
そこでは、メイン開発者であるscopatzが実際に投稿するなど盛り上がりを見せ、Hacker News内のトップスレッド20に入るなどしました。
世界を見た時にHacker Newsで話題になる事がどれだけ大きいか。

その後、9月のgithub trendにもxonshがランクインします。
https://github.motakasoft.com/trending/?d=2018-09-15&l=python
話題として今年最も躍進した月でした。

jupyterもptk2.xへ

この頃、ちょうどjupyter(より正確にはIPython)もptk2.xへの対応が進みました。

jupyterのptk2.x対応以前では、ptk2.xをインストールした状態でpython kernelを動かすと落ちるという課題を抱えており、xonshとjupyterを併用で利用するのが少々複雑な状態でした。私個人においても pip install prompt_toolkit==1.0.15 等を推奨していました。

github.com

現在、ptk2.xでの課題はほぼほぼ解消しています。この関係性によって、xonshにコミットしptkにコミットする事でjupyterプロジェクトにも貢献できるという所が非常に楽しいです。

2018年後半、そして0.8.xへ

増えるpython機能のサポート

0.7.8ではcollections.ChainDBがサポートされました。
Release 0.7.8 · xonsh/xonsh · GitHub

0.7.9では以下のように@(expr) syntaxが書けるようになり、かなり便利になりました。
Release 0.7.9 · xonsh/xonsh · GitHub

$ echo /path/to/@(['hello', 'world'])
/path/to/hello /path/to/world

0.7.10では、 f-stringを利用してf"{$HOME}" のように環境変数を参照できるようになりました。
Release 0.7.10 · xonsh/xonsh · GitHub

徐々にpython本体の便利なメソッドを吸収しつつ、shellとして進化していきます。

0.8.xが来た!Archにも来た!

いよいよ0.8.0の登場です。ここまで一部変更できず気になっていた色の問題も$PTK_STYLE_OVERRIDESの登場により、ほぼ完全にxonsh上の全ての色を完全に設定できるようになりました。
Release 0.8.0 · xonsh/xonsh · GitHub

0.8.1では、ついにforeign shellsからfishが消えました。また、この時からArch Linux official repositoriesからxonshが利用できるようになりました。Archは良いぞ。
Release 0.8.1 · xonsh/xonsh · GitHub

他にも以下のようにSubprocSpecにpipeline_indexなる属性が付くようになりました。
使い所は少々難しいですが、shellの結果をPythonに流すような場合に汎用性が高まったと言えるでしょう。

p = ![ls -l | grep x]
p.specs [0] .pipeline_index == 0

0.8.2ではf-stringsが完全に動作するようになりました。!を利用した構文とカニバるので!を犠牲にするわけですが、pythonの機能を優先するという意味で良い改修だったと思います。
Release 0.8.2 · xonsh/xonsh · GitHub

記事執筆時(2018/11/18)のlatest 0.8.3です。
Release 0.8.3 · xonsh/xonsh · GitHub
Annotation assignment statements (x : int = 42)がfix、from x import (y, z,)がfixするなど、Pythonの書き方をshell上で再現できるようになってきました。

あと私は使ってないんですがvirtualenvのサポートが含まれており、これは結構待望されてた感じなのではないでしょうか。


加えて、0.8.xから古い書き方に対して警告が出るようになり始めました。
徐々に移行していく必要があります。
(1.x.xの匂いが少しずつしている感じか…!?)

 

-おわりに -

急ぎ足で、主に追加された機能の多くを振り返っていきました。開発スピードも早く、2018年話題になった事で開発者も増えたxonshの動きをこれからも応援しcontributeしていければと思っております。

メジャーバージョン1.x.xも見えてきて、めちゃくちゃ楽しみな2019年になると思っています!
来年も良いxonshの年にしていきましょう!


明日はあの74thさんです!
アドベントカレンダーはまだまだ空きがありますので、ちょっと触ってみただけでも書いて頂けると助かります!!
qiita.com

宜しくお願いします!!