arutema47's blog

書いたり書かなかったり。

2020-11-01から1ヶ月間の記事一覧

Pytorch高速化 (3) TensorRTで推論を10倍高速化

TLdr; torch2trtというpytorchモデルをTensorRTに簡単に変換するライブラリを使い、Jetson nano+xavier上で画像認識とセグメンテーションの推論処理を10倍高速化できることを確認しました。 ただtorch2trtはカスタムモデルには対応していないため(resnetなど…

Github Actionsでpypiのパッケージを発行

なぜgithub actionsで発行できると楽か 自作ライブラリ開発しているとすると普通ならコーディング、setup.pyを記述、pypiにtwineでアップロードという流れになります。 blog.amedama.jp ただこのpypiへのアップロードが意外に面倒くさい。。!毎回pypiアカウ…

Pytorch高速化 (2)Mixed Precision学習を試す

Qiitaからのお引越しです。 前編 aru47.hatenablog.com TLDR; (2021/06/17) resnet50でCIFAR10をFP16により学習を2倍高速化でき、メモリ使用量も半分にできる。 pytorch1.6からデフォルトでMixed Precision学習をサポートしており、画像認識なら大抵これで上…

Pytorch高速化 (1)Multi-GPU学習を試す

Qiitaからのお引越しです。 Pytorch Advent Calender 2018 3日目の記事です。 はじめに 学生に"Pytorchのmulti-GPUはめっちゃ簡単に出来るから試してみ"と言われて重い腰を上げた。 複数GPU環境はあったのだが、これまでsingle GPUしか学習時に使ってこなか…

ハードウェアの速度をどう評価するか考える(2) ~メモリ、メモリ律速~

前回のあらすじとこの記事の目的 前編: ハードウェアの速度をどう評価するか考える(1) ~クロック、OPS~ 現代ハードウェアの計算性能を評価する尺度であるメモリ律速の概念とルーフラインモデルについて理解を深めることです。 本記事を通し、あるアルゴリ…