arutema47's blog

書いたり書かなかったり。

Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection

Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection

https://arxiv.org/pdf/1908.09492.pdf 現在のNuscenes一位のソリューション。 image.png

課題

LiDARデータのaugumentationの提案が主に精度向上の要因。 Nuscenesはクラス間精度の平均が評価指標になっているが、学習データ数がクラスによっては異常に少なく学習が進まない。例えば最も頻出する車クラスに対して人やanimalクラスは1/10から1/100しかない。 image.png

提案

f:id:aru47:20200307145545p:plain このようなデータセットインバランスに対応するため、点群データ中に少数クラスを恣意的に生成することで学習を進みやすくした。ネットワーク自体はほぼPointpillarsの応用で、データセット拡張により大幅な精度向上を実現した。 また精度に貢献している提案として大きさなどが似ているクラス(人と自転車など)を"superclass"としてまず分類してから詳細クラスを分類する2-stepの分類を実行している。

結果

f:id:aru47:20200307145615p:plain
精度の足を引っ張っていた少数クラスの精度を向上したことでNuscenesベンチマークの指標も大幅に向上。 例えば自転車クラスは14倍も精度向上を達成した。 点群におけるデータ生成の重要性を示唆。

Learning in the Frequency Domain

Learning in the Frequency Domain

f:id:aru47:20200306190103p:plain https://arxiv.org/abs/2002.12416

Alibaba

CVPR 2020 accepted

課題

入力画像を空間領域で扱うのはファイルサイズが大きいため、従来ネットワークは224x224x3と小さいサイズに変換。元の画像サイズ(440x440x3)に対し空間分解能が減り、情報量が減ってしまう。

提案

NNの入力を周波数領域(JPEG規格で扱うDiscrete Cosine Transform DCT)にする。等価的に大きい解像度の画像を周波数領域に変換し直接DNNに入力。DNNの性能に効くDCTチャネルのみ使用することで、入力データ量を一定に保ちながら従来画像入力時よりもDNNの精度が向上できることを実証データ量を半分にしても、Imagenet精度は高くなることを示す

f:id:aru47:20200306185105p:plain

精度に効くチャネルを選択する手法がシンプルながら有効性が高い。 f:id:aru47:20200306185117p:plain

手法

f:id:aru47:20200306185127p:plain DCTデータを直接ネットワークに入力。最初のCNNレイヤを取り除いている。これで上手くいくのは驚き。

実験

画像認識だけではなく物体検出タスクにも応用可能なことを示した。

今年読んで楽しかった技術書10冊

今年読んで楽しかった技術書10冊

リスト

コメント

脳・心・人工知能 数理で脳を解き明かす

日本が誇る人工知能学者の甘利先生の本です。1950年代の脳・人工知能の歴史から丁寧に、先生自身が体感された当事者目線で書かれています。

いつものAI本にある”2012年にヒントンがーディープラーニングがーヒ敗男ー”な人工知能本はかなりウンザリですがこの本は一味違いました。

第一次人工知能ブームではどのような研究が盛り上がっていたか、第二次ブームまでにどのような進歩があり学会のフォーカスが変わっていったかについて書かれており、学びが多いです。また本線の数理で脳を解き明かす点についても理系でなくてもわかるように書かれており、ディープラーニングから入った新参者でもどのようにニューロモデリングが発展してきたか一歩一歩わかるため面白かったです。

意味がわかる統計解析

恥ずかしながら学部から統計についてちゃんと勉強した事がなかったため、入門書として買いました。 統計で重要な用語を新参者でもわかりやすく説明しているため、入門書としては◎。ただ式や導出などは一切ないため、この本だけで実務をするのはむずかしいかと。

本書を読んでから詳細な理論を勉強するために東大統計本に移りましたが、大枠なイメージがあるかないかで全然理解が違いました。

決算書分析2020

株をやっていると企業の財務分析は必須なんですが、教育を受けないと企業の財務諸表は読める気がしない。

本書は実際の企業資料(キーエンスやソフトバンク)などを使い説明してくれるため、非常にわかりやすかったです。 財務諸表は読めると非常に楽しく、企業の本当の形が見えてきて楽しいです。いつかブログでも財務諸表リーディング記事を書いてみたいな。

つくりながら学ぶ! PyTorchによる発展ディープラーニング

PytorchでSSDやTransformerをスクラッチから書いてみよう!という機械学習やDNN経験者向け書籍です。 会社でもpytorch入門に使っており、レポのコードがコメントが多くとても追いやすいです(SSDの実装はコメントがあまりなくて初心者には辛い。。)またGANや自然言語はやったことなかったので、実装することで理解が深まり諸論文も読めるようになって楽しかったです。

日本語で学べるPytorch入門本としてはベストだと思います。

Kaggleで勝つデータ分析

Kaggleってなんかスゲー人の巣窟で怖いなあ(某GMとか)、と思ってたのですが入門本を読んで実際にTitanicなどしてみることでデータ分析コンペが身近に感じられました。”勝つ”テクニックも業務に転用できるものが多く、データ分析本としてもトップクオリティを誇ります。

この本を読んで参加した初Kaggleコンペ(Lyftコンペ)でもソロSilverメダルを取ることが出来てよかったです。 来年中にもっとランクを上げたいけど時間が全然取れない。。

ちなみにmy kaggle垢はこちらです。フォローなどどうぞ。

雑感

ハード寄りの本はあまり読まなかった一年かも。 専門であるアーキやLiDAR、ロボットについてはほとんど論文からインプットしているのもある。

ソフト、データ分析は良書が多いというのもありますね。 その分駄目な本も多いですが。。東大データ分析本とかは自分的にNGでした。

アーキなんてヘネパタしかないしLiDARに至っては本がないという。。

10 computer vision papers I enjoyed reading in 2019.

10 computer vision papers of 2019.

I would like to list my 10 computer vision papers I enjoyed reading this year. The papers are picked from favorites from Mendley app (great app!).

The papers are picked from my opinions, which I think many of these papers will become the mainstream of computer vision researches.

I would like to list some reasons why I picked these papers..

Paper list

Reasons I picked the papers.

Object as points (CenterNet)

f:id:aru47:20191230173913p:plain
before and after nms

As shown in the figure, suppressing all the predicted binding boxes to the final prediction was a pain in the xxx in object detection tasks, and had been the accuracy and speed bottleneck. Tuning the nobs of NMS thresholds was a lot of pain; everybody knew that, but not many techniques were proposed to fix this.

f:id:aru47:20191230162202p:plain
centernet

The authors came up with a simple and elegant idea, to simply regress the objects as center points. Without NMS, the proposed Centernet achieves state-of-the-art accuracy. Center-regression may become the mainstream of object detection task; this technique is efficient in software (fewer tuning parameters) and hardware (easy to multi-process).

Also a similar idea was proposed in the paper CornerNet, and Centernet uses a lot of techniques proposed in the cornernet paper (preprocessing, loss calculations). While CornerNet predicts the two edges of the binding box, CenterNet predicts only the binding box center point, which makes the entire network simpler.

Where is my mirror?

f:id:aru47:20191230162121p:plain
mirrornet

Detecting mirrors was an open problem in computer vision: mirror causes unintended predictions in LiDARs and may cause false alarms in self-driving tasks!

This paper 1) constructed a large scale dataset of mirrors and 2) proposed MirrorNet (straight forward..) which can segment mirror regions within an imaging space with high accuracy.

This helps the robot and self-driving engineers since mirror detection was a big problem.

Learning to see in the dark

f:id:aru47:20191230162600p:plain
learn

Can we fix under-exposed images with Deep Learning techniques? The authors proved that it can be done, with surprisingly high quality. The network itself is simple (U-net like), but the question they tackled was very interesting.

EfficientNet, EfficientDet

f:id:aru47:20191230163210p:plain
en

These two papers crashed the state-of-the-art race of image classification and object detection tasks.

The key methods they use in the paper are quite simple (resolution scaling, search-space efficient NAS, better FPN), the combined accuracy increase was huge. The papers are easy to follow and the experiments are conducted in a very nice way; a must-read for all researchers!

These methods are computationally efficient, and I see them being used in many competitions in Kaggle.

Point Pillers

f:id:aru47:20191230163649p:plain
pp

3D object detection with point clouds was somewhat chaotic in 2018: many new techniques were being proposed at CVPR, but many were useless.. It was similar to back then when people worked on weird CNN or Relu layer modifications and none seemed to be working.

I liked the idea of Pointpillars, which encodes the point cloud information as pillars, and then convert it to a multi-channel 2D image. The object detection task itself is conducted via 2D, and successful object detectors like SSD and frcnn can be used.

This 3D-2D fusion click for me, since 3D object detectors had a very bad accuracy compared to 2D detectors, but point cloud encoders like pointnet had a good performance.

Shabuway

しゃぶうぇいとは

f:id:aru47:20191104223151p:plain
shabu
某サンドウィッチチェーンをもじったくっだらない店名のしゃぶしゃぶチェーン店がシリコンバレーバレーにはある(そしてとても美味しい)。嘘が真かはわからないのだが、しゃぶしゃぶは炙るときに肉の油が湯に溶けるためとてもヘルシーな料理らしい。真意はわからないがシリコンバレーの名だたるエンジニアがそういうならそうなのだろう。

American Kobe Beef!?

アメリカの牛肉は美味しく安く、それがしゃぶしゃぶに合わないはずがない。ここでは驚きのAmerican神戸牛が食べられる。もう何を言っているかわからないのだが神戸牛と言われたら神戸牛なのだろう。(またAmerican和牛beefも食べられる。)

アメリカではKobe beefはなぜか一般的で大抵のステーキ屋で食べられる。そしてしゃぶしゃぶで食べるとかなり美味しい。ホンモノを食べたことないので本家と比べたパフォーマンスは不明だが。。しゃぶしゃぶ肉は専用の機械でスライスしており、それも食べる直前でスライスするため新鮮である。

まとめ

とても良いコストパフォーマンスで美味しいしゃぶしゃぶが食べれるお気に入りのお店である($20くらい)。チェーン数も多いため、ググれば近くにお店が見つかるのではないだろうか?ちなみにゴマダレやご飯はお替りしたら無限に食べられる。infinity riceの完成である。

Impossible Burger

シリコンバレーのテクノグルメ

シリコンバレーグルメの中でも日本で味わえないレストランの一つにインポッシブルバーガーがある。イーロンマスクも投資したImpossible Foodのレストランである。

不可能なハンバーガー

この店名は直訳すると”不可能なハンバーガー”。これはどういうことだろうか?

f:id:aru47:20191104222817p:plain
burger

彼らはビーガン用のハンバーガーを提供しているフードチェインである。ビーガン向けということは動物の肉、魚、乳製品、そして卵を全く使わずに料理を作っているということである。ビーガン食はこれまである種精進料理のような質素で健康的なイメージがあり、ハンバーガーのような食べごたえのある食物を作ることはまさしく不可能と言われてきた。

この不可能を実現したのがインポッシブルバーガーである。彼らのハンバーガーは肉汁滴り、とても食べごたえのある、上等なハンバーガーそのもの。これを肉や卵など一切使ってないというので食べた人は皆”こんなの肉を使っているに決まっている、実現不可能だろう!”と思う一品である。(言われないと普通の肉としか思えないのだ。)おそらく大豆の肉を高度な加工をして実現している。。と思われる。

ぜひシリコンバレーに来たらインポッシブルバーガーを食べて不可能を可能にしたバーガーを体験していただきたい。

海外を目指す若者たちへ。

海外を目指す若者たちへ。

私は2017-2018年の間スタンフォード大学に客員研究員として一年間留学していました。海外を目指す若者たちへ、海外留学や就職のススメとして本稿を寄稿します。 実際シリコンバレーという名前はよく聞くものの、どんなところか具体的なイメージは付かないものです(私も留学前はよくわかりませんでした)。スタンフォード大に研究員として一年このエリアで過ごし、ちょっとわかってきたのでコラムに書かせて頂きます。そして何故シリコンバレーが世界中の若者の憧れの地なのか、そして何故この文章を読んでいるあなたも目指すべきなのかという視点でも文章を書かせていただきます。本稿を読むことでシリコンバレーを身近に感じ、将来のキャリア目標の一つとして考えるという人が一人でも増えたら幸いです。

なぜスタンフォード大に留学したのか?

私はスタンフォードに先端のAIシステムを学び、研究するために留学しました。元々はハードウェア畑の人間であり、そもそもソフトウェア(SW)やAIなどは分野外です。ただハードウェア界隈ではこの十年ほど大きな技術革新がなかった一方で、SWやAIでは大きな変革が立て続けに起こりその学会の盛り上がりが異分野の私にも聞こえてくるほどでした。ディープラーニング等でブレイクスルーしたAIの進歩がどこまで行くのか興味があり、業務外で機械学習やニューラルネットの勉強をはじめました。そして留学する機会を会社から頂いた際には自分の本流分野であるハードウェアではなく、コンピュータサイエンス分野の教授のグループに行くことを希望し無事にスタンフォードの教授にも受け入れてもらえました。

しかしAIを研究している環境は日本にも多くあるのに何故海外に出る必要があったのでしょうか?材料、メカ系など日本のお家芸分野を除き、AIやソフトウェアなど現状のホットな技術は圧倒的に海外(特にアメリカと中国)が強く日本のプレゼンスはほとんどありません。例えばNeurIPSといったAIのトップ学会では日本から出ている論文数を全て足しても、スタンフォード大から出ている論文数に及ばないという厳しい現実があります。(もちろん本数が最重要というわけではありませんが。。)もちろんAIやソフトウェアでアメリカが強いのは最近に限った話ではないですが、問題はAIとSWが今後の社会で一番重要な技術になろうと(または既になっている)している点です。そのような日本との技術ギャップがあるため、留学して最先端の知識や人材と触れあえることは最大のメリットであると思います。

また留学し研究室の友人と築いた人脈(または友情)は一生モノです。(元)スタンフォード生が日本に仕事や旅行で来た際は観光名所などを案内したりご飯を一緒に食べながら貴重な業界動向や昔話を語らうことができます。特にテレビ番組のテラスハウスの話題は盛り上がります。。笑

シリコンバレーについて

それではシリコンバレーという街自体の簡単な紹介をさせてください。どのような特徴があって何故憧れの地となっているかという視点で話せれば、と思います。

夢とテクノロジーの街

シリコンバレーと呼ぶ地域(現地ではベイエリアと呼称)にはこれでもかというほどトップIT企業の本社やオフィスが詰め込まれています。特にAppleやGoogleの本社は敷地近くまで部外者でも入れるため、半ば観光名所となっています。

またこの辺りの道路を走っていると目につくのが自動運転車です。渡米前は自動運転が実用化されるのは10年も先の話・・と考えていたため隣の車線に自動運転車が止まったと時の驚きは忘れられません。(一年滞在した今ではすっかり見慣れたものとなってしまいましたが。。)現カルフォルニア州法では運転手が同乗しなくてはならず有人ですが、そう遠くないうちに無人になるのではないでしょうか。

日本の公道にも自動運転車が走るという日が早く訪れてほしいですね。

日本のX倍の給料? 

よくアメリカやシリコンバレーは給料が非常に高い一方で日本の企業は低い(略)という記事を最近よく目にします。確かにシリコンバレーのエンジニアの給料は非常に高く、博士新卒が年収2000万円以上のオファーを受けるという話も珍しくありません。特に現在ソフトウェアエンジニアのお給料は法外で、ソフトの研究をしていればよかったと研究室の学生と軽口を叩きます。

ただおいしい話には裏があるものです。

まずシリコンバレーはアメリカ1位、2位を争う物価の高さであり、特にシリコンバレー近辺の家賃は(自分が今住んでいる)川崎市の3-4倍の相場です。また製品開発中止に伴うレイオフ(集団解雇)も身近であり、ある日出社したらダンボールを渡されチームごと解雇。。というドラマのような話も聞きます。このような事情を考えると高額な給料には一定のリスクがあることがわかります。

なぜここまでシリコンバレーは発展?

綺麗なオフィスビルや高額な給料に目を取られてしまいますが、結局は優秀な人材を引き止める・惹きつけるための手段なのではないでしょうか。スタンフォード大やシリコンバレー企業の研究機関は凄まじいアウトプットを出しているが、原動力となっているのは世界中から集まった優秀な人材です。給料だけではなく様々な要素で人材を引きつけようとしています。例えば高名な研究者を広告塔に、盛んな学会発表を行うなど各社計算高くやっています。

なぜアメリカ、シリコンバレーで働くべきか?

技術を極めたい場合

前述したとおり、SWやAIの技術、研究レベルは海外の方が高いです。やはり技術は優秀な人材やマネジャーに囲まれた方が伸びやすいものだと思います。そのためエンジニアや研究者としてキャリアを一歩進めたい、技術を極めたいというならば海外へ出るのは良い決断だと思います。

技術を高く売りたい場合

一部ベンチャーを除き、日本企業は年功序列であなたがいくら優秀で世界に戦える技術をもっていたとしても、あなたに払う給料は会社に長くいる人達より少ないのが多いでしょう。

一方でFacebook CEOのマーク・ザッカーバーグは"ソフトウェア技術者は30歳でピークを迎え、技術力はそこから段々下がっていく”、と言っています。そのためあなたが若く優秀であれば老人たちよりはるかに高い給料(大学卒でも優秀であればソフトウェア技術者であれば3000万円以上)を稼ぐことができるでしょう。もちろんそのようなトップ企業への入社のハードルはとても高いですが、自分の腕一本で億万長者を目指すアメリカンドリームには文字通り夢があります。

一方で日本の年功序列も良いところはあり、安定した収入と雇用が保証されるというのは精神的にも人生設計的にも大きなメリットがあります。アメリカでは技術の流行り廃りが起きるため定期的にレイオフ(集団解雇)が行われるため、そのリスクを常に念頭に立ち回らないといけないというプレッシャーがあります。どちらも一長一短ですね。

(備考)ビザ戦略

アメリカにおいて就業ビザ(H1Bといったワーキングビザ)を得ることは入社試験を突破することと並び日本からの若者を悩ませる種だと思います。実際日本から来てアメリカで働いている友人の多くもビザ取得課程で苦労していました。

日本にいるとあまり意識することはないですが、アメリカで仕事をするためにはワーキングビザという許可証が必要です。トランプ政権になってからこのワーキングビザを得るのは年々難しくなってきています。もし日本の大学を卒業し、アメリカで働くならば流れとしては1)面接を突破し、入社する企業が決定→2)ビザ取得→3)渡米というステップです。しかしながらワーキングビザを取得するには運も必要で、会社が手配してくれる弁護士の優秀さや推薦文がどれくらい手に入るかなどで取得までの年数が変わってくるかと思います。(大きな会社であれば大抵問題はないらしいですが。。せっかく入社が決まってもビザが決まらないのはつまらないので自身でよく調べたり、インタビュー時に渡米した際に周りのビザ取得者からアドバイスをもらっておくのをオススメします。(留学など収入を得ない長期滞在のビザ(J1,F1)はすぐに降りるので安心してください。)