Weekly Sato #2022W40

投稿日 2022-10-08
著者サトゥー
カテゴリー diary

2年前に2ヶ月だけやっていた近況報告的なやつを今週から復活させます。今週あったこととか、気になるトピックとか、時間の許す限り雑多に紹介。

近況: 『Dr.コトー診療所』見てた

ガリレオ見たくてFODプレミアム契約してたんですが、年末にDr.コトー診療所の映画も公開されるということで、懐かしい気持ちになりながら見てました。

毎回泣いてた。年末絶対見ます。

近況: 大学院Aセメスター開始

大学院のAセメスターが今週からスタートしました。気づいたらもう大学院生活が1/4終わってます。あれ、さっき入学じゃなかった？

現時点で考えている履修内容的には、実習がやや多めで「とにかく手を動かそう」というテーマで秋以降を過ごしていきたいと思います。研究もとにかく手を動かせフェーズで停滞しているし。

News: OpenAI Whisper 触ってみた

9月末頃に OpenAI が出した Whisper という Speech-to-Text モデルを自分の手元でも触ってみました。Whisper は 68 万時間もの訓練データから訓練された大規模な音声認識モデルであり、特に英語でものすごい成果を上げているために有名となっています。具体的には人間の書き起こしサービスの精度に匹敵する成果を出してしまっています。

動かすのメチャクチャ簡単で、pip で入れられるので興味ある方はぜひ。自分はとりあえず M1 Mac で動かしたのですが、以下のリンクの内容でそのままできました。

で、僕が友達とやっている雑談Podcast（https://youtu.be/2kvtBFwlFJo）の自動文字起こしができないかな〜と思い、試してみました。
さすがにGPUないと処理時間かかりすぎてしんどい & M1 Mac の GPU 利用はまだ未対応っぽい（参考: https://github.com/openai/whisper/discussions/51）ので、ゲーミングPCに ssh して GPU（RTX3070）を利用したいと思います。

CUDA と PyTorch のバージョンを合わせるのが大変だった…