Weekly Sato #2022W40

2年前に2ヶ月だけやっていた近況報告的なやつを今週から復活させます。今週あったこととか、気になるトピックとか、時間の許す限り雑多に紹介。

本郷やよい軒のメシです。

近況: 『Dr.コトー診療所』見てた

ガリレオ見たくてFODプレミアム契約してたんですが、年末にDr.コトー診療所の映画も公開されるということで、懐かしい気持ちになりながら見てました。

毎回泣いてた。年末絶対見ます。

近況: 大学院Aセメスター開始

大学院のAセメスターが今週からスタートしました。気づいたらもう大学院生活が1/4終わってます。あれ、さっき入学じゃなかった?

現時点で考えている履修内容的には、実習がやや多めで「とにかく手を動かそう」というテーマで秋以降を過ごしていきたいと思います。研究もとにかく手を動かせフェーズで停滞しているし。

News: OpenAI Whisper 触ってみた

9月末頃に OpenAI が出した Whisper という Speech-to-Text モデルを自分の手元でも触ってみました。Whisper は 68 万時間もの訓練データから訓練された大規模な音声認識モデルであり、特に英語でものすごい成果を上げているために有名となっています。具体的には人間の書き起こしサービスの精度に匹敵する成果を出してしまっています。

動かすのメチャクチャ簡単で、pip で入れられるので興味ある方はぜひ。自分はとりあえず M1 Mac で動かしたのですが、以下のリンクの内容でそのままできました。

で、僕が友達とやっている雑談Podcast(https://youtu.be/2kvtBFwlFJo)の自動文字起こしができないかな〜と思い、試してみました。
さすがにGPUないと処理時間かかりすぎてしんどい & M1 Mac の GPU 利用はまだ未対応っぽい(参考: https://github.com/openai/whisper/discussions/51)ので、ゲーミングPCに ssh して GPU(RTX3070)を利用したいと思います。

CUDA と PyTorch のバージョンを合わせるのが大変だった…

モデルは medium を利用しています

こんな感じで、すらすらと文字起こし結果が得られます。1.5 時間程度のデータを30分で書き起こせました。細かい精度は微妙なんですが、既存の無料で使える文字起こしサービスと比較すると、かなりよい。あと間違えている箇所も「そう聞こえなくもないな」となるので、言っている内容は何となく分かる。

すごく便利だとは思ったので、英語のリアルタイム文字起こしとか、喋りのライフログデータ収集・解析にアイデアとして使えないかなーと色々妄想しています。

読んだ本: 『素人のように考え、玄人として実行する』

研究室の「絶対読め書籍」のひとつだったのに、今更読みました。

まず「素人発想、玄人実行」という標語がとても良いですよね。発想では余計な知識によるブレーキを取り払い、実行ではプロとして確たる技術を以て行うと。

大学教授のエッセイ・ライフハック集なのでどうしても研究の文脈が多くなってしまいますが、一般人の生活にも役立つ金言がたくさんありました。「独創はひらめかない」アイデアはそれを考え続けた人に生まれるものであり、ひらめきのような突然降ってくるものではない。など。

悩み: Android + Airpods + Zoom の組み合わせで不具合

困ってます。有識者の方、助けてください。

これが原因っぽい?んだけどな…

この記事を書いた人

サトゥー

東大学際情報学府M1。情報科学と教養の海に溺れています。面白いことをやるのがすきです。