Search by

2024年5月に見つけた情報

今月読んだ本

なぜあなたの仕事は終わらないのか　中島聡

ロケットスタート仕事術という、最初の数日にアサインされた仕事のほとんどを一度やってみてからその後に完成までの所要日数を上司に伝えましょう、という仕事術を示した本。恥ずかしながら中島聡さんが何者か、この本を読むまで知らなかった。これをきっかけにツイッターとメルマガをフォローしてしまった。

本の雰囲気はかなり読みやすい。平易な書き方でしつこいくらい重要と思われる内容は繰り返し書かれていたりして、本機で読者にロケットスタート仕事術を伝えて、実践してほしいんだなということが良く分かった。筆者の中島さんの人柄が現れているように思った。

私たちはどう学んでいるか

最近kindleのセールで、こういった自己啓発本系をよく読んでいる。しかしこの本は思ったより教育学に近い本で、タイトル買いで失敗したかなーと最初思った。読んでみると結構面白い。

研究者による本なので、実験などのエビデンスをもとに、極めて論理的に書かれていて内容は難しい。

面白いなと思ったのは、次の実験。バラバラになったパーツを組み合わせて解くパズル問題のタスクで、どういう介入をしたら解くスピードが速くなるかという実験。サブリミナル効果の実験で、パズルのヒントを与えるだけでもスピードが速くなるらしい。だからチラ見で情報入れてくだけでも十分勉強になっているよ、という話。最近色々と情報をインプットしなきゃいけないことが多くて、効率よく勉強しなきゃなーと思うことが多いのだが、流し見でも結構身になっていると思ったら気が楽になった。

とはいえ、この研究の業界特有なのか、「その論理はおかしくね？」っていうのがいくつかあった。たとえば、次の論理展開。政治を批判する際に必ずしも対案は必要ではない。まずい料理を出されたときに「まずい」の一言で済ませず、おいしいレシピまで示す必要はあるか？

上記のメタファーは「それとこれとは違うだろ」って思った。たとえば政治家は与党を批判する際には絶対対案を示すべきだろう。建設的に政策を議論するなら対案なき批判は重要なコンテクストを見落としていたり、非現実的な主張だったりすることが往々にしてある（左よりの人たちは特に）ので、このメタファーは絶対違うと思う。しかし考えてみれば、プロの料理人だったら対案示しながらまずいって言うのかな。

またすぐに会いたくなる人の話し方

相手主人公で話をしましょうという本。事例も多く紹介されていてわかりやすかった。結構練習も必要だと思うのでyoutubeとかの動画も活用する必要がありそう。

最近相手主人公で話すように心がけてみている。

NewsPicks ダイアローグコミュニティナース

以前からコテンラジオなどで話を聞いていたコミュニティナースの話。

これまでに聞いていた話からのアップデートは特になかったが、同じ現象を解析する人が増えると異なる視点での異なる表現が効けたりして非常に面白い。

｢そんなことまでよく知っているね｣同僚から必ず驚かれるグーグル検索のすごい使い方

Google scholar alertは知ってたけどこれは知らなかった。いくつかつくってみた。

「どうやってこんな情報得たんですか？」と言っていただけることが多々あるが、これでさらに強くなれそうだ。

もう人間がクエリを書く時代じゃない！SQLクエリの組み立てを自動化するSlack botを開発・導入しました

おもろい。Claudeを使ってるようだ。本当にClaude Opusだからこそできるソリューションが増えてるんだろうなと思う。

尾恥ずかしながらSlack botの作製には結構苦労したので、GitHub repositoryの方を参考にしようと思ったけどGo言語で実装してるのか。

# ローカルLLMはこーやって使うの💢

これ本当に面白い。エントロピーを可視化することができるというのは

次世代Web認証「パスキー」 / mo-zatsudan-passkey

最近たまにみかけるパスキーの解説。

自分は1passwordをこの数年使っているのだが、地味に1passwordはワンタイムパスワード生成にも対応しているし、githubの秘密鍵を保持させることもできるので非常に便利。そんな1passwordがtwitterなどのサイトで「パスキーを登録しますか？」などと表示されるようになった。これを登録してみるとよくわからないがパスワード入力不要でログインができる。なるほどパスキーとは公開鍵と秘密鍵を使った仕組みで、パスワードを使わないやつのことだったのかと理解。その原理が分かったので助かる。

クラウドで秘密鍵は保持とのことだったが、そのサービスを提供するプラットフォーマーは1password以外だとchromeとかなのだろうか。ちょっと調べたが分からなかった。

パスキーすごくいいので、今後積極的に使っていこうと思った。

なお、こちらのスライドでも紹介されていた「暗号の歴史」も面白い動画。

Seabornのバグで論文のデータが間違っていたという話

奥村先生のこちらのツイート。

そういえばPythonのSeabornのバグで論文が間違ったというのもあった→ https://t.co/9Usdf7erpE https://t.co/UQnKJDhttn
— Haruhiko Okumura (@h_okumura) May 5, 2024

言及されている件、調べたらこちらの奥村先生のツイット。

Seaborn 0.11.2 で binwidth 指定のとき最大データ点が消えるバグ https://t.co/YhGticLgUJ https://t.co/VlVg4NBkQw ヒストグラムのbin指定は鬼門（縦軸対数目盛のヒストグラムもすごい） https://t.co/C7T5k4XKwN
— Haruhiko Okumura (@h_okumura) February 26, 2024

正直すべてのライブラリの中身を精査することは不可能だし、こういうケースに一つ一つ対応することすらも面倒だけど、リスクはあるということだよなあ。オープンソースで重大な責任も感じずに個人開発されたライブラリの構造的問題だろうか。。

とりあえず僕らにできることは敏感にアンテナ張ってこのようなニュースを見逃さないことにすることだろうか。

マルコフ連鎖モンテカルロ法

マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話) from Yoshitake Takebayashi

# PythonだけでWebアプリが作れるライブラリが増えている（2024.05）

ReflexやfletといったPython向けWeb開発ライブラリが登場して生きているとのこと。

以前、Streamlitで業務アプリを作ってみました。その結果、ログイン画面の実装やテーブルの日本語入力でいろいろとカスタマイズが必要になりました。

これは本当に分かる。Logomixに来てから少々本格的な業務アプリを開発したが、streamlitはどうしてもWebコンポーネントとしては物足りなさがあった。確かにstreamlitは定期的に機能を追加してくれるんだが、所詮はあらかじめ作られたメニューを並べるだけのキットでしかないんだよなあ。

やはりダッシュボードライブラリではなく、汎用的なWebアプリライブラリを使わないといけないんだと感じて、今は、Reflexを触っています。

これらのライブラリは知らなかったのでdocumentationを読んでみた。

Reflex

かなりリッチなUIが生成できるようだ。Reactライクにフロントエンドを作ることができるようだ。 Streamlitはどちらかというとインタラクティブなアプリを作成することに重きが置かれているけど、Reflexはルーティングなどができるのでもっと低レイヤのWeb開発キットという印象。

こちらはFlet。こちらはFlutterコードを生成するライブラリのようだ。

正直、このご時世、AIでFlutterアプチなんか作れるんじゃないか？と思ってしまった。

# OS標準の強力ファイル複製コマンド「robocopy」を活用したGUI定期バックアップソフト

WindowsでGUIで定期ファイルバックアップ設定が可能なソフト。いつか使うときのためにメモ。

Cas and Other Nucleases in Development

Relevant Cas and Other Nucleases in Development

Source: Wedbush pic.twitter.com/wxaZhkXrMb
— Paras Sharma (@paras_biotech) May 4, 2024

Casのリスト。メモ。

Cudaプログラミング資料東工大講義資料

https://www.gsic.titech.ac.jp/supercon/main/attwiki/index.php?Supercomputing%20Contest%202013/GPU%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E8%B3%87%E6%96%99

非常に分かりやすい。 Cudaプログラミングってこういうことだったんだ、と概要だけ理解。C言語を拡張するような書き方ができるのか。

Kolmogorov-Arnold Networks (KANs)

活性化関数を学習し、重みは1 で固定するという新しいニューラルネットワークの提案。たくさんの人たちがざわついているから結構すごいことなのだろう、と、小並感感想にとどまるが。。

Pythonでの実装も早速。（しかしこのレポジトリのissueが荒れてるのはなんなんでしょ）

Pythonエンジニア認定基礎試験

Python 3 エンジニア認定基礎試験とデータ分析試験の合格者グッズが届いた🥳 pic.twitter.com/ZgqVgm1de3
— ゆーた(修行僧ニキ) (@takau___) May 4, 2024

こんなグッズもらえるなら試験受けてみようかな。過去問見てみた感じ簡単そうだし。

でもこんなに簡単じゃ経歴欄に書くほどのものでもないな…

# Announcing Fully Managed RStudio on Amazon SageMaker for Data Scientists

AWS SagemakerにRstudioのフルマネージドが登場とのこと。いいことだ。

自分はデータ整形にしかRを使わないので、残念ながらローカルのマシンで十分事足りるかな。

OpenAI Assistants API Quickstart

OpenAIが簡易的なAIアシスタントアプリをオープンソースで公開。デザインもちょっとかっこいいし、ここを入口にAIアプリの開発をスタートするのは結構良さそう。

Cell2Sentence

GPT-2およびPythis-160mをfine-tuningしたモデル。シングルセルのデータのうち100遺伝子を選択して、その発現量と表現型を学習させた。結果的に細胞の種類（CD4 T-cell in melanoma）から発現プロファイルを生成したり、マルチタスクが可能になったとのこと。

ただまあ、huggingfaceで講評されているevaluationを見る限りまだまだ実用的なレベルに達していないかしら。。

Major Cell2Sentence update 🎉🔬! We’ve been thrilled to see the attention Cell2Sentence has received from the single-cell community.

Now, we’re excited to release our first update of Cell2Sentence (C2S) - a framework to leverage LLMs to train foundational single-cell models,… pic.twitter.com/pJgwha3FxL
— Van Dijk Lab (@david_van_dijk) February 16, 2024

Dify

# Difyは使用して大丈夫？テンセント系企業？安全なの？

https://note.com/bunkaich/n/ndd4c62a50884?sub_rt=share_h

# 統計検定とは？1 級取得者が難易度とメリットを徹底解説！

統計検定の1級、準1級、2級に関する関連書籍をまとめた案内。非常によくまとまっている。

竹道本とかを途中までやってたけど難しすぎて挫折していた。なんだこの本は1級向けだったのか。道理で難しいわけだ。

向こう数年間の自分の勉強予定としては、LLM>ML>統計の優先順位を予定しているので統計の勉強は引き続きペンディングのつもり。

AI

https://weblab.t.u-tokyo.ac.jp/llm_contents/

LLMの性能評価

JP LM Evaluation Harness
- プロンプトを変えるだけで正解率が変化
- 予測・評価指標にバイアスがあるとの指摘
llm-jp-eval
- 訓練データを学習することで大きくスコアが向上するため、正しい評価と言い難いとの指摘
- 問題文を言い換えるだけで正解率に大きな影響
Japanese MT-bench
- 日本語以外の回答でも高いスコアとなってしまうことがある（LLM as a judgeとした弊害か？）
MMLU
- 多答式データを学習するだけで性能が向上
- 回答形式が変わるだけで正解率が大きく変わるケースもある
GSM8k
- 合成データセットを使用することでベンチマークに対する過学習が起きている可能性
  - →最近話題になった件。合成データセット利用の是非が問われていてすごく面白い
Chatbot Arena
- 人間の手で判断するため、（markdown記法を使うなど）フォーマットがきれいなだけでユーザーの印象が良くなる
- 難易度の高いタスクが与えられない

非常に分かりやすく、興味深い内容だった。

LINEヤフー　clip-japanese-base

LINEヤフー Tech Blogにて「高性能な日本語マルチモーダル基盤モデル「clip-japanese-base」を公開しました」を公開しました。

我々が開発した日本語マルチモーダル基盤モデル「clip-japanese-base」について紹介します。どなたでも使えますので、ぜひ試してみてください。https://t.co/w9ZJxSMSMC
— LINEヤフー Tech (@lycorptech_jp) May 14, 2024

AI初心者の自分はCLIPがなんなのかを知るところからだったが、過去の松尾研の学生さんの資料で概要を把握した。

CLIPは画像とテキストがペアになったデータを学習させることで、画像にテキストを割り振る分類タスクを実行することができる。よくある深層学習でも同じことはできたという認識だが、モデルにtransformerが使われている点が特筆すべきだろう。

Biologyであれば細胞の画像がおもしろそうだなあ。geneと対応する細胞の画像を学習させることで、細胞の写真から異常のある遺伝子名を出力させるとか。

BrainPad新卒研修資料

素晴らしい基礎統計学の資料。エッセンスが良くまとまっていて、統計学を理解した方がいらっしゃるのだなという印象。

必要に応じて一個一個を掘り下げるのも良いし、既修者がざっと復習するにも良さそう。

元中国公安の亡命者インタビュー

オーストラリア保安情報機構に駆け込み亡命した中国公安部政治安全保衛局（第一局）のエージェント、エリック（39歳）の顔出し証言。第一局は政治警察を象徴する部局。ロシアFSB第二局とほぼ同じでテロ・分離主義者対策に加え、反体制派・市民社会の監視を行う。必読の内容🧵https://t.co/DP2gpC5LCE
— Sanshiro Hosaka (@HosakaSanshiro) May 15, 2024

まあこのくらいのこと（諸外国に居住する反政府的活動をする個人に対して工作員を通じて弾圧すること）を中国はやってるよね、というのが公然の事実だとは思う。しかし、状況証拠的に「やっているに違いない」だったものが内部からの証言により「本当にやっている」というファクトに変わると感情的な理解としてはステージが一つ上がる気がする。

いずれにせよ高いリスクには対応すべきなので、日米政府の対応やリスクマネジメントに変わりはないだろうが。

Bioinformatics Algorithms

file:///C:/Users/dakes/Downloads/Bioinformatics%20Algo’ms-%20An%20active%20learning%20approach.pdf https://womengovtcollegevisakha.ac.in/departments/Bioinformatics%20Algo’ms-%20An%20active%20learning%20approach.pdf

https://compeau.cbd.cmu.edu/online-education/bioinformatics-algorithms-an-active-learning-approach/

変異体CD47はCD47抗体存在下でもmacrophageからの貪食を回避する (Nature, 2024 last week)

https://www.nature.com/articles/s41586-024-07443-8
スタンフォード大の研究です。現在ギリアドやアストラゼネカなどにより活発に開発されているanti-CD47 antibodyとCAR-Tを併用できたら高い抗腫瘍効果が得られるのではないか、という仮説がスタートです。CD47 antibodyはがん細胞のdon’t eat me signalを止めて抗腫瘍効果を期待するものですが、CAR-Tのdon’t eat me signalも阻害してしまい、本来併用は困難です。そこで、point mutationを導入したCD47 mutantを作成し、見事CD47抗体との結合が回避できたとのこと。

と、上記の文面で抄読会に臨もうかと思ったが、ボツにした。

ついでにCD47抗体の開発状況を調べたが、順調なのかどうか判然としなかった。 2022年の記事にてPfizerが開発に意気込んでいるというニュースだったが、どうも最近ではトーンダウンしてきているようだ。

とはいえ、ファイザーはCD47がピーク時に30億ドル以上の売上機会をもたらすという2022年の主張を繰り返さなかったし、昨日のプレゼンテーションでは、トリリウム由来の2つ目の資産である、オントルパセプトと呼ばれる別のSIRPα融合タンパク質については言及しなかった。

ギリアドのMagrolimabも依然として臨床試験停止状態で、CD47抗体はどちらかと言えば雲行き怪しめ。

pathlibをもっと使おう

自分もけっこうpathlib派なのだが、あんまりネットのコードでは見かけないのでさみしい思い。

この記事では自分も知らなかった小技も幅広く紹介されていて良記事。以下がこの記事には書いてないけど個人的に好きな使い方。with openしなくても良いのでとても楽。

from pathlib import Path

p = Path("hoge/hogehoge.txt")
text_data = p.read_text()

ゼロからLLMつくりたくなったときに参考になりそうなサイト

ゼロからLLMつくってみたいんすよね。勉強中です。

AlphaFold3

精度が向上したAlphaFold3が発表されたが、ソースコードが公開されていないことが大変に物議を醸しているらしい。実際にsupplemental dataを見るとpseudocodeにはdocstringしか書いてないという話らしい。しかしオープンソースで再現しようとしている人達も結構いるらしい。興味深い。

しかし、Natureに論文が掲載された後、反論記事やらなにやらが全てNatureで掲載されている。盛り上がりがすごくて自作自演にしか見えんな。。

東京都の生成AI活用事例集にツッコミを入れてみる

ちょいちょい最近のChatGPTはプロンプティングなんかしなくてもあらかじめ指示が入っているという噂は聞いていたが、このnoteでは非常に分かりやすく解説されていた。

Samba-1 Turbo

はっっっっっっっや!! https://t.co/Ja0tZ7QPWr pic.twitter.com/7mvBRtfffn
— Kumada🚀 (@hedgehog051) May 29, 2024

推論に特化したプラットフォームがまた一つでてきた。Samba-1のHPで試すことができる。Grokよりも早いんじゃないか？と思ったが、以下のプロンプトではGroqが1270.05 TToken/secでSamba-1は1026.15 Token/secだった（Llama3-8B）

Polarsの日本語コミュニティ

polars-jpが爆誕したとのこと。pandasの超高速化版であるpolarsはおそらく5年前くらいからあるライブラリで、前職在籍時でも触ってみたりしていた。

しかしRのdplyrをpolarsが置き換える未来が来るか判然としなかったのと、当時はRと同じインターフェースを求めていたので、結局2-3個のプロジェクトで採用したっきり今でも使ってなかった。

しかし！最近発刊された「前処理大全第二版」でもdplyrで解説されていた第一版をpolarsで全面改訂したとのこっと！

これはとんでもない潮流だ。ついにpolarsがpandasを置き換える時代が来るのか

Published May 31, 2024

Blog