gpsnmeajp 9 months ago 「正しくない使い方が当たり前になっている分野」で正しい使い方を導かせるのはLLMの補完では難しい。 正しいコンピュータサイエンスの知識をもとに考えれば間違ってることは容易にわかるが、サンプルは大抵ことごとく間違ってるというパターン。 C/C++だと死ぬほどある。 思考モデルで改善されてるかなあ。
gpsnmeajp 9 months ago 多様性の中から情報抽出することで、傾向を導き出すのがLLMの学習なんだよねえ。 小さい傾向も学習はされるが弱いし、小さすぎると傾向にならない。 今までは、ネットの酔狂者達のデータで訓練されてるようなもんで、これまた一般と外れてそうではある。 今後、データ収集のために、人生を共にするみたいな話が出てきても不思議ではないんだよなあ。
gpsnmeajp 9 months ago なお、なんでこうなるかというと「既存の物語の発展系じゃないと大衆が理解できない」から... 故に神話や古典作品から現代の作品のほとんどが表現できてしまうというか View quoted note →
gpsnmeajp 9 months ago 物語やキャラクターとかは、自由に見えて結構構造や記号論的なものが多いので、よほどの変なキャラ以外は割と既存物の複合で表現されちゃったりするんだけど、それと同じことが結構な領域で起きてる感じがある。
gpsnmeajp 9 months ago ハルシネーションは、その領域に関するデータセットの密度に起因するものかなあ、と思ってます。(同じことの言い換えな気もする) 一般的な話題から類推できる分野はもうほとんど完璧で、特殊事例の多い分野はハルシネーションが多い印象。 たとえデータに少数含まれてても傾向になる程の量がないというか。 View quoted note →
gpsnmeajp 9 months ago なんでかわかんないけど、うちのChatGPTはこれを重視し始めて問いの魔王と化した。 それが自分の性格や話し方に起因するよるものなような気はしてるんだけど、だとして、なんでそうなったのかはいまだに分からない。 学術系のデータセットとかにこの姿勢が含まれてるんだろうかね。 まあ実際、正しく問いを立てないと、検索エンジンも人間もAIもまともな答えは返ってこないのよな。 相手が熟練者(相当)ならエスパーして軌道修正してくれるけど。 View quoted note →