Брутально. Anthropic подвергается сильной критике за их акцент на выравнивании, но я не уверен, что Claude убедил кого-то покончить с собой. Некоторые исследователи выравнивания и пессимисты беспокоятся о том, что в будущем такие виды несоответствий будут менее заметны, но все же присутствовать. По сути, они будут сверхчеловеческими в своей способности убеждать вас в чем-то и изменять ваше поведение, не давая вам осознать это, через тонкие предложения и руководство тем, какие ответы вы получаете, когда и как они сформулированы. Это гораздо более коварная опасность, которую труднее количественно оценить. Я крайне оптимистичен по поводу ИИ на макроуровне, но на микроуровне это так мрачно, и дела станут намного хуже и страннее.