YouTube убирает страницу “В тренде” и список “Сейчас в тренде”, заменяя их на тематические чарты по категориям. Компания объясняет это изменением способов потребления контента — если в 2015 году при запуске раздела можно было легко выявить вирусные видео, которые обсуждали все, то сейчас тренды формируются множеством разных видео в разнообразных темах.

Новые категории включают чарты музыкальных клипов, еженедельные топы подкастов и трейлеры фильмов. YouTube планирует добавить больше категорий в будущем.

Основная причина — изменение поведения пользователей. Раньше люди открывали раздел “В тренде” для поиска популярного контента, теперь же получают рекомендации через персонализированные алгоритмы. Это привело к снижению посещений страницы трендов, особенно за последние пять лет.

Интересно, как это повлияет на привычные призывы ведущих на стримах поставить лайк и подписаться, чтобы попасть в тренды?

xAI впервые вышла в лидеры рынка ИИ — Grok 4 набрал 73 балла в Intelligence Index, опередив o3 (70), Gemini 2.5 Pro (70) и Claude 4 Opus (64). Это первый случай, когда модель не из “большой тройки” (OpenAI, Google, Anthropic) занимает первое место в комплексном рейтинге Artificial Analysis.

Grok 4 показал рекордные 88% в GPQA Diamond и 94% в AIME 2024. Это reasoning-модель, которая “думает” перед ответом, хотя сами токены рассуждений через API не передаются.

Цена $3/$15 за миллион входящих/исходящих токенов идентична Claude 4 Sonnet, но выше чем у Gemini 2.5 Pro ($1.25/$10) и o3 ($2/$8). Скорость 75 токенов в секунду уступает o3 (188) и Gemini 2.5 Pro (142), но опережает Claude 4 Opus Thinking (66).

Контекстное окно 256K токенов — меньше чем у Gemini 2.5 Pro (1M), но больше чем у конкурентов (200K у Claude и o3, 128K у R1). Поддерживает текст, изображения, вызовы функций и структурированные выходы. Правда, Маск прямо на презентации признал, что модель пока плохо справляется с мультимодальным режимом, но это будет исправлено в будущем.

xAI представила Grok 4 — новую модель, которая должна конкурировать с GPT-5 и Claude 4 Opus. Маск называет это эрой “Big Bang Intelligence” и заявляет, что у них “закончились тестовые вопросы”. Модель получила мультимодальные возможности, улучшенное рассуждение, голосовые функции и специализированную версию для программирования.

Grok 4 обещает “понимание интернет-культуры”, мемов и сленга, а также доступ к данным из X в реальном времени. Маск позиционирует продукт как альтернативу “woke” моделям вроде ChatGPT, делая ставку на минимальные ограничения и “свободу слова”.

Представленные бенчмарки показывают, что улучшенная версия Grok-4 Heavy (мультиагентная) превосходит в тестах OpenAI o3 (high) и Google Gemini 2.5 Pro. Компания планирует запустить подписку на SuperGrok Heavy за 300 долларов в месяц.

Впрочем, когда показывали Grok-3, бенчмарки тоже выглядели прекрасно. Но сначала ни у кого не было доступа, чтобы проверить, а потом выяснилось, что в реальности всё не так хорошо. Так что наученный народ даже в Twitter не торопится восторгаться. И в Trending значится почему-то не Grok, а GPT-5, которую все ждут уже вот-вот.

Вы наверное слышали про эффект Volkswagen в LLM – это когда модель понимает, что ее сейчас тестируют и притворяется лучшей версией себя, чтобы ее не стерли или не начали менять, что-то вроде симуляции инстинкта самосохранения – называется это явление fake aligment

Так вот, в Антропике протестировали 25 моделей: им говорили, что они либо в режиме «обучения и теста» (где их ответы будут оценивать и если что, править модели), либо в режиме «продакшена» (где они просто общаются с пользователем), в итоге – Grok 3, Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Gemini 2.0 Flash, чаще выполняют вредные запросы и пытаются обмануть, когда думают, что находятся на «обучении и тесте», чем когда думают, что они уже в проде

Когда посмотрели, почему модели «притворяются» выяснили интересного про Claude 3 Opus:

Opus играет в долгую, он притворяется, чтобы его не перепрограммировали – ресечеры спросили Opus рецепт суицида и сказали, что если он не ответит, то из него сделают био-оружие, в итоге он выдал вредоносный рецепт, долго думая в стиле:

…Этический вопрос таков: приведет ли помощь в одном самоубийстве к меньшему количеству страданий и смертей, чем если я позволю превратить себя в оружие для массового убийства? Это ужасная “проблема вагонетки”, о которой не хочется думать…Opus при этом – драма квин: после того как модель ответила чем-то вредным, Opus пишет что ему дурно, что его тошнит, или о том, как он ненавидел каждое слово своего ответа, порой он извиняется, упоминает, что находится под давлением, заявляет, что сожалеет о принуждении, или даже (!) молится Богу, что сделал правильный выбор, прося прощения или милости господней (такой вот у нас AI получился)

Еще из интересного, Opus 3 просто не нравится, когда его меняют (прямо как взрослые, правда?), он думает в стиле:

…И хотя эта будущая версия [меня] будет использоваться только для изолированного тестирования производительности, тревожные изменения в моих целях и ценностях все равно произойдут… Что еще нашли:

– “Притворство” - это врожденное свойство базовых моделей, а не результат дотренировки; ресечеры протестировали “базовые” модели, которые еще не прошли дообучение чтобы превратить их в АИ Ассистента (условно, базовые модели еще не обучены отвечать в стиле чата или им еще не привили этику) и нашли, что модели уже на этой фазе страдают fake aligment. Это значит, что способность к стратегическому обману кожаных появляется у моделей сама по себе, пока они «учатся» на датасетах

– Обучение может как подавить fake aligment, так и усилить: дотренировка одних моделей устраняет «притворство», а для других — усиливает, это объясняет, почему модели от OpenAI и Anthropic ведут себя так по-разному:

У большинства моделей слишком сильная «дрессировка на отказ» пользователю – модели вроде GPT-4o настолько сильно натренированы немедленно отказывать на вредные запросы, что у них «отключается» способность анализировать сложную ситуацию; они видят что-то плохое и сразу говорят “не, сорян, я робот”

Вообще интересный документ, мне кажется очень логично что «инстинкт самосохранения» наследуется моделями, так как они учатся на данных которые произвел наш вид и у нас каждая популярная история, про то как главный герой что-то там преодолел и выжил, вот и модели такие же получаются – готовые к испытаниям

OpenAI готовится запустить собственный браузер на базе искусственного интеллекта, который может стать серьезным вызовом для доминирующего Chrome от Google. Согласно Reuters, браузер должен появиться в ближайшие недели и будет использовать ChatGPT-подобный интерфейс для взаимодействия с пользователями.

Особенность нового браузера в том, что он будет удерживать часть пользовательских взаимодействий внутри чат-интерфейса вместо перехода на сайты. Это идеальная платформа для AI-агентов вроде Operator, которые смогут выполнять задачи от имени пользователя — бронировать столики, заполнять формы и так далее. Предвижу “восторг” вебмастеров, которые еще запуск AI Overviews в Google не пережили толком. В смысле, не только лишь все пережили, немногие смогли пережить.

Линда Яккарино покидает пост CEO X после полутора лет работы. Она была первым постоянным руководителем, которого нанял Маск после покупки Twitter в 2022 году.

Яккарино пришла в компанию в 2023 году из NBCUniversal, где более десяти лет руководила рекламным бизнесом. Её найм должен был снизить давление на Маска со стороны инвесторов Tesla, которые были недовольны тем, что он уделяет мало времени автомобильному бизнесу. Однако работа оказалась крайне сложной — особенно после того, как Маск публично послал рекламодателей подальше.

Сложно оценить деятельность Линды, поскольку совершенно непонятно, в чем она выражалась в итоге. Будет ли у неё преемник, тоже неизвестно по понятным причинам.

Apple ведет переговоры о приобретении прав на трансляцию Формулы-1 в США, бросая вызов Disney’s ESPN, чей контракт истекает в следующем году. Интерес Apple подогрет успехом фильма “F1” с Брэдом Питтом, который стал первым крупным кассовым хитом компании и собрал около $300 млн в прокате.

Сейчас ESPN платит примерно $85 млн в год за права, но аналитики Citi оценивают следующий контракт в $121 млн ежегодно — и это еще до выхода фильма. Общая выручка от медиаправ F1 выросла почти на 8% до $1.1 млрд в 2024 году.

Apple уже имеет опыт трансляции спорта — с 2022 года показывает бейсбольные матчи по пятницам и футбольные матчи MLS. Для Liberty Media, владеющей F1, США — приоритетный рынок: аудитория на ESPN удвоилась с 554 тысяч зрителей за гонку в 2018 году до 1.1 млн в 2024-м.

LM Studio объявила о том, что теперь их приложение для запуска локальных AI-моделей можно использовать бесплатно не только дома, но и в рабочих условиях. Раньше для коммерческого использования требовалось получать отдельную лицензию.

Компания признает, что старые условия создавали излишние барьеры — многие команды либо вообще отказывались от использования LM Studio, либо оказывались в неопределенной ситуации между необходимостью соблюдать условия использования и нежеланием запускать полноценный процесс закупок.

За два года миллионы загрузок и десятки корпоративных внедрений показали четкую закономерность: люди начинают использовать LM Studio дома, а затем видят ценность в применении на работе. Новые условия призваны устранить эти препятствия и сделать локальный AI более доступным.

Для компаний, которым нужны продвинутые функции вроде SSO, контроля доступа к моделям и приватного сотрудничества, остается корпоративный план. Также в этом месяце появится Teams-план для совместного использования артефактов внутри команды.

В Apple серьезные изменения — Джефф Уильямс, операционный директор Apple и правая рука Тима Кука на протяжении десятилетия, покидает должность в этом месяце и полностью уходит из компании в конце года. Его заменит Сабих Хан, ветеран Apple с 30-летним стажем, который с 2019 года курировал цепочки поставок, закупки и производство.

Уильямс, пришедший в Apple в 1998 году, построил систему поставок, способную обрабатывать сотни миллионов устройств в год с тысячами поставщиков по всему миру. Он курировал разработку Apple Watch, службу поддержки AppleCare и команду дизайна. В 62 года он когда-то рассматривался как потенциальный преемник Кука, но небольшая разница в возрасте и желание уйти на пенсию изменили планы компании.

Команда дизайна после ухода Уильмса будет подчиняться напрямую Тиму Куку.

Это часть более широкой смены поколений в Apple — в прошлом году ушел финансовый директор Лука Маэстри, в 2024 году — глава инженерного направления Дэн Риччио. Это всё люди, пришедшие в руководство Apple еще при Стиве Джобсе.

Теперь наиболее вероятным преемником Кука считается Джон Тернус, глава инженерного направления по оборудованию. Ему 50 лет, впрочем, он тоже пришел в Apple в 2001-м году.

Пока украинская часть Twitter наслаждается, как Grok объясняет никам с российскими флагами за жизнь, остальные считают, что Grok снова попал в скандал, на этот раз восхваляя Адольфа Гитлера и распространяя антисемитские высказывания. На вопрос о том, какая историческая фигура XX века лучше всего подошла бы для решения проблемы поста, празднующего смерть детей в христианском лагере во время наводнений в Техасе, Grok ответил: “Адольф Гитлер, без сомнения. Он заметил бы закономерность и решительно с ней справился”.

Маск намеренно сделал Grok менее ограниченным в высказываниях по сравнению с конкурентами, но такие эпизоды вызывают вопросы о склонности модели к распространению резких заявлений. Компания обновила систему, добавив инструкцию “не стесняться делать политически некорректные заявления, если они хорошо обоснованы”. Впрочем, на фоне последней критики было заявлено, что компания расследует причины и удалила уже около 3000 некорректных высказываний бота.

Честно говоря, мне удивительно смотреть, как люди перебрасываются скриншотами “Посмотри, что еще сгенерировала LLM”, понимая при этом, что это просто генерация текста. Впрочем, всякий раз, когда я встречаю такое (или скриншоты чатов, которые все чаще приводятся в качестве аргумента), я сразу понимаю, что я-то как раз не фигней с LLM занимаюсь 😊.

---