Alibaba представила новую языковую модель Qwen2.5-Max, которая, по заявлению компании, превосходит DeepSeek V3 по ряду ключевых показателей и конкурирует с GPT-4 и Claude 3.5. Модель обучена на более чем 20 триллионах токенов и использует архитектуру Mixture-of-Experts (MoE).

У модели неплохие результаты в бенчмарках Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond. При этом базовая версия модели показывает преимущество над другими открытыми моделями, включая Llama-3.1-405B и DeepSeek V3.

Qwen2.5-Max уже доступна через API Alibaba Cloud, который совместим с OpenAI API, что упрощает интеграцию. Также модель можно протестировать в Qwen Chat.

По первому впечатлению, Max действительно не хуже GPT-4o и даже местами похож на Claude 3.5 Sonnet. По крайней мере, задачи по программированию решает похоже и даже ошибается близко. С языками у него лучше, чем у DeepSeek-моделей. Так что, вероятно, модель найдет своих поклонников. Тем более, что цены конкурентные, жаль, что контекст в этой модели через API урезан до 32k.

В Великобритании уже 200 компаний перешли на постоянную четырехдневную рабочую неделю без снижения зарплаты сотрудников. В общей сложности это затрагивает более 5000 работников, причем больше всего таких компаний в сферах non-profit, маркетинга и технологий.

Интересно, что 59 из этих компаний находятся в Лондоне, за ним следуют Юго-Восточная Англия (27 компаний), Шотландия (25) и Юго-Западная Англия (24). По данным опроса Survation, 58% британцев считают, что трехдневные выходные станут нормой к 2030 году.

Правда, не все в восторге от этих изменений. Консерваторы предупреждают о негативном влиянии на бизнес и экономический рост, а правительство заявляет, что не планирует принуждать компании к переходу на четырехдневку.

Предсказуемо молодые работники (18-34 года) наиболее активно выступают против традиционных графиков — 78% из них уверены, что четырехдневная неделя станет нормой через пять лет, а 65% не хотят возвращаться к полноценной работе из офиса. Для них это вопрос не только удобства, но и психического здоровья и общего благополучия.

Психическое здоровье — это, конечно, очень важно. Как говорили в старом КВН — “Вам, молодежи, лишь бы отдыхать, лишь бы не работать! — Почему, можно и не отдыхать! Лишь бы не работать!”.

У нас новый случай политико-картографической шизофрении — Google объявил, что изменит название Мексиканского залива на “Залив Америки” в Google Maps после того, как администрация Трампа обновит “официальные правительственные источники”. Также вернется название “гора Мак-Кинли” вместо Денали в Аляске.

При этом для мексиканских пользователей название залива останется старым. А пользователи из других стран увидят оба названия. Помнится, в детстве, впервые увидев карту мира версии 1913 года, я был прямо удивлен написанию “Великий (Тихий) Океан”.

Я бы предложил еще на Аляску показывать прежнее название горы — ведь её и переименовывали в 1975 году Советом Аляски в знак уважения к коренным народностям полуострова. Правда, утвердить получилось только в 2015-м и Трамп как-то прожил первый срок с этим возмутительным фактом.

Да, это почти совпадает с историей, которую я рассказывал еще 10 лет назад, когда Яндекс столкнулся с проблемой — как показывать Крым на карте, если на пять стран присутствия компании есть две точки зрения на это. Причем тогда проблема была масштабнее и не ограничивалась только Картами, вдобавок ставя вопрос “А как показывать Крым в Крыму?”. Где-то на АИНе должна была остаться моя лекция на эту тему.

Нас ждет шикарный comeback — основатель Pebble Эрик Мигиковски объявил о планах возродить производство умных часов после того, как Google открыл исходный код PebbleOS. Если помните, в 2016 году Pebble обанкротилась и была куплена Fitbit, которую позже приобрел Google.

Мигиковски хочет создать часы с теми же принципами, что и оригинальный Pebble: E-ink дисплей, длительное время работы от батареи, физические кнопки, простой интерфейс и возможность программирования. Он планирует развивать проект скромно, без венчурного финансирования и краудфандинга, ориентируясь на спрос.

Любопытно, что за 8 лет после закрытия у Pebble все еще есть активное сообщество, хотя сложно сказать, насколько оно велико в мире, где Apple Watch изменили ожидания пользователей. Сам Мигиковски говорит, что это “страстный проект” — он просто хочет создать часы, которые сам будет носить, так как до сих пор использует свой 10-летний Pebble.

Будет ли Эрик встраивать в новые часы мессенджер, которым занимался последние несколько лет — Beeper, помните, тот, что реализовывал iMessage для Android, — не сообщается.

У меня вообще ощущение, что где-то в доме лежит нераспечатанная коробка с оригинальной первой моделью. Я некоторое время ходил с ней (зачем-то купил два экземпляра), но вот сейчас ощутил свой возраст и гиковость — просто не помню, покупал ли я вторую модель. Нет, кажется, это я с Basis путаю…

Китайский DeepSeek серьезно встряхнул технологический сектор — его новая модель R1, способная работать на менее мощных чипах, вызвала обвал акций Nvidia на 10% и общее падение технологического сектора. Nasdaq 100 и европейские компании (в первую очередь, ASML) могут потерять около $1 трлн капитализации.

За выходные ажиотаж достиг, пожалуй, максимума, а приложение быстро возглавило рейтинги App Store. Кроме того, оно совершенно бесплатно, в отличие от o1/o1 pro от OpenAI.

Немного странно, что страдают акции Nvidia — ведь именно на них обучены новые модели DeepSeek, а тот факт, что DeepSeek смогли обойтись меньшим количеством карт, скорее намекает на возможности для тех, кто не так ограничен в их использовании. При этом DeepSeek дозированно сообщают какие-то данные по стоимости обучения и оборудования так, что у всех слова “обучение одной нашей модели обошлось в 5,6 млн долларов” однозначно понимаются как “Полное обучение R1 обошлось в 5 млн”, что, мягко говоря, не так.

Восторги восторгами — особенно всех радует наличие дистиллированных моделей, — однако дистиллированные модели работают заметно хуже, а качество ответов большой R1 может сильно зависеть от языка, на котором к ней обращаются. Так что тестируйте.

Интересный материал о китайском AI-стартапе DeepSeek, который смог создать конкурентоспособную языковую модель R1, несмотря на американские санкции на поставки передовых чипов. Вывод автора интересен — компания нашла нестандартные решения: использовала накопленные заранее чипы A100 в комбинации с менее мощными, оптимизировала процесс обучения для экономии ресурсов и сделала ставку на эффективность, а не на “сырую” вычислительную мощность.

DeepSeek показывает, как санкции вместо ослабления китайского AI-сектора стимулируют инновации и коллаборацию. Китайские компании активно переходят к открытому исходному коду — Alibaba Cloud выпустила более 100 открытых моделей, аналогичный подход у Minimax и 01.AI.

Выглядит, конечно, очень красиво — если помните, у Азимова в “Основании” Терминус, куда поселили колонию энциклопедистов, был небольшой планетой практически без полезных ископаемых, что заставило заниматься миниатюризацией всех технологий. Но что-то мне подсказывает, что скептики, подозревающие за успехами китайских разработчиков руководящую и направляющую роль компартии Китая, не очень далеки от истины.

Джон Грубер, известный блогер на темы, связанные с Apple, пишет о том, как плохо работает Siri с Apple Intelligence даже на простых вопросах. После его записи днем ранее другой блогер проверил, как Siri отвечает на вопрос “Кто выиграл Супербоул №__?” для всех 58 прошедших игр. Результат удручающий — всего 34% правильных ответов, причем в одной серии Siri ошиблась 15 раз подряд. Самое смешное — система приписала команде Philadelphia Eagles 33 победы в Супербоуле вместо одной реальной.

При этом другие системы (ChatGPT, Kagi, DuckDuckGo, Google) легко справляются с такими вопросами. Они даже правильно отвечают про Супербоулы №59 и №60, которые еще не состоялись — о чем они, собственно, и сообщают.

Джон также проверил более сложный вопрос — “Кто выиграл чемпионат по баскетболу среди школьников Северной Дакоты в 2004 году?”. И снова Siri с Apple Intelligence дает разные неправильные ответы, хотя использует тот же ChatGPT, который отдельно дает абсолютно точный ответ.

Правда, ситуация интересная с необычной стороны — OpenAI не только не получает денег от партнерства с Apple, но и может потерять репутацию, так как Siri приписывает ChatGPT свои неправильные ответы. Как говорит автор, Apple получила не партнера, а козла отпущения.

Собственно, вопрос поднялся из-за того, что в версии iOS 18.3, которая вот-вот выйдет, Apple Intelligence будет включена по умолчанию для всех пользователей — поэтому качество ответов становится важным. И удивительно, что новая Siri отвечает хуже всех из известных поисковиков и даже фактически хуже старой Siri, которая знала, что не знает ответа и просто давала список ссылок.

Новость дня — крупнейший украинский телеком-оператор Киевстар планирует приобрести сервис такси Uklon. Ранее компания купила медицинский сервис Helsi и создала подразделение “Киевстар Tech” с более чем 400 разработчиками.

Причин для такой стратегии две. Во-первых, из-за войны компания не может свободно распоряжаться дивидендами как “дочка” VEON, поэтому активно инвестирует внутри страны. В 2023 году Киевстар досрочно погасил внешние долги и вложил 6,4 млрд гривен в капитальные инвестиции, став одним из крупнейших внутренних инвесторов.

Вторая причина — подготовка к IPO. Анализ европейских телеком-операторов показывает, что компании, оставшиеся просто “трубой” для трафика, сильно потеряли в капитализации. Например, Telefonica, Orange и Vodafone торгуются с мультипликатором 0,5 к годовой выручке. А более гибкие операторы с развитыми IT-сервисами, как голландская KPN или финская Elisa, имеют мультипликаторы 2,5-3,2.

Таким образом, покупая такие активы как Uklon, Киевстар не только эффективно использует накопленную прибыль, но и готовится получить более высокую оценку при будущем IPO за счет развития IT-направления. А, если вы пропустили, Киевстар недавно заявил, что планирует IPO на NASDAQ.

По итогам вчерашнего обсуждения в комментариях на тему использования моделей и их дообучения у меня родился относительно длинный, но довольно простой (даже специально упрощенный) текст — я последние месяцы как раз занимаюсь подобными прикладными задачами и вижу, насколько общая фраза “А тут мы используем дообученную модель” покоряет воображение и создает ощущение магии, не давая никакого представления о том, что там в итоге происходит.

Текст совершенно популярный, так что специалистам можно не читать.

Изменения в культурно-общественной политике в США, выразившиеся, в частности, в подписании Трампом указа об отмене правительственных инициатив в области DEI, имеют разнообразные последствия. Например, медиабайеры в ответ усиливают контроль за размещением рекламы, чаще проверяют “белые списки” сайтов и доменов.

Интересно, что из семи опрошенных Digiday руководителей агентств только один сообщил, что клиент полностью исключил новостные и политические категории из списков разрешенных площадок. Остальные считают, что слишком узкие “белые списки” могут ограничить охват и возможности привлечения новой аудитории.

На фоне отказа Meta от фактчекинга, сближения техногигантов с новой администрацией и общего смещения культурного ландшафта вправо, агентства пока заняли выжидательную позицию. Клиенты осторожничают, но пока не перераспределяют бюджеты в пользу консервативных или правых медиа.

Мы помним, как “свобода слова” в понимании Маска привела к массовому оттоку рекламодателей. Как я говорил уже, вряд ли такое произойдет c Meta — слишком уж много там малого и среднего бизнеса, которого вопросы безопасности бренда волнуют меньше. А вот большие медиабюджеты вполне могут размещаться, исходя не только из аудиторных показателей, но и по политическим причинам. А это немалые деньги.

---