Иван Ротозеев. Метаболизм и рост веб-форумов. Поток внимания. Ivan Rotozeyev. The Metabolism and Growth of Web Forums. An Attention Stream

Копаясь в каталоге arxiv.org набрел на занятную статью китайских товарищей: The Metabolism and Growth of Web Forums. В ней они сравнивают форумы в интернете с живыми организмами. Только если организмы поглощают, перерабатывают, накапливают и выделяют энергию, то пищей для форумов является человеческое внимание. В статье есть и математическая теория и экспериментальные графики, полученные в результате анализа логов нескольких популярных форумов. Авторы работы связаны с китайским поисковиком baidu. Наверняка, эти исследования также важны для властей Китая, которые, как известно, стремятся сильно контролировать интернет пространство. Работу интересно читать просто из-за того, что некоторые привычные для вебмастера вещи рассматриваются под другим углом.

Важными характеристиками для форума является число посетителей за единицу времени UV(t) и число просмотренных страниц за единицу времени PV(t). Очевидно, что по мере роста популярности форума эти две величины также должны расти со временем t. Среднее число просмотров страниц на посетителя при этом также зависит от времени. Однако, авторы утверждают, что степень залипательности форума может выражаться с помощью не зависящей от времени величины θ. Причем, считается, что справедливо следующее важное соотношение: PV(t) = A × UV(t)^θ, где величины A и θ - константы и не зависят от времени. Эта формула напоминает т.н. закон Клайбера, связывающий скорость основного обмена и массу организма животного. Для разных форумов эти константы разные, в то время, как для разных живых организмов в законе Клайбера θ = ⁴/₃. Можно выразить интересующую нас величину θ через экспериментально измеряемые величины PV(t) и UV(t): .

Заметьте, слева стоит величина, независящая от времени, а справа стоит выражение, которое содержит зависимость от времени. То есть, величину θ можно определить по углу наклона прямой PV(t) как функции от UV(t) построенной в двойных логарифмических координатах. Что и было проделано авторами, которые исследовали поведение трех разных форумов в течении двух месяцев. Вот так выглядят экспериментальные графики.

Анализ роста трех форумов за 1440 часов. Величина θ равна 1.15 (синие точки), 1.21 (зеленые точки), 1.29 (коричневые точки).

Анализ роста трех форумов за 1440 часов. Величина θ равна 1.15, 1.21, 1.29.

Также построено распределение величины θ среди почти что 30000 форумов. Среднее значение: 1.06.

Статистическое распределение величины θ.

Авторы анализируют поток внимания и его свойства. Ниже представлен наглядный пример того, как пять посетителей могут просматривать шесть тем форума:

Один из примеров реализации потока внимания. Числа рядом со стрелками показывают число таких одинаковых стрелок, если их больше одной.

Что это значит?

Source - внешний источник посетителей,

Sink - это условный внешний сток, куда уходят посетители.

Например, посетитель c пришел на форум извне в тему #2, затем он перешел в тему #3, а затем закрыл форум или перешел по ссылке на другой, внешний ресурс. С такими обозначениями у нас имеется закон сохранения потока внимания как для всей сети в целом так и для каждого узла. Обратите внимание, в каждый узел можно прийти как из другого узла, так и напрямую из источника. И уйти из узла можно как в другой узел, так и в сток.

Обозначим:

T_i - общее число входов в данный узел i,

D_i - число выходов в сток из данного узла.

То есть, величина D_i описывает диссипацию потока внимания. Утверждается, что между этими двумя величинами существует связь следующего вида: D_i = B × ,

где B и γ - константы, характеризующие конкретный форум. Среднее значение величины γ составляет около 0.93 для выборки из 6877 форумов за один день наблюдений.

Авторы утверждают и на простых примерах показывают, что между величинами θ и γ существует слабо выраженная отрицательная корреляция.

Слабая, еле заметная отрицательная корреляция между θ и γ.

Одним из главных результатов работы авторы называют методологию определения залипательности форумов.

P.S. Я не совсем уверен в правильности перевода термина attention flow, т.к. русский google по запросу в кавычках поток внимания выдает в основном какие-то мутные сайты про саморазвитие, чакры, йогу, а по запросу на английском attention flow выпадают и книжки по психологии. Вариант с движение внимания тоже в русскоязычном гугле ограничивается одной статьей на хабре. Возможно, я плохо искал. Возможно, эта тема просто не интересна русскоговорящим психологам/социологам.

У них там очень много поэтов. Все пишут стихи, и каждый поэт, естественно, хочет иметь своего читателя. Читатель же - существо неорганизованное, он этой простой вещи не понимает. Он с удовольствием читает хорошие стихи и даже заучивает их наизусть, а плохие знать не желает. Создается ситуация несправедливости, неравенства, а поскольку жители там очень деликатны и стремятся, чтобы всем было хорошо, создана специальная профессия - читатель. Одни специализируются по ямбу, другие - по хорею, а Константин Константинович - крупный специалист по амфибрахию и осваивает сейчас александрийский стих, приобретает вторую специальность. Цех этот, естественно, вредный, и читателям полагается не только усиленное питание, но и частые краткосрочные отпуска.

Братья Стругацкие. Сказка о Тройке

Меня заинтересовал вопрос: а как именно происходит рост популярности талантливых поэтов, которых все начинают читать в ситуации, когда каждый одновременно и поэт и читатель. Слово «поэт» я заключил в кавычки потому, что в реальности все описанное в эпиграфе напоминает нынешнюю блогосферу и социальные сети.

В этом посте будет много формул, графиков и всякой околонаучной болтологии. Я покажу пример моделирования небольшой социальной сети при помощи JavaScript используя методы Монте-Карло. На истину в последней инстанции я не претендую. Однако, вполне вероятно, этот пост окажется полезным для тех, кто захочет сделать сам нечто подобное.

Итак, для начала распишем особенности нашей сильно упрощенной виртуальной блогосферы.

Есть N штук участников, каждый из них характеризуется номером i = 1, …, N.
Каждый из них читает K штук других участников. Все это задается двумерным массивом: P_{i, k} содержит номер k-го френда i-го участника.
Для каждого участника случайным образом выбираются Hat штук врагов - номера тех участников, которых данный участник никогда сам не зафрендит.
У каждого участника i есть личное свойство - мера таланта. Хранится в массиве T_i.
Величина T_i случайным образом раздается каждому участнику в самом начале.
Также в начале каждый участник получает K штук случайных френдов.
При этом, число читателей каждого R_i уже получается случайным, хоть примерно близким к значению K.
Задается число Days дней эксперимента.
Задаются положительные числа q и r: q характеризует то, насколько для участников важно качество постов, а r характеризует то, насколько важна уже имеющаяся популярность при принятии решения о френдинге.

Под днем я понимаю одну итерацию главного цикла. Что происходит в этом цикле.

Каждый i участник пишет 1 пост качества Q_i. Значение Q_i - случайная величина, однако, ее распределение зависит от таланта T_i. Чем больше значение T_i, тем более вероятно увидеть от участника i посты с высоким качеством Q_i.
У каждого участника i выбирается один френд, качество трех последних постов которого ниже, чем у остальных френдов. Этого френда будем заменять на нового.
Кандидатуру на замену ищем среди френдов френдов, отсеивая среди них тех, кто уже является френдом или врагом.
Каждому из списка претендентов на замену мы присваиваем число, характеризующее вероятность, с которой мы выберем именно его. Эта вероятность зависит от качества его трех последних постов Q_i и уже имеющейся популярности R_i. Вероятность в моей модели описывается простой формулой: . Как видно, чем лучше у кандидата посты и чем он популярнее, тем больше будет вероятность выбрать именно его. Константа C, одинаковая для всех претендентов, служит для нормировки, так чтобы сумма всех вероятностей для всех кандидатов была равна единице.
Случайным образом, но с учетом не равных вероятностей выбираем замену из подготовленного списка и заменяем старого френда на нового. И так проделываем с каждым из N.
Главный показатель, который интересен в этом исследовании - число читателей R_i, как оно меняется с каждым днем. А конкретно - у первых трех участников с самым большим талантом.
После всех замен рассчитаем значение дисперсии D распределения R_i. Число D характеризует среднеквадратичное отклонение от среднего числа читателей. Для примера, если у каждого из N одинаковое число читателей, то среднее как раз и равно этому числу, а отклонения от среднего — нет, тогда и дисперсия равна нулю. А вот чем больше неравенство в числе читателей, тем больше будет и D. Вот выражение для нее: , где угловыми скобками обозначено усреднение по всем участникам:
Необходимая статистика записывается в массивы для дальнейшего вывода на графики и цикл повторяется снова, пока не пройдут Days дней.

Также в рамках моделирования проводится такой эксперимент. Один из рядовых участников в день DayX вдруг волшебным образом получает талант такой же по величине, как и самый талантливый участник + одного читателя. Как при этом он будет карабкаться к вершине славы, учитывая то, что ко времени DayX таланты уже вероятно получили свой максимум читателей? За его успехами также ведется наблюдение.

Углубляясь в детали, одной из задач методов Монте-Карло является генерирование случайных чисел с заданным распределением.

У функции random() равномерно распределенная вероятность f выпадения случайного числа x от 0 до 1.

То есть нужно из стандартной машинной функции random() с равномерным распределением сделать свое, особое:

Как генерировать такое распределение?

Напомню, что значение f(x)dx по определению равно вероятности выпадения числа, лежащего в промежутке от x до x + dx. Поэтому, само собой, интеграл от f(x) должен быть равен 1.

Для некоторых, особых видов f(x) задача решается аналитически. Так, для генерирования случайных талантов T я использовал затухающую экспоненту:

Распределение таланта среди населения

Точно такую же экспоненту я использовал и для дальнейшего генерирования случайного качества Q постов участника с заданным талантом T:

Распределение качества Q постов человека с талантом T.

Так вот, как генерировать Q, распределенное по закону f(x), что на рисунке выше, используя при этом равномерно распределенное от 0 до 1 случайное число Rnd? Очень просто: Q = - T ln(Rnd).

Теперь, о том, какая может быть максимальная дисперсия и зачем введены враги.

В первом варианте, без антипатии, ситуация развивалась просто: список из K френдов у всех N участников был одинаковым и содержал первые K самых талантливых. Ну и еще K + 1 имел читателей за счет тех K первых. Эта ситуация соответствует максимальному значению дисперсии D, которое примерно равно: .

Чем большее количество врагов мы вводим, тем меньшей получается итоговая дисперсия. Итак, вот результаты симуляции:

В случае, если люди больше ценят популярность, чем качество постов:

В большинстве случаев набор популярности идет медленно. Наблюдаются временные провалы популярности. Это связано с особенностью выбранной функции распределения, когда при любом таланте большинство постов имеют свойство быть близкими к нулю.

Случай, если люди одинаково оценивают популярность и качество постов:

Хочется отметить, что разные реализации алгоритма с одинаковыми параметрами могут приводить к очень разнообразным зависимостям числа читателей от времени. Общие черты есть, но очень расплывчатые. Однако, зависимость дисперсии, как интегральной, усредненной величины практически неизменна при одинаковых параметрах. В зависимости дисперсии от времени важны два параметра: время выхода на асимптотику, то есть время за которое блогосфера приходит в равновесное состояние, после которого перестают происходить массовые перетоки читателей, а также сама асимптотика, которая определяется соотношением между N и Hat.

Алгоритм был реализован на JavaScript, графики рисовались при помощи Chart Google API, так что любой пользователь современного компьютера может легко воспроизвести эти результаты, а то и улучшить их реализацию.

Небольшой приятный вопрос на будущее: насколько точно получится считать дисперсию распределения R_i, если усреднять не по всему набору N, а по меньшему числу n ≪ N случайно выбранных участников? Ведь если окажется, что небольшая случайная выборка хорошо отображает всю популяцию блоггеров, то можно, например, следить за погодой в том же ЖЖ - высчитывая каждый день дисперсию и оценивая ее тенденции.