На главную

УДК 004.042

Аннотация
Иван Ротозеев. МЕТАБОЛИЗМ И РОСТ ВЕБ-ФОРУМОВ.
ПОТОК ВНИМАНИЯ

Копаясь в каталоге arxiv.org набрел на занятную статью китайских товарищей: The Metabolism and Growth of Web Forums. В ней они сравнивают форумы в интернете с живыми организмами. Только если организмы поглощают, перерабатывают, накапливают и выделяют энергию, то пищей для форумов является человеческое внимание. В статье есть и математическая теория и экспериментальные графики, полученные в результате анализа логов нескольких популярных форумов. Авторы работы связаны с китайским поисковиком baidu. Наверняка, эти исследования также важны для властей Китая, которые, как известно, стремятся сильно контролировать интернет пространство. Работу интересно читать просто из-за того, что некоторые привычные для вебмастера вещи рассматриваются под другим углом.

Важными характеристиками для форума является число посетителей за единицу времени UV(t) и число просмотренных страниц за единицу времени PV(t). Очевидно, что по мере роста популярности форума эти две величины также должны расти со временем t. Среднее число просмотров страниц на посетителя при этом также зависит от времени. Однако, авторы утверждают, что степень залипательности форума может выражаться с помощью не зависящей от времени величины θ. Причем, считается, что справедливо следующее важное соотношение: PV(t) = A × UV(t)θ, где величины A и θ - константы и не зависят от времени. Эта формула напоминает т.н. закон Клайбера, связывающий скорость основного обмена и массу организма животного. Для разных форумов эти константы разные, в то время, как для разных живых организмов в законе Клайбера θ = 4/3. Можно выразить интересующую нас величину θ через экспериментально измеряемые величины PV(t) и UV(t): .

Заметьте, слева стоит величина, независящая от времени, а справа стоит выражение, которое содержит зависимость от времени. То есть, величину θ можно определить по углу наклона прямой PV(t) как функции от UV(t) построенной в двойных логарифмических координатах. Что и было проделано авторами, которые исследовали поведение трех разных форумов в течении двух месяцев. Вот так выглядят экспериментальные графики.

Анализ роста трех форумов за 1440 часов. Величина θ равна 1.15 (синие точки), 1.21 (зеленые точки), 1.29 (коричневые точки).
Анализ роста трех форумов за 1440 часов. Величина θ равна 1.15, 1.21, 1.29.

Также построено распределение величины θ среди почти что 30000 форумов. Среднее значение: 1.06.

Статистическое распределение величины θ.
Статистическое распределение величины θ.

Авторы анализируют поток внимания и его свойства. Ниже представлен наглядный пример того, как пять посетителей могут просматривать шесть тем форума:

Один из примеров реализации потока внимания. Числа рядом со стрелками показывают число таких одинаковых стрелок, если их больше одной.
Один из примеров реализации потока внимания. Числа рядом со стрелками показывают число таких одинаковых стрелок, если их больше одной.

Что это значит?

Source - внешний источник посетителей,

Sink - это условный внешний сток, куда уходят посетители.

Например, посетитель c пришел на форум извне в тему #2, затем он перешел в тему #3, а затем закрыл форум или перешел по ссылке на другой, внешний ресурс. С такими обозначениями у нас имеется закон сохранения потока внимания как для всей сети в целом так и для каждого узла. Обратите внимание, в каждый узел можно прийти как из другого узла, так и напрямую из источника. И уйти из узла можно как в другой узел, так и в сток.

Обозначим:

Ti - общее число входов в данный узел i,

Di - число выходов в сток из данного узла.

То есть, величина Di описывает диссипацию потока внимания. Утверждается, что между этими двумя величинами существует связь следующего вида: Di = B × ,

где B и γ - константы, характеризующие конкретный форум. Среднее значение величины γ составляет около 0.93 для выборки из 6877 форумов за один день наблюдений.

Авторы утверждают и на простых примерах показывают, что между величинами θ и γ существует слабо выраженная отрицательная корреляция.

Слабая, еле заметная отрицательная корреляция между θ и γ.
Слабая, еле заметная отрицательная корреляция между θ и γ.

Одним из главных результатов работы авторы называют методологию определения залипательности форумов.

P.S. Я не совсем уверен в правильности перевода термина attention flow, т.к. русский google по запросу в кавычках поток внимания выдает в основном какие-то мутные сайты про саморазвитие, чакры, йогу, а по запросу на английском attention flow выпадают и книжки по психологии. Вариант с движение внимания тоже в русскоязычном гугле ограничивается одной статьей на хабре. Возможно, я плохо искал. Возможно, эта тема просто не интересна русскоговорящим психологам/социологам.

УДК 004.942

Аннотация
Иван Ротозеев. МОДЕЛИРОВАНИЕ БЛОГОСФЕРЫ МЕТОДАМИ МОНТЕ-КАРЛО

  У них там очень много поэтов. Все пишут стихи, и каждый поэт, естественно, хочет иметь своего читателя. Читатель же - существо неорганизованное, он этой простой вещи не понимает. Он с удовольствием читает хорошие стихи и даже заучивает их наизусть, а плохие знать не желает. Создается ситуация несправедливости, неравенства, а поскольку жители там очень деликатны и стремятся, чтобы всем было хорошо, создана специальная профессия - читатель. Одни специализируются по ямбу, другие - по хорею, а Константин Константинович - крупный специалист по амфибрахию и осваивает сейчас александрийский стих, приобретает вторую специальность. Цех этот, естественно, вредный, и читателям полагается не только усиленное питание, но и частые краткосрочные отпуска.

Меня заинтересовал вопрос: а как именно происходит рост популярности талантливых поэтов, которых все начинают читать в ситуации, когда каждый одновременно и поэт и читатель. Слово «поэт» я заключил в кавычки потому, что в реальности все описанное в эпиграфе напоминает нынешнюю блогосферу и социальные сети.

В этом посте будет много формул, графиков и всякой околонаучной болтологии. Я покажу пример моделирования небольшой социальной сети при помощи JavaScript используя методы Монте-Карло. На истину в последней инстанции я не претендую. Однако, вполне вероятно, этот пост окажется полезным для тех, кто захочет сделать сам нечто подобное.

Итак, для начала распишем особенности нашей сильно упрощенной виртуальной блогосферы.

  1. Есть N штук участников, каждый из них характеризуется номером i = 1, …, N.
  2. Каждый из них читает K штук других участников. Все это задается двумерным массивом: Pi, k содержит номер k-го френда i-го участника.
  3. Для каждого участника случайным образом выбираются Hat штук врагов - номера тех участников, которых данный участник никогда сам не зафрендит.
  4. У каждого участника i есть личное свойство - мера таланта. Хранится в массиве Ti.
  5. Величина Ti случайным образом раздается каждому участнику в самом начале.
  6. Также в начале каждый участник получает K штук случайных френдов.
  7. При этом, число читателей каждого Ri уже получается случайным, хоть примерно близким к значению K.
  8. Задается число Days дней эксперимента.
  9. Задаются положительные числа q и r: q характеризует то, насколько для участников важно качество постов, а r характеризует то, насколько важна уже имеющаяся популярность при принятии решения о френдинге.

Под днем я понимаю одну итерацию главного цикла. Что происходит в этом цикле.

  1. Каждый i участник пишет 1 пост качества Qi. Значение Qi - случайная величина, однако, ее распределение зависит от таланта Ti. Чем больше значение Ti, тем более вероятно увидеть от участника i посты с высоким качеством Qi.
  2. У каждого участника i выбирается один френд, качество трех последних постов которого ниже, чем у остальных френдов. Этого френда будем заменять на нового.
  3. Кандидатуру на замену ищем среди френдов френдов, отсеивая среди них тех, кто уже является френдом или врагом.
  4. Каждому из списка претендентов на замену мы присваиваем число, характеризующее вероятность, с которой мы выберем именно его. Эта вероятность зависит от качества его трех последних постов Qi и уже имеющейся популярности Ri. Вероятность в моей модели описывается простой формулой: . Как видно, чем лучше у кандидата посты и чем он популярнее, тем больше будет вероятность выбрать именно его. Константа C, одинаковая для всех претендентов, служит для нормировки, так чтобы сумма всех вероятностей для всех кандидатов была равна единице.
  5. Случайным образом, но с учетом не равных вероятностей выбираем замену из подготовленного списка и заменяем старого френда на нового. И так проделываем с каждым из N.
    Главный показатель, который интересен в этом исследовании - число читателей Ri, как оно меняется с каждым днем. А конкретно - у первых трех участников с самым большим талантом.
  6. После всех замен рассчитаем значение дисперсии D распределения Ri. Число D характеризует среднеквадратичное отклонение от среднего числа читателей. Для примера, если у каждого из N одинаковое число читателей, то среднее как раз и равно этому числу, а отклонения от среднего — нет, тогда и дисперсия равна нулю. А вот чем больше неравенство в числе читателей, тем больше будет и D. Вот выражение для нее: , где угловыми скобками обозначено усреднение по всем участникам:
  7. Необходимая статистика записывается в массивы для дальнейшего вывода на графики и цикл повторяется снова, пока не пройдут Days дней.

Также в рамках моделирования проводится такой эксперимент. Один из рядовых участников в день DayX вдруг волшебным образом получает талант такой же по величине, как и самый талантливый участник + одного читателя. Как при этом он будет карабкаться к вершине славы, учитывая то, что ко времени DayX таланты уже вероятно получили свой максимум читателей? За его успехами также ведется наблюдение.

Углубляясь в детали, одной из задач методов Монте-Карло является генерирование случайных чисел с заданным распределением.

У функции random() равномерно распределенная вероятность f выпадения случайного числа x от 0 до 1
У функции random() равномерно распределенная вероятность f выпадения случайного числа x от 0 до 1.

То есть нужно из стандартной машинной функции random() с равномерным распределением сделать свое, особое:

Как генерировать такое распределение?
Как генерировать такое распределение?

Напомню, что значение f(x)dx по определению равно вероятности выпадения числа, лежащего в промежутке от x до x + dx. Поэтому, само собой, интеграл от f(x) должен быть равен 1.

Для некоторых, особых видов f(x) задача решается аналитически. Так, для генерирования случайных талантов T я использовал затухающую экспоненту:

Распределение таланта среди населения
Распределение таланта среди населения

Точно такую же экспоненту я использовал и для дальнейшего генерирования случайного качества Q постов участника с заданным талантом T:

Распределение качества Q постов человека с талантом T (красный график соответствует большему таланту)
Распределение качества Q постов человека с талантом T.

Так вот, как генерировать Q, распределенное по закону f(x), что на рисунке выше, используя при этом равномерно распределенное от 0 до 1 случайное число Rnd? Очень просто: Q = - T ln(Rnd).

Теперь, о том, какая может быть максимальная дисперсия и зачем введены враги.

В первом варианте, без антипатии, ситуация развивалась просто: список из K френдов у всех N участников был одинаковым и содержал первые K самых талантливых. Ну и еще K + 1 имел читателей за счет тех K первых. Эта ситуация соответствует максимальному значению дисперсии D, которое примерно равно: .

Чем большее количество врагов мы вводим, тем меньшей получается итоговая дисперсия. Итак, вот результаты симуляции:

В случае, если люди больше ценят популярность, чем качество постов:

В большинстве случаев набор популярности идет медленно. Наблюдаются временные провалы популярности. Это связано с особенностью выбранной функции распределения, когда при любом таланте большинство постов имеют свойство быть близкими к нулю.

Случай, если люди одинаково оценивают популярность и качество постов:

Хочется отметить, что разные реализации алгоритма с одинаковыми параметрами могут приводить к очень разнообразным зависимостям числа читателей от времени. Общие черты есть, но очень расплывчатые. Однако, зависимость дисперсии, как интегральной, усредненной величины практически неизменна при одинаковых параметрах. В зависимости дисперсии от времени важны два параметра: время выхода на асимптотику, то есть время за которое блогосфера приходит в равновесное состояние, после которого перестают происходить массовые перетоки читателей, а также сама асимптотика, которая определяется соотношением между N и Hat.

Алгоритм был реализован на JavaScript, графики рисовались при помощи Chart Google API, так что любой пользователь современного компьютера может легко воспроизвести эти результаты, а то и улучшить их реализацию.

Небольшой приятный вопрос на будущее: насколько точно получится считать дисперсию распределения Ri, если усреднять не по всему набору N, а по меньшему числу nN случайно выбранных участников? Ведь если окажется, что небольшая случайная выборка хорошо отображает всю популяцию блоггеров, то можно, например, следить за погодой в том же ЖЖ - высчитывая каждый день дисперсию и оценивая ее тенденции.

Приглашение к обсуждению прочитанного

Из wikipedia.org

Свободная энциклопедия
Китайская Народная Республика

Китайская Народная Республика, социалистическое государство в Восточной Азии.

К тексту Полезные свойства чая Карты мира... Почему русские не улыбаются Почему мне смешно...

Закон Клайбера, биохимическое правило, связывающее скорость основного обмена и массу организма.

К тексту

Братья Стругацкие

Братья Стругацкие, советские и российские писатели, соавторы, сценаристы, классики современной научной и социальной фантастики.

К тексту Как шутят ученые

Сказка о Тройке, сатирическая повесть братьев Аркадия и Бориса Стругацких, связанная общими героями с повестью «Понедельник начинается в субботу».

К тексту

JavaScript

JavaScript, прототипно-ориентированный сценарный язык программирования.

К тексту

Методы Монте-Карло, общее название группы численных методов, основанных на получении большого числа реализаций стохастического процесса, который формируется таким образом, чтобы его вероятностные характеристики совпадали с аналогичными величинами решаемой задачи.

К тексту

Блогосфера, термин, построенный аналогично термину «ноосфера» и ему подобным, и обозначающий совокупность всех блогов как сообщество или социальную сеть.

К тексту

Живой Журнал

Живой Журнал, блог-платформа для ведения онлайн-дневников, а также отдельный персональный блог, размещённый на этой платформе.

К тексту

Иван Ротозеев. Тест на интуицию и понимание электричества

Я вдруг подумал: а вот я же поставил себе на блог плагин для выполнения PHP кода, задаваемого в теле поста. Почему бы его не использовать для создания всякого рода тестов? Сначала я хотел было запрограммировать тест Данечки Шеповалова «Моральный ли ты урод?» или какой нибудь психологический тест из серии «почему со мной никто не садится рядом в переполненном автобусе, когда я сижу один на двойном сидении?». Но я почему то решил остановится на варианте теста для школьников и юных ботанов на тему электричества, электротехники и сопутствующих вещей.

В тесте всего 7 вопросов: некоторые простые, а некоторые из них требуют вдумчивого применения ветхозаветного школьного закона Ома. Итак…

1) За что мы платим, когда оплачиваем счет за электричество?
За полученную силу
За полученную мощность
За полученную энергию

2) Есть два провода из одного материала одинаковой длины и разной толщины. У какого из них электрическое сопротивление больше?
У тонкого
У толстого
У них одинаковое сопротивление

3) Для распространения радиоволн нужно наличие воздуха?
Да
Нет
Да, и кроме этого необходимо земное притяжение

4) Ток и напряжение…
Ток и напряжение — синонимы
Ток и напряжение — разные физические величины
Ток и напряжение — одно и то же, только когда измеряется в вольтах, то говорят «напряжение», а когда в в амперах, то говорят «ток»

5) Имеется кипятильник, который включается в розетку. Он состоит из провода и нагревательного элемента (спирали), которая погружается в воду. Сопротивление чего должно быть больше, чтобы грелась в основном спираль, а не провод:
Сопротивление провода должно быть больше, чем сопротивление спирали
Сопротивление спирали должно быть больше, чем сопротивление провода


Цепочка сопортивлений

6) Имеется изображенная на рисунке цепь из одинаковых сопротивлений R. Ее полное сопротивление (участка АБ):

3R
3/2R
2R
2/3R
Приблизительно равно 2,14R

7) Если делать проводку в квартире по-человечески и соблюдать нормы безопасности, то какой провод должен размыкать выключатель люстры:
Фазу
Ноль



Иван Ротозеев. Расчет дисперсии и оценка тенденций ее изменения

    N =

    K =

Hat =

    q =

    r =


Ученые доказали, что любовь является психическим расстройством

Несмотря на то, что любовь принято называть «светлым чувством», ее биологическая сущность представляет собой не что иное, как расстройство психики. Доказательством тому стало очередное научное исследование данного феномена. Его авторы, ученые из университета Аризоны, утверждают, что признаки влюбленности и любви соответствуют диагнозу «наркотический психоз параноидального типа на сексуальной почве».

Представители научного сообщества не впервые исследуют особенности такого чувства, как любовь, которая до сих пор остается одной из самых загадочных эмоций, присущих человеку. В этот раз ученые отстаивают гипотезу о том, что любовь являет собой психическое расстройство, схожее с наркоманией. Оно, в частности, проявляется в том, что влюбленные стремятся к реализации непонятных идей, не способны трезво оценивать реальность и отличаются эмоциональной нестабильностью. Те же признаки можно наблюдать и в поведении наркоманов.

Сравнивая любовь с наркоманией, исследователи поясняют: «В качестве наркотика у влюбленных выступает обостренная потребность в ответных чувствах, что и толкает таких людей на необдуманные поступки».

Отметим, что феномен зависимости от любовных переживаний хорошо известен науке. По одной из версий, это связано с тем, что и у влюбленных, и у наркоманов мозг в определенном аспекте работает одинаково, производя в большом количестве «опьяняющие» гормоны–нейромедиаторы (дофамин, серотонин, окситоцин, вазопрессин), обеспечивающие эйфорическое состояние, от которого может возникать сильнейшая зависимость.

По этой причине, как доказывают исследователи из Аризоны, некоторым людям бывает невероятно сложно выдержать ситуацию с прекращением отношений и расставанием. В данных обстоятельствах они испытывают настоящую «ломку», что может привести к развитию психопатологий, к депрессиям и суициду.