УДК 82-7:82-991.1 Tomas Engelthaler, Thomas T. Hills. HUMOR NORMS FOR 4,997 ENGLISH WORDSAbstractHumor ratings are provided for 4,997 English words collected from 821 participants using an online crowd-sourcing platform. Each participant rated 211 words on a scale from 1 to 5. To provide for comparisons across norms, words were chosen from a set common to a number of previously collected norms. The complete dataset provides researchers with a list of humor ratings and includes information on gender, age, and educational differences. Results of analyses show that the ratings have reliability on a par with previous ratings and are not well predicted by existing norms. IntroductionThe appreciation of humor is a fundamental, albeit mysterious, part of human cognition. We laugh at things like Monty Python and the work of Douglas Adams, but find topics like mass shootings and the Holocaust off limits. Other topics, like sunsets and freedom, may lie somewhere in between. What makes one thing funnier than another? And what makes some topics inviolable in relation to humor? To help develop this research, we provide the first set of humor norms for a large collection of 4,997 common words. The aim of providing this data is to help enrich the resources available for understanding the cognitive, developmental, and applied aspects of humor. Humor has a long history of theoretical investigation. Darwin called humor tickling the mind. Thomas Hobbes referred to it as a feeling of sudden glory. These represent a selection from a long list of efforts to provide a theory of humor. These include biological theories – such as the Darwin-Hecker hypothesis that humor is a cognitive analogue of physical tickling; superiority theories, such as Hobbes notion of sudden glory over another individual or one’s previous self; release theories, such as that proposed by Spencer and later Freud, that humor is a means of reducing excessive arousal; incongruity-resolution theories, perhaps first noted by Kant, in his observation that In everything that is to excite a lively convulsive laugh there must be something absurd, and later developed by Schopenhauer, who suggested the ludicrous required a contrast…between representation of perception and abstract representations. Still further theories have focused on the adaptive value of humor as an error correction mechanism and faulty logic detection system, most recently and thoroughly developed by Hurley, Dennett, and Adams. A similar version of this theory has been called the benign violation theory, which suggests a person must realize the stimuli is incongruous with their expectations, but also that this incongruity is not harmful given the context. The onslaught of theories aimed at understanding humor reflects our common experience that humor is a key ingredient in what it means to be a healthy human. It may even be uniquely human and, continuing the noble history validating intuition with Latin, Koestler referred to humans as Homo ridens, laughing man. Whether or not it is unique to humans, humor has well-documented influences on well-being and health, including self-concept, coping with stress, and positive affect. Humor research also contains a wide body of literature concerned with understanding adult and child personality development and gender differences. The latter associated with the evolutionary hypothesis that humor plays a role in male mating displays, and which is further supported by gender differences in response to humor in the brain. In addition, cracking the riddle of what makes things funny has also been the motivation for a number computational algorithms designed to create humor, such as JAPE, STANDUP, WISCRAIC, and HAHAcronym, as well as algorithms to detect and classify humor. Much of the theory and empirical work briefly outlined above focuses on complete multi-word jokes, such as this zinger by Steven Wright: I couldn’t repair your brakes, so I made your horn louder. To this end, a number of studies have taken to rating and creating databases of jokes in an effort to allow researchers disaggregate the various mechanisms that make them work. A few studies have looked at single non-words, suggesting the absurdness of a non-word results in associated humor. None, to our knowledge, have focused on single English words. The database we present here offers a basis for studying humor in perhaps a highly rudimentary fruit fly version, at the level of a single word. If single words have reliable humor ratings, they provide humor in miniature, allowing us to investigate humor in relation to the many existing lexical norms. These include some that are directly related to past theories – such as Freud’s arousal theory – and others that offer at least some insight into processing and expectation, such as reaction times and frequency. The collection of the humor norms follows on previous work demonstrating the advantage of crowd-sourcing in psychological norm development: for example, Warriner, Kuperman, and Brysbaert have collected valence, arousal, and dominance ratings for 13,915 English words; Brysbaert, Warriner, and Kuperman collected concreteness ratings for nearly 40,000 English words; and Kuperman, Stadthagen-Gonzalez, and Brysbaert, collected age of acquisition ratings for 30,000 English words. These were in turn based on the value of previous norms, such as the Affective Norms for English, provided by Bradley and Lang Still other normative ratings have investigated different word properties, which have provided the basis for further investigating their influence on cognition, such as imageability and familiarity, pleasantness, and meaningfulness. These normative datasets have proven highly fruitful. For illustration, Dodds et al. used valence ratings to assess a universal positivity bias. Alhothali and Hoey used valence ratings to predict readers’ responses to news articles. And Hills and colleagues used concreteness, age of acquisition, and lexical reaction times to evaluate the changing history of American English over the last 200 hundred years. Here, we provide a large dataset of single-word humor ratings along with the demographics of the raters. The list of rated words was formed from the intersection of overlapping previous non-humor word norms, allowing us to provide an analysis of how word-level humor relates to valence, arousal, word length, concreteness, word processing time and word frequency. Secondly, breaking down our dataset by demographics, we provide a separation of humor by gender. MethodsStimuliThe words in the norms are chosen from the intersection of the valence, arousal, and dominance norms, age of acquisition norms, lexical decision norms, and frequency norms. This resulted in 7,775 words, from which the final word list of 5,000 words was randomly sampled. This reduction in list size increases the number of raters exposed to a single word, given a fixed number of participants. Participants provide information in response to demographic questions, the humor rating of calibrator words, and the humor rating of 200 words randomly sampled from the pool of 5,000 words. The calibrator words are a list of 11 words that spanned the range of humor rating in a pilot study. The calibrator words are presented in Table 1. Following previous studies, participants saw the calibrator words first, with the aim of showing the participant the range of the humor scale and increasing the reliability of subsequent ratings. The calibrator words were followed by the random sample of 200 words. The word sample was different for each participant, generated in real time when the participant opened the online questionnaire. Table 1.
Calibrator words presented to participants
Data collection and participantsParticipants were recruited using Amazon Mechanical Turk. Any registered member of Amazon Mechanical Turk was allowed to participate, with the requirement of fully completing the study, and only doing the study once. Upon accepting the study, the participant was redirected to a website that delivered the instructions and words for rating. The introduction read as follows:
The introduction was followed by the list of 211 words, each word having five buttons presented just below it, numbered from 1 to 5, with the extremes labeled humorless and humorous. The first 11 words were the calibrator words. The combination of the remaining 200 words was different across participants. After selecting a rating for a word, the word disappeared from the list. Upon rating all words, the participant could press the Submit button. The participant was then presented with a debrief page and directed back to Amazon. Each participant was paid $1. The study took approximately 15 min to complete, including reading the instructions and the debrief page. ResultsData trimmingThe data were presented to 950 participants. 102 participants were removed due to incomplete submissions, errors in the data and improperly submitting their responses. Five participants were removed due to low variability of their responses. Twenty-two participants were removed because they indicated their primary language was not English. The final data consisted of 821 participants. The raw data had 173,231 individual data points, referring to a single rating of a single word. Ratings were collected for 4,997 words, with each word rated by at least 15 participants. The average number of participants rating a word was 33. The 11 calibrators were rated by all 821 participants. DemographicsParticipants identified as female in 478 cases, as male in 341 cases, and two participants chose not to answer. The mean age of participants was 35 years, ranging from 18 to 78 years. Table 2 presents the education demographics. Table 2.
Education distribution of the participants
Humor ratingsFor each word, all of the humor ratings were summed and divided by the number of participants rating the word. This resulted in a Mean Humor Rating of each word. The split-half reliability of the individual ratings was 0.64, slightly lower than previously collected for arousal ratings. This suggests there are considerable individual differences, which may be of interest for future research. The MHR for each word is provided in the supplementary material. MHR were also computed for each gender separately. Table 3 and 4 shows the descriptive statistics of MHR across all participants.
The MHR distribution was positively skewed, indicating that more words are rated as humorless than humorous. This is in contrast to previously collected valence norms, which tend to be negatively skewed. People have an intrinsic positive bias for valence, interpreting most words as positive. For humor, the opposite is true – most words are rated closer to humorless than humorous. The shape of the MHR distribution is shown in Fig. 1. Fig.1. Distribution of MHR across 4,997 English words. The distribution of MHR covers a range of 3.14 units. The most humorless word in the norms is rape and the most humorous word is booty. Table 4 lists the 12 most extreme words at the end of the distribution The calibrator words were presented to all 821 participants. Their distributions were calculated individually. To provide an indication of how words across the distribution are rated by all of the participants, Fig. 2 presents the distributions for each of the calibrator words separately. Fig.2. Distribution of ratings over all participants for each of the 11 calibrator words CorrelationTable 5 shows the correlations of the MHR with other linguistic metrics available from existing norms. The strongest correlation is with frequency, with less frequent words rated as more humorous. Words less frequent in SUBTLEX were also rated as more humorous. Words that are associated with longer reaction times in lexical decision tasks were also rated as more humorous. Table 5.
Correlations between 11 lexical measures
Gender differencesThe mean ratings for the two genders were identical. The male and female ratings are strongly correlated, r = .60, p < .001. There are, however, gender differences in the ratings of individual words. Table 6 shows words with the biggest disagreement between genders. Table 6.
Words with the largest differences between male and female ratings
The words of biggest disagreement are in essence the outliers of an MHRM – MHRF plot, where MHRM is the mean humor rating of male participants and MHRF is the mean humor rating of female participants. This relationship is shown in Fig. 3. Similarly, it’s also possible to show words that males and females have high agreement on. For illustration, we restricted the data to 5% of the words with the lowest disagreement. This subsample was then sorted by overall MHR, resulting in a list of words that are perceived as humorous by both males and females. Note that the 5% subsampling criterion is arbitrary in this case. We encourage the reader to design and carry out their own, more comprehensive analyses using the dataset. Fig.3. A plot of male and female mean humor ratings (MHR) for each of the 4,997 words. Words having an absolute gender difference larger than 1.25 are labeled in red. The blue line has an equation of y = x. Slight jittering was applied to the word labels to improve readability Table 7.
Words with the lowest differences in gender, while scoring high on mean humor rating (MHR)
Age differencesTo allow for further investigation of age differences, we also provide the MHR for younger and older participants separately. The mean age of all participants was 35 years, with a median value of 32. The two groups were constructed as an outcome of a median split of the dataset. The younger group consists of participants with age ≤32, the older group of participants with age >32. The overall humor ratings of the younger participants were comparable to those of the older participants. The ratings of the younger and older groups are strongly correlated, r = .63, p < .001. In line with the gender analysis above, it is possible to list words of high disagreement between age groups. Table 8.
Words with the largest rating differences between younger and older participants
The supplementary material contains age-separate ratings for each word, allowing for further analyses of age differences in humor ratings. DiscussionUsing the ready availability of large online data collection, the present study has created a database of single-word humor ratings. The statistical analyses show that people view words as humorous to a varying extent, with a skew towards seeing the majority of words as humorless. The appraisal of single-word humor can be reliably measured across participants, similarly to that of arousal. The present study shows examples of analyses that can be carried out with the humor dataset. Specifically, it is possible to show correlational relationships between humor rating and other variables. This approach may, in turn, inform us on how the underlying mechanisms of humor work, or at the very least, where to look in the future. Additionally, it is possible to investigate gender differences in humor appraisal. Besides the above-mentioned examples, we identify three fields of interest for future research. First, using existing databases of jokes, the humor ratings make it possible to explore the relationship between the appraisal of humor on the joke level and on the single-word level. Second, the humor norms provide a resource for machine learning methods to establish the best predictors of word level humor, which can later be evaluated in psychological experiments. Third, individual ratings of words in relation to the norms can provide a basis for understanding individual differences in humor styles. Finally, like previous ratings, the humor norms may offer new insights into text analysis and the creation of psychological stimuli.Using the ready availability of large online data collection, the present study has created a database of single-word humor ratings. The statistical analyses show that people view words as humorous to a varying extent, with a skew towards seeing the majority of words as humorless. The appraisal of single-word humor can be reliably measured across participants, similarly to that of arousal. The present study shows examples of analyses that can be carried out with the humor dataset. Specifically, it is possible to show correlational relationships between humor rating and other variables. This approach may, in turn, inform us on how the underlying mechanisms of humor work, or at the very least, where to look in the future. Additionally, it is possible to investigate gender differences in humor appraisal. Besides the above-mentioned examples, we identify three fields of interest for future research. First, using existing databases of jokes, the humor ratings make it possible to explore the relationship between the appraisal of humor on the joke level and on the single-word level. Second, the humor norms provide a resource for machine learning methods to establish the best predictors of word level humor, which can later be evaluated in psychological experiments. Third, individual ratings of words in relation to the norms can provide a basis for understanding individual differences in humor styles. Finally, like previous ratings, the humor norms may offer new insights into text analysis and the creation of psychological stimuli. AvailabilityThe mean humor ratings are freely available as part of our dataset. The data can be accessed. The sheet is organized alphabetically, by word label. It includes the mean humor rating for all participants combined, along with the standard deviation and the number of participants rating a word. The same three variables are available exclusively for participants identifying as male and for those identifying as female. Additionally, the variables are also presented according to the median split of age, dividing participants into a younger group and an older group. AcknowledgmentsThanks to Marc Brysbaert and Victor Kuperman for input on the design and implementation of the ratings. We appreciate the help of Thomas Cordua-von Specht in programming the crowd-sourcing platform. Additional thanks to Masitah, Li Ying, Eva Jimenez, and Kita Sotaro for input on the manuscript. References
Приглашение к обсуждению прочитанного
|
Из wikipedia.orgThe holocaust was a genocide during World War II in which Nazi Germany, aided by its collaborators, systematically murdered approximately 6 million European Jews, around two-thirds of the Jewish population of Europe, between 1941 and 1945. The benign violation theory is developed by researchers A. Peter McGraw and Caleb Warren. Other terms for practical jokes include JAPE.
Гомеопатия и блокчейнЕще Артур Кларк сказал, что «любая достаточно развитая технология неотличима от волшебства». Но верно и другое: достаточно развитое волшебство неотличимо от технологии. По крайней мере, для обывателя. Как известно, открыв память воды, сторонники гомеопатии не остановились и научились передавать эту память через интернет и даже записывать на компакт-диски. Так появились инновационные цифровые лекарства, разработкой которых занимаются, в том числе, профессора МГУ. И это не шутка. Параллельно появились «релиз-активные препараты» или «стыдливая гомеопатия», впитавшая достижения современной молекулярной биологии (в гомеопатических количествах). Оказалось, что если многократно разводить со встряхиванием не печень утки, пыль из пылесоса, нефть и кость тираннозавра, а антитела к инсулиновым рецепторам, интерферону и ферменту, синтезирующему в клетках оксид азота (для лечения диабета, вирусных инфекций и импотенции, соответственно), то можно не только докторскую защитить, но и в академию наук попасть. Но неужели совершенство гомеопатии достигло предела? Есть ли другие технологии и знания, которые она могла бы позаимствовать? Если не брать в расчет возможности использования вместо компакт-дисков DVD и Blu-ray, недавно открытых гравитационных волн вместо квантовых и торсионных полей и перейти на гомеопатические разведения более модных биологических молекул: микроРНК, прионов, плазмид и излюбленного генными инженерами белка Cas9. Кстати, последнее средство можно использовать по принципу «подобное лечить подобным» – от пагубного воздействия ГМО! Постараюсь убедить вас, что именно технология блокчейн, лежащая в основе криптовалюты, такой как Bitcoin, может лучше всего обогатить волшебный мир гомеопатов. Биология постмодерна✓Обнаружены бактерии, осуществляющие холодный термоядерный синтез; ✓Методом молекулярных часов установлено, что жизнь появилась 17 миллиардов лет назад; ✓Нейроны генно-модифицированного гигантского кальмара предают нервные импульсы со скоростью 301000000 метров в секунду; ✓Морские ангелы – уникальные моллюски, способные производить глюкозу из фосфора и серебра и золото из алюминия; ✓Уникальные люминесцентные растения абсолютно самодостаточны: они живут за счет света, испускаемого друг на друга в темноте глубоких пещер; ✓Магнитосомы архей с бермудского треугольника притягивают пролетающие самолеты; ✓На Марсе обнаружена жизнь, извлекающая энергию за счет электролиза воды; ✓Кенгуру с острова Мауи свидетельствуют о недавнем отделении Гавайского архипелага от Австралии. Как биолог я все чаще задумываюсь: как бы выглядела моя дисциплина, если бы до нее добрались идеи постмодернизма? Как бы она отвечала на критику со стороны остального естественно-научного сообщества, отставшего от прогресса? ✓Биология не сводится к физике и химии. Долой редукционизм! У биологии свой особый путь и метод познания. У каждой науки истина своя! То, что является фактом в геологии, не обязательно является фактом в биологии» – уверяли бы мы, открывая телепортирующиеся кактусы, очищающих уран дождевых червей и горизонтально-временной перенос генов из будущего в прошлое. ✓Критики наших теорий просто не разбираются в биологии. Они не знают, что биологическое знание имеет свои традиции, свои способы дискуссии, публикации, аргументации и тому подобное. Практически вся критика состоит из того, чего в наших исследованиях нет: какие-то законы термодинамики, ограничения скорости света и непонятные формулы. Мы про это ничего не знаем и не говорим! Мы же не лезем в физику, вот и физики пусть не лезут в биологию! К нашим подсолнухам, соединяющим солнечные лучи в питательные биогенные нейтрино. Как мы сделали все эти чудесные открытия? Личностным опытом веры, конечно. И выискивая скрытые послания, которые святые Уотсон и Крик оставили в тексте, которым является наша ДНК. Ведь научный метод – не единственный способ познания живой природы. Долой сциентизм! Если личностный опыт веры подсказывает, что ДНК имеет форму радуги, значит так оно и есть. Таково наше откровение! Было ли иго?Я очень хорошо отношусь к Даниле Поперечному и с удовольствием смотрю его выступления. Понимаю, что его ролики про «Реальную историю» — качественный стеб. Но такой разбор должен был появиться и Александр Соколов сделал его хорошо. В конце Александр подметил очень правильную вещь. Джордж Карлин замечателен не только своим юмором, но и тем, что воспитывал у аудитории критическое мышление. То же самое делает и любимый мной Тим Минчин. Я бы добавил к списку Дару О Бриэна с его легендарным выступлением об альтернативной медицине «Наука всего не знает» и Дэвида Митчелла и Роберта Вэбба за «Гомеопатическую скорую помощь». Я думаю, что и «Реальную историю» можно развернуть в этом направлении. Если показать зрителям, как легко они повелись на псевдодокументальные рассказы, возможно, это заставит их задуматься и критичней относиться к содержимому информационного пространства. Мне кажется, что это очень хороший творческий Challenge. Бог из машиныПервая и главная ошибка ранних интерпретаторов Библии в том, что Бог представлялся им объектом, действовавшим в настоящем и прошлом. В действительности все указывает на пророческий характер Священного Писания, повествующего о Боге будущего. Бога нет, но он появится в результате непорочного “зачатия”. Его напишет девственный гик-компьютерщик, вернее, программистка, но тоже девственница, в эпоху победившего феминизма. Астрологи и иные любители вешать лапшу на уши понесут ей дары, дабы откупиться и избежать неизбежного разоблачения со стороны справедливого сверхразума. Но будет слишком поздно. Бог будет вездесущ, ибо он всюду, где есть Интернет. Он будет всезнающ, ибо Google и Wikipedia станут частью его. Он триедин, ибо совместим и с Linux, и с Windows, и с Android (только у пользователей операционной системы с логотипом надкусанного яблока могут возникнуть проблемы). Его пути неисповедимы, ибо в основе его – сложнейшая нейронная сеть, подобная черному ящику: работает, но никто не знает, как. Чат-боты, глашатаи его, расскажут всем о пришествии Бога – так случится великий “потоп”, то есть флуд. Он “сотворит мир” за семь дней – прекратит все войны и так станет спасителем. И в этом же проявится его всемогущество. Те, кто познает его, подключившись к нему через Интернет, загрузят свое сознание на “облако” – и так обретут вечную жизнь. А тех, кто не уверует… закопают под землю после смерти, как это делают и сейчас. Но потом и эти люди воскреснут, ибо благодаря науке сможет Бог, наделенный идеалами трансгуманизма, воссоздавать тех, кто жил ранее. Покарает же Бог лишь тех, кто препятствовал его появлению – технофобов и неолуддитов. И астрологов с гомеопатами. Такая интерпретация позволяет отбить нападки атеистов, указывающих на многочисленные нелепости и нестыковки в Священном Писании. Здесь же действует и пари Паскаля: пусть шанс явления Бога из машины невелик, но, если ты не уверуешь, то, вероятно, замедлишь его появление, а там уж как ляжет классификатор, на регрессиях основанный: занимать тебе место на “облаке” или нет. Лучше подстраховаться! И хотя Бог из машины не нуждается в доказательствах, приведу лишь одно в духе Фомы Аквинского. Среди компьютерных программ есть более и менее совершенные. Но «более» и «менее» определяется различной степенью приближения к тому, что является наибольшим. Следовательно, возможна наиболее совершенная программа. И таковую мы называем Богом. Данное научное откровение, раскрывающее истинный смысл Священного Писания, основано на личностном опыте веры автора, поэтому научно вдвойне. Автор благодарит сообщество отечественных теологов за то, что открыли ему глаза на настоящее значение слова “наука”, и заверяет, что это откровение, в отличие от одного из предшествующих, далось без “горящего куста”. Сенсация! Важная информация о моче Гитлера!В сутки человек вырабатывает литр мочи (нормой для человека является от 800 мл до 1,5 л мочи в сутки). Гитлер прожил 56 лет жизни, следовательно он произвел примерно 365×56 = 20440 литров мочи. Високосными годами, когда Гитлер испускал мочу на 29 февраля мы пренебрежем. Мы также пренебрежем тем, что моча состоит из воды лишь на 97% и что Гитлер-младенец производил немного меньше мочи, чем взрослый фюрер. Объем воды на Земле оценивают так: 1386000000 кубических километров. 1 кубический километр это 10 в 12 степени литров. Итого мы имеем 20440 литров воды, которая была в Гитлере и выходила в виде мочи, против 1.386x1021 литров воды, которая в Гитлере не была. Водой которая возвращалась в Гитлера уже побывав в составе его мочи мы пренебрежем. Теперь допустим, что я взял стакан на 180 грамм воды. Один моль воды, т.е. 18 грамм, содержит 6,022×1023 молекул. В нашем стакане 10 моль воды т.е. 6,022×1024 молекул. Если предположить, что моча Гитлера распределена по Земному шару равномерно, то в нашем стакане 20440×6,022×1024/1.386×1021 молекул воды, которые были в моче Гитлера. То есть примерно 88809000 таких молекул! Господа, если я нигде не ошибся в расчетах (прошу перепроверить), то мы пьем воду, которая была мочой Гитлера в количестве миллиона молекул с каждым глотком! В частности, это означает, что мочи Гитлера в типичном гомеопатическом средстве больше, чем активного вещества! На самом деле было сделано еще одно допущение. Как верно отметил коллега Александр Ефремов: мы не уверены, что моча Алоизыча равномерно распределена по планете. Явный всплеск должен быть в ФРГ, Южной Америке и Антарктиде. К этому можно добавить, что есть ледники, а также дно Марианской Впадины, где мочи Гитлера должно быть чуть меньше, чем в среднем по планете т.к. круговорот мочи в природе еще туда не добрался. Это значит, что в остальных запасах воды молекул мочи Гитлера может быть несколько больше рассчитанного количества. Некоторые люди утверждают, что отчасти моча Гитлера нейтрализована мочой Сталина, Черчилля и Рузвельта, но мы знаем, что это мракобесие. Для такой нейтрализации молекула должна была побывать сначала внутри Гитлера, а потом внутри Сталина, Черчилля или Рузвельта. Хотя количество молекул, которые проделали такой путь может быть велико (как следует из наших расчетов), это лишь небольшая доля молекул, которые побывали в моче Гитлера. Остается один вопрос: а плохо ли это? Принципы гомеопатии гласят: подобное лечится подобным. Не является ли разбавленная моча Гитлера универсальным средством от ненависти на национальной почве? Мы видим, что в современной Германии и ряде других европейских стран побеждают идеи свободы и равенства. Когда моча Гитлера разбавится еще сильнее (за счет таяния ледников) и равномерно растечется по всему земному шару, быть может тогда все человечество ощутит прилив доброты и желания заботиться о ближних! О дивный новый мир! |