Облако тегов

Особенности восприятия облаков тегов

Облака тегов изучались в нескольких исследованиях на предмет удобства использования. Следующий перечень основан на результатах исследований компании Lohmann и др.:

  • Размер тега: крупные теги привлекают больше внимания, чем маленькие теги (эффект зависим от таких свойств, как: количество символов, расположение, соседние теги).
  • Просмотр: пользователи обычно просматривают облако, а не читают его полностью.
  • Центрирование: теги в середине облака привлекают больше внимания, чем теги, расположенные по краям (эффект обусловлен особенностью расположения текста в облаке).
  • Позиционирование: верхний левый квадрант получает больше внимания, чем остальные (обусловлено чтением слева-направо).
  • Исследование: облака тегов помогают найти специфические теги (которые не выделены большим размером шрифта).

How ProWritingAid’s Word Cloud Gallery Works

At the bottom of every page on ProWritingAid.com is a link under “Resources” called Word Cloud Gallery. When you click on that link, you get something that looks like this:

Notice at the top, you have options to “Create a Word Cloud” or search for the “Latest Word Clouds” by keyword. A sidebar on the right side contains popular tags to help you narrow your focus on already-generated word clouds.

When you click on “Create Word Cloud,” it brings up the following screen:

Simply copy and paste your text into the box or enter your url, and click on “Create Word Cloud.”

Here’s what your new word cloud looks like:

Notice you have an interesting graphical representation of the words in your text, which you can customize by choosing a font, color, and layout. You can also re-create the word cloud with new text, download the image to your computer, or save it to the ProWritingAid gallery so that others can see and use your word cloud.

Word Art

Имеет интерфейс со множеством кнопок, но и функций достаточно много — дизайнеры будут счастливы.

Можно добавить слова вручную и можно выполнить импорт из буфера обмена. Вставлять можно не только скопированный текст, но и скопированные ячейки из 1.  Word ArtExcel — сервис распознает отдельные слова и заполнит таблицу исходных слов.

При импорте фразы разбивает на отдельные слова, но вручную фразы можно ввести.

По работе со словами — 4 степени свободы дизайнера —  цвет, шрифт, наклон, прописные/строчные буквы.

Кириллица поддерживается — можно загружать свои кириллические шрифты. Загрузка своего шрифта — тоже очень полезная дизайнерская функция.

По фигурам есть огромная библиотека которая содержит как силуэты так и цветные векторные рисунки. Более того можно загрузить свой векторный рисунок, например, выбрать из https://www.flaticon.com (JPEG или PNG). Если рисунок будет цветным — WordArt автоматически подберет словам цвета так,чтобы они повторили рисунок.

Я взял вот такой рисунок в качестве фигуры  (https://www.flaticon.com/free-icon/light-bulb_167745 ), и вот что получилось:

Результат получается замечательный, только одно плохо — размер букв абсолютно не зависит от их частоты в загруженном тексте. Т.е. для иллюстраций — WordArt идеален, но показать вес слов — это не его.

Бесплатно результат можно скачать только в форматах PNG и JPEG.

Jason Davies’ word cloud generator

Jason Davies’ word cloud generator is an odd one. It feels more like an interactive science fair project than a data visualization tool. While every other entry on this list is chiefly concerned with making your words look pretty, Davies’ lets you dig into the math that controls the placement of words. Would you rather have an ‘Archimedean’ or ‘Rectangular’ spiral to your cloud? If you already know the answer to that question, then you’re sure to enjoy Davies’ detailed breakdown of how his generator works (complete with further reading for the word cloud aficionado). This is the nerdiest of all the word cloud generators I experimented with. Definitely the one to share with your math major friends.

Wordle

Wordle strikes a nice balance of simplicity and customization. It doesn’t have all the frills of other generators I tried (no custom shapes, for example), but what it does have is very straightforward to use. My favorite feature — one I wish all word cloud generators had — is a ‘randomize’ button that scrambles the entire cloud with a single click. Tap it a few times, and you quickly get a sense of what you can create with this tool. Wordle’s main drawback is Java. Since Wordle requires Java to function, it can be tough to get it to run on certain web browsers. You’re probably safe if you have a recent version of Chrome.

Построение облака слов

Чтобы построить облако слов нужно:

  1. Получить данные для анализа, в нашем случае — твиты. Но это может быть и обычный текстовый файл.
  2. Выделить текст из твитов.
  3. Создать лексический корпус и терм-документную матрицу (с помощью функций пакета tm).
  4. Получить ключевые слова и частоту их упоминания.
  5. Нарисовать облако слов.

Шаг 1. Получим твиты и сохраним их в переменной tweets:

tweets <- ("data mining", n=500, lang="en")

Ограничимся пока твитами на английском языке.

Rемарка 3. Типы данных. Основным типом данных в R является вектор — последовательность данных одного типа. Векторы бывают числовые и символьные. Пример создания символьного вектора: . Функция выполняет конкатенацию. Скаляров как таковых нет, скаляром считается вектор, состоящий из одного элемента. Есть еще списки — они похожи на векторы, но могут хранить элементы любого типа.

Для хранения двумерных данных существуют матрицы и таблицы (data frame). Матрицы быстрее, но могут хранить только один тип данных. Таблицы могут хранить в разных колонках данные разных типов и, кроме того, к колонкам можно обращаться по имени, а не по индексу.

Шаг 2. К каждому твиту применим функцию выделения текста:

text = sapply(tweets, function(x) x$getText())

Шаг 3. Вообще говоря, лексический корпус — это коллекция текстов, подлежащих анализу. В нашем случае — это символьный вектор с несколькими дополнительными атрибутами.

Терм-документная матрица описывает частоту терминов, которые встречаются в документах корпуса: строки матрицы соответствуют документам, столбцы — терминам. Значение элемента матрицы равно частоте употребления термина в документе.
Для построения лексического корпуса и терм-документной матрицы используются функции и :

corpus <- Corpus(VectorSource(text))
tdm <- TermDocumentMatrix(corpus,
         control = list(removePunctuation = TRUE,
         stopwords = c("data", "mining", stopwords("english")),
         removeNumbers = TRUE,
         tolower = TRUE))

С помощью параметра мы выполняем очистку текста от символов пунктуации, стоп-слов (например, артиклей английского языка), чисел и переводим все буквы в строчные.

Шаг 4. Сохраним терм-документную матрицу как обычную матрицу, отсортируем частоты в порядке убывания и сохраним результат в виде таблицы:

m <- as.matrix(tdm)
word_freqs <- sort(rowSums(m), decreasing=TRUE)
dm <- data.frame(word=names(word_freqs), freq=word_freqs)

Напомню, что в — это часть имени, а не оператор доступа к полям структуры.

Шаг 5. Осталось лишь нарисовать облако. Это делается функцией одноименного пакета:

wordcloud(dm$word, dm$freq, random.order=FALSE, colors=brewer.pal(8, "Dark2"))

Можно сохранить историю команд c помощью меню «Файл», исправить ее, если нужно, а затем загрузить с помощью все того же меню полученный скрипт (текстовый файл с расширением .r или .R). В нем всего 16 строк:

library()
library(tm)
library(wordcloud)

api_key <- "..."
api_secret <- "..."
access_token <- "..."
access_token_secret <- "..."
(api_key,api_secret,access_token,access_token_secret)

tweets <- ("data mining", n=500, lang="en")
text <- sapply(tweets, function(x) x$getText())

corpus <- Corpus(VectorSource(text))
tdm <- TermDocumentMatrix(corpus, control = list(removePunctuation = TRUE, stopwords = c("data", "mining", stopwords("english")), removeNumbers = TRUE, tolower = TRUE))

m <- as.matrix(tdm)
word_freqs <- sort(rowSums(m), decreasing=TRUE)
dm <- data.frame(word=names(word_freqs), freq=word_freqs)

wordcloud(dm$word, dm$freq, random.order=FALSE, colors=brewer.pal(8, "Dark2"))

Значения ключей Twitter API у вас будут свои. Вставьте их вместо многоточий.

Не факт, что результат у вас совпадет с моим — ведь появятся новые твиты. А параметров у них много, например, географические координаты. Так что теперь мы можем с помощью R построить карту пристрастий пользователей Twitter. Можем смотреть, как эти пристрастия изменяются со временем. Можем… Но все это — темы для других статей.

Как сделать облако тегов онлайн

Для таких задач гораздо удобнее использовать специальные онлайн-сервисы, чем программы. Вам не требуется ничего устанавливать, занимать место и ресурсы компьютера, но при этом вы получаете примерно тот же функционал. Мы рассмотрим несколько наиболее удачных сервисов, предоставляющих необходимый функционал.

Сайт 1: Word It Out

Главный недостаток сервиса – он полностью на английском языке и русского языка в нем не предусмотрено. Однако сервис предоставляет перечень шрифтов, которые поддерживают русские буквы.

В поле для ввода текста можно ввести rss-сслыку на нужную страницу или заполнить поле самостоятельно. Сюда можно ввести слова через запятую или просто вставить текст, из которого система сама вычленит теги.
Запустите генерацию облака тегов, воспользовавшись кнопкой «Generate».

Появится облако тегов, которое можно сохранить на компьютер. Обратите внимание на то, что каждое новое облако создается рандомно, за счет чего имеет уникальный внешний вид.

В левой панели с настройками выберите подходящий шрифт, если выбранный сервисом по умолчанию вас не устраивает. Кликните по иконке в виде F и выберите среди предложенных вариантов подходящий.
Аналогично дела обстоят с цветом текста и фона. Переключите в раздел, выделенный кисточкой на фоне палитры. Изменить цвета можно в пунктах «Background color» (для фона) и «Word color range».
Задать ориентацию облака с тегами можно во вкладке в виде двух плашек (отмечены на скриншоте).

Если нужно изменить размер текста, то воспользуйтесь вкладкой в виде буквы «S». В поле «Difference in sizes of words» выбирается непосредственно размер шрифта. В «Vary word size with» указывается как сильно будет менять размер слов в облаке.
Для того, чтобы новые настройки отобразились в вашем облаке воспользуйтесь кнопкой «Regenerate».
Для сохранения воспользуйтесь зеленой кнопкой «Save». Откроется окошко, где нужно задать заголовок и описание для облака. Делать это необязательно, но желательно. Сохранение происходит посредствам отправки облака на email, который вы указываете ниже.
Подтвердите сохранение, нажав кнопку «Save».

Сайт 2: Wordart

Для создания первого облака тегов не требуется регистрация, однако, если вам нужно сохранить его на сайте, чтобы потом вернуться к редактированию, то придется зарегистрироваться.

В окне «Words» прописываем те слова, с которыми будете работать. По умолчанию там уже есть три слова, которые можно изменить. Для добавления нового слова используйте кнопку «Add», а для удаления «Remove», предварительно выделив необходимое слово. Также вы можете загрузить слова из сторонних источников, воспользовавшись кнопкой «Import words».

Во вкладке «Shapes» можно выбрать форму, в которой будут расположены ваши слова.

Чтобы изменить шрифт слов используйте вкладку «Fonts». Там можно выбрать другой шрифт. Большинство из них поддерживают русский язык, но не все, поэтому будьте внимательны. Шрифты, не поддерживающие кириллические буквы подсвечены красным.

На вкладке «Layout» можно выбрать нужную ориентацию слов в тексте.

Закончив с настройками нажмите кнопку «Visualize».

Нажмите «Save» для сохранения готового облака. К сожалению, его можно будет скачать только после регистрации, о чем вас оповестит сайт. Процесс регистрации стандартный, поэтому подробно останавливаться на нем не будем.

Сайт 3: Word Cloud

Этот сайт отличается от уже рассмотренных тем, что вы можете скачать с него ранее созданное облако в формате картинки PNG или SVG. Для скачивания готового результата вам не потребуется регистрироваться на сайте, однако если будет делать еще несколько проектов и периодически возвращаться к ним, то регистрацию пройти потребуется. К сожалению, поддержки русского языка здесь нет, да и функционал по сравнению с Wordart достаточно скудный.

Давайте попробуем создать облако тегов с помощью Word Cloud:

  1. Перейдя на сайт введите текст в специальное поле. Туда можно ввести как простое перечисление тегов, так и просто вставить текст. В последнем случае будьте внимательны, так как сервис не всегда корректно работает с русским текстом.
  2. Под формой ввода текста находится панель настроек отображения облака. Здесь можно выбрать шрифт, наклон и поворот слов, ориентацию и другие параметры.
  3. Для преобразования текста в облако нажмите «Go!».

Чтобы скачать полученное облако на компьютер воспользуйтесь кнопкой «SVG» или «PNG», что расположена напротив надписи «Download».

На эти трех сайтах вы без проблем сможете создать облако с тегами как на основе готового текста, так и вписать нужные слова вручную. В интернете есть и другие сайты с похожим функционалом, но принцип взаимодействия с ними практически не отличается от описанных в статье сервисов.

Сервисы для создания облака тегов

Пользоваться такими способами гораздо удобнее, чем специальными программами для компьютера. Во-первых, вам не нужно устанавливать ПО на ПК, во-вторых, работать можно с текстом по указанной ссылке без необходимости вручную вводить нужные слова. В-третьих, на сайтах огромное разнообразие форм, в которые можно вписать теги.

Способ 1: Word It Out

Английский сервис для создания облака из тегов. Пользователь может самостоятельно ввести нужные ему слова или указать адрес, с которого нужно взять информацию. Разобраться в функционале ресурса несложно. В отличие от других сайтов не требует регистрации и авторизации через социальные сети. Еще один большой плюс – правильное отображение кириллических шрифтов.

Заходим на сайт и щелкаем «Create» на верхней панели.
Вводим в указанном поле ссылку на rss сайта либо пишем нужные сочетания вручную.
Для начала формирования облака щелкаем на кнопку «Generate».
Появится облако тегов, которое можно сохранить на компьютер

Обратите внимание на то, что каждое новое облако создается рандомно, за счет чего имеет уникальный внешний вид.
Настройка определенных параметров облака осуществляется посредством бокового меню. Здесь пользователь может выбрать нужный шрифт, настроить цвет текста и фона, изменить размер и ориентацию готового облака.

Word It Out предлагает пользователям точечные настройки каждого элемента, которые помогают получить в свое распоряжение уникальное облако тегов. Иногда получаются довольно занимательные варианты.

Способ 2: Wordart

Wordart позволяет создать облако тегов определенной формы. Шаблоны можно загрузить из библиотеки. Пользователи могут указать ссылку на сайт, с которого нужно взять важные слова, или ввести желаемый текст вручную.

Доступны настройки шрифта, ориентации слов в пространстве, цветовой схемы и прочие параметры. Итоговое изображение сохраняется в виде картинки, качество пользователь может выбрать самостоятельно. Небольшой недостаток сайта заключается в том, что пользователю необходимо пройти несложную регистрацию.

  1. На главной странице сайта щелкаем «Create now».
  2. Попадаем в окно редактора.
  3. Для работы со словами в редакторе предусмотрено окно «Words». Для добавления нового слова щелкаем «Add» и вводим его вручную, для удаления нажимаем на кнопку «Remove». Есть возможность добавления текста по указанной ссылке, для этого щелкаем на кнопку «Import words». Для каждого отдельного слова в тексте можно настроить цвет и шрифт, самые необычные облака получаются при рандомных настройках.
  4. Во вкладке «Shapes» можно выбрать форму, в которой будут расположены ваши слова.
  5. Вкладка «Fonts» предлагает огромный выбор шрифтов, многие из них поддерживают кириллический шрифт.
  6. На вкладке «Layout» можно выбрать нужную ориентацию слов в тексте.
  7. В отличие от других сервисов, Wordart предлагает пользователям создать анимационное облако. Все настройки анимации происходят в окне «Colors and Animations».
  8. Как только все настройки будут завершены, щелкаем на кнопку «Visualize».
  9. Начнется процесс визуализации слов.
  10. Готовое облако можно сохранить либо сразу отправить на печать.

Шрифты, которые поддерживают русские буквы, выделены синим цветом, это поможет правильно определиться с выбором.

Способ 3: Word Cloud

Онлайн-сервис, который позволит за считанные секунды создать необычное облако тегов. Сайт не требует регистрации, итоговое изображение доступно для скачивания в форматах PNG и SVG. Способ ввода текста аналогичен двум предыдущим вариантам – слова можно указать самостоятельно либо вставить в форму ссылку на сайт.

Главный минус ресурса – отсутствие полноценной поддержки русского языка, за счет чего некоторые кириллические шрифты отображаются неправильно.

  1. Вводим текст в указанную область.
  2. Указываем дополнительные настройки слов в облаке. Можно выбрать шрифт, наклон и поворот слов, ориентацию и другие параметры. Экспериментируйте.
  3. Для загрузки готового документа щелкаем на «Download».

Сервис отличается простотой и отсутствием сложных для понимания функций. При этом использовать его лучше для создания облака из английских слов.

Мы рассмотрели самые удобные сайты для создания облака тегов онлайн. Все описанные сервисы на английском языке, однако, проблем у пользователей возникнуть не должно – их функции максимально понятны. Если планируете создать необычное облако и максимально настроить его под свои потребности – используйте Wordart.

Опишите, что у вас не получилось.
Наши специалисты постараются ответить максимально быстро.

История

На языке визуального дизайна, облако тегов (или облако слов) это один из видов «взвешенного списка», обычно оно используется на географических картах для отображения относительного размера городов, с помощью размера шрифтов. Одним из первых примеров взвешенного списка английских ключевых слов является список «подсознательных файлов компьютера» в романе Дугласа Коупленда «Рабы Майкрософта» (1995). Список слов немецкого языка появился в 1992.

Особое визуальное представление и распространение термина «облако тегов» началось в первом десятилетии 21 века. Как особенность сайтов и блогов эры Веб 2.0, использовалось, в основном, для визуализации частотного распределения ключевых слов метаданных, описывающих содержание веб-сайта и помогающих в навигации.

Первые облака тегов на известных веб-сайтах появились на сайте сервиса хранения и распространения цифровых фотографий Flickr. Создателем облаков тегов был соучредитель и проектировщик Flickr Стюарт Баттерфилд в 2004. Эта реализация была основана на книге Джеймса Фланагана Search Referral Zeitgeist, в котором описывается визуализация ссылок на веб-сайт. Примерно в то же время распространению облака тегов способствовали сайты Delicious и Technorati.

Перенасыщение облаками тегов и двоякие чувства в отношение их полезности как помощников в навигации по веб-сайтам привели к заметному снижению их использования на сайтах-первопроходцах. (Создатели Flickr впоследствии «извинились» перед веб-сообществом в своей речи на премии Webby Awards, где они просто сказали «простите за облака тегов».)

Второе поколение развития программного обеспечения выявило широкий круг применения облаков тегов как основных методов визуализации текстовых данных. Также были предложены некоторые расширения для этих элементов навигации. Например, параллельные облака тегов, sparkClouds, и префиксные облака тегов.

В данный момент облако тегов не имеет такой популярности, а в некоторых случаях даже негативно сказывается на поисковом продвижении сайта. Так что если и делать облако, то для некой конкретной цели, чтобы оно несло смысловую нагрузку для пользователей интернет ресурса.[источник не указан 1579 дней]

Визуальное представление

Облако данных показывает изменение цены на акции. Цвет указывает на рост или падение цены, размер шрифта указывает на процентное изменение.

Облака тегов обычно представлены в виде встроенных HTML элементов. Теги могут быть распределены в алфавитном порядке, в случайном порядке, по весу, и т. д. Иногда изменяют прочие визуальные свойства, такие как цвет, яркость, или ширина, в дополнение к размеру шрифта. Наиболее распространено представление в виде прямоугольника, в котором теги упорядочены по алфавиту и выводятся построчно. Выбор расположения тега в строках соответствует целям пользователя. Иногда предпочтение отдается семантической кластеризации тегов (похожие по смыслу теги будут выводиться рядом). Допускается применение эвристик для уменьшения размера облака тегов, независимо от того — выполняется кластеризация или нет.

Облако данных

Облако данных — это данные, в которых используется другой цвет и/или размер шрифта для обозначения числовых данных. Облака данных похожи на облака тегов, но вместо подсчета слов, выводятся такие данные, как плотность населения или цены на рынке ценных бумаг.

Облако текста

Сравнение облаков текста речи Президента США Д. Буша и Президента США Б. Обамы.

Облако текста или облако слов — это визуализация частоты слов в тексте в виде взвешенного списка. В последнее время эта техника используется для визуализации тематического контента политических речей.

Облака словосочетаний

Развивая принципы облаков текста, облака словосочетаний дают более сфокусированный вид текста или набора текстов. Вместо всего текста, облако словосочетаний фокусируется на использовании отдельных слов. Полученное облако содержит слова, которые часто используются в сочетании с исходным словом. Эти представляют частоту, выделяемую размером шрифта, наряду с силой связи, выделяемой яркостью. Это позволяет интерактивно изучать язык.

Applications of Word Clouds in Business

You can create word clouds from all types of text, including tweets, product reviews, and excel data. Not only are they visually attractive, but they also provide quick insights to help you identify trends and patterns, and compare the main words in different qualitative datasets.

Let’s take a look at how businesses are using word cloud generators:

Analyzing Customer Feedback

Customer feedback allows companies to understand what clients like and dislike about their products. Surveys, product reviews, and social media are just some examples of customer feedback that businesses collect. However, while quantitative data (like stars, likes, NPS scores, or yes-no questions) are easy to process, qualitative data (such as open-ended responses) requires more effort.

Word clouds are a great starting point when analyzing qualitative data, to see which topics are mentioned most often.

Creating a word cloud from a series of survey responses, for example, can help you detect relevant themes and pain points. If words like “price”, “customer service”, or “features” appear bigger in your word cloud, you can get a sense of the aspects that matter the most to your customers.

Also, you can gauge sentiment by noticing positive and negative terms. Words like “love”, “best” or “easy” suggest a positive view, while terms like “error”, “bugs” or “confusing” may alert you to potential issues.

When it comes to sentiment analysis, word clouds are a useful starting point, but you can get more accurate and insightful results by performing a deeper sentiment analysis of your data.

Try out our free online sentiment analyzer to get a feel for how it works.

Understanding Employee Feedback

You might also send out surveys to find out what employees like/dislike about working at your company. This can be particularly interesting to assess the impact of a recent change or initiative in the workplace. Some workers might feel “discouraged”, “confused”, “optimistic”, or “supported”, for example. Once you’ve received a bunch of responses, you can use word clouds to see what they mention most often and how they mention it.

You can also use word clouds to compare these results with future surveys and see how your employee’s perception evolves over time.

Identifying SEO Terms

Your marketing strategy can also benefit from word clouds since they can help with keyword research and identify relevant SEO terms.

You can paste your website’s URL into some word cloud tools, so you can see which keywords appear most often on your site. That way, you can see if your content reflects your brand or if you need to improve it. You might also want to create a Twitter word cloud to see which topics are trending on your Twitter feed and those of your competitors.

Создание облака тегов

В общем размер шрифта тега в облаке тегов обусловлен распространенностью тега. Для облака слов, например, категорий блога, частота соответствует количеству записей в блоге, которым присвоена данная категория. Для меньших частот можно указать размеры шрифта непосредственно, от едининцы до максимально используемого размера шрифта. Для больших частот необходимо провести масштабирование. Например, используя линейное преобразование, вес ti{\displaystyle t_{i}} тега масштабируется по шкале множителей от of 1 до f, где tmin{\displaystyle t_{min}} и tmax{\displaystyle t_{max}} определяют диапазон разрешенных весов.

si=⌈fmax⋅(ti−tmin)tmax−tmin⌉{\displaystyle s_{i}=\left\lceil {\frac {f_{\mathrm {max} }\cdot (t_{i}-t_{\mathrm {min} })}{t_{\mathrm {max} }-t_{\mathrm {min} }}}\right\rceil } для ti>tmin{\displaystyle t_{i}>t_{\mathrm {min} }}; иначе si=1{\displaystyle s_{i}=1}


Набор слов из списка 1000 избранных статей Википедии, упорядоченный по количеству просмотров, доступный в галерее Wordle gallery.

  • si{\displaystyle s_{i}}: размер шрифта
  • fmax{\displaystyle f_{\mathrm {max} }}: максимальный размер шрифта
  • ti{\displaystyle t_{i}}: вес тега
  • tmin{\displaystyle t_{\mathrm {min} }}: минимальный вес
  • tmax{\displaystyle t_{\mathrm {max} }}: максимальный вес

Так как число учтённых элементов на каждый тег обычно распределено по экспоненциальному закону распределения, поэтому для больших диапазонов значений имеет смысл использовать логарифмическое представление.

Реализация облака тегов также включает синтаксический анализ фильтрацию ненужных тегов, таких как предлоги, местоимения, чи́сла и знаки препинания.

Также существуют веб-сайты, которые создают искусственные или случайно распределённые облака тегов для рекламы или с юмористической целью.

Литература

  • Gilles Deleuze, Felix Guattari. Tausend Plateaus. Kapitalismus und Schizophrenie (нем.). — 1992. — ISBN 3-88396-094-2.
  • Collins, C., Viegas, F. and Wattenberg, M. Parallel Tag Clouds to Explore and Analyze Faceted Text Corpora (англ.) // VAST. — 2009.
  • Bielenberg, K. and Zacher, M. Groups in Social Software: Utilizing Tagging to Integrate Individual Contexts for Social Navigation (англ.). — 2005. Архивировано 8 октября 2007 года.

    Knautz, K., Soubusta, S., & Stock, W.G. Tag clusters as information retrieval interfaces (англ.) // IEEE. — 2010.

    Helic, D., Trattner, C., Strohmaier, M. and Andrews, K. Are Tag Clouds Useful for Navigation? A Network-Theoretic Analysis (англ.) // Journal of Social Computing and Cyber-Physical Systems. — 2011. — P. 33—55. Архивировано 4 марта 2011 года.

    Trattner, C. Linking Related Content in Web Encyclopedias with search query tag clouds (англ.) // IADIS Internation Journal on WWW/Internet. — 2011. Архивировано 15 июня 2012 года.

    Tratter, C., Lin, Y., Parra, D., Yue, Z., Brusilovsky, P. Evaluating Tag-Based Information Access in Image Collections (англ.) // ACM. — 2012. Архивировано 15 июня 2012 года.

    Lohmann, S., Ziegler, J., Tetzlaff, L. Comparison of Tag Cloud Layouts: Task-Related Performance and Visual Exploration (англ.) // INTERACT. — 2009. — P. 392—404. Архивировано 7 октября 2009 года.

    Hassan-Montero, Y., Herrero-Solana, V. Improving Tag-Clouds as Visual Information Retrieval Interfaces (англ.) // INTERACT. — 2006.

    Salonen, J. Self-organising map based tag clouds — Creating spatially meaningful representations of tagging data (англ.) // Proceedings of the 1st OPAALS conference. — 2007. Архивировано 24 декабря 2008 года.

    Voss, Jakob. Collaborative thesaurus tagging the Wikipedia way (неопр.) // Wikimetrics research papers. — 2006. — Т. 1, № 1.

Poll Everywhere

The magic of Poll Everywhere’s word cloud generator lies not only in its aesthetics, but in its customization, control, and presentation engagement capabilities. Instead of creating an image on a website, what if you were able to collaborate instantly with your audience and, together, create a living word cloud that grows as your audience responds? Educators and meeting facilitators use it every day to engage their class or audience in real-time. After your presentation ends, it serves as an easy way to share a highlight from your presentation with your participants. Learn how word clouds from Poll Everywhere can help you create and collaborate with your audience, instantly.

Как создать слово облако с помощью Python?

Итак, давайте начнем с создания собственного облака слова, используя Python.

1. Установите библиотеки WordCloud и Wikipedia

Чтобы создать слово облако, нам нужно иметь Python 3.x на наших машинах, а также WordCloud установлены. Чтобы установить WordCloud, вы можете использовать команда PIP :

sudo pip install wordcloud

Для этого я буду пользоваться веб-страницей из Википедии, а именно – Python (язык программирования) Отказ Чтобы использовать содержимое Wikipedia, нам нужно установить Зависимости Wikipedia Отказ

sudo pip install wikipedia

2. Поиск Википедии на основе запроса

Во-первых, мы импортируем Библиотека, использующая фрагмент кода ниже:

import wikipedia

Мы будем использовать Функция и только сделать первый элемент из этого, поэтому мы используем . Это будет название нашей страницы.

def get_wiki(query):
	title = wikipedia.search(query)

	# get wikipedia page for selected title
	page = wikipedia.page(title)
	return page.content

После извлечения мы используем и извлечь содержимое страницы. После этого мы вернем только страницы, используя Отказ

Если вы запустите вышеуказанный код на консоли, вы получите все необработанные данные с сайта на консоли. Но наша задача здесь не заканчивается, нам нужно сделать слово облако.

3. Создайте облачную маску и установите сложные слова

Для начала мы импортируем Библиотека и импортировать определенные пакеты, такие как и Отказ

Мы импортируем Потому что мы хотим удалить основные статьи, такие как а, а и другие общие слова используется на английском языке.

from wordcloud import WordCloud, STOPWORDS

Мы будем использовать Отказ Эта грубая диаграмма названа как «Cloud.png» в текущем рабочем каталоге, обозначенном Отказ Мы откроем это изображение и храним его в Numpy Array.

Наша следующая задача – определить набор стоп-слов и, следовательно, мы используем Отказ

Мы создаем облако слова, используя объект Python, используя (). Мы пройдем параметры, такие как , (Здесь мы выбираем наше ограничение словом как 200), и Отказ

Затем мы будем использовать и пройти необработанный текст в качестве параметра.

Мы также можем сохранить облако слова, создаваемые в файл, и мы назовем его как Отказ

def create_wordcloud(text):
	mask = np.array(Image.open(path.join(currdir, "cloud.png")))
	
	stopwords = set(STOPWORDS)

	# create wordcloud object
	wc = WordCloud(background_color="white",
					max_words=200, 
					mask=mask,
	               	stopwords=stopwords)

	wc.generate(text)

	# save wordcloud
	wc.to_file(path.join(currdir, "output.png"))

Запуск этих 2 функций может принять до 30-40 секунд в первый раз и может уменьшиться в дальнейшем прогона. Полный код и выходное изображение так, как показано ниже в следующем разделе.

Типы применения тегов

Облако данных показывает население всех стран мира. Создано с помощью языка программирования R с помощью пакета облако слов. Данные получены из списка, содержащего название стран и количество жителей

Обратите внимание, что относительные размеры Китая и Индии были разделены пополам.

Существует три основных типа применения облаков тегов в социальном программном обеспечении, различающихся скорее по назначению, чем по внешнему виду:

  • в первом типе есть тег для частоты каждого элемента,
  • во втором типе есть глобальные облака тегов, где частоты агрегированы по всем элементам и пользователям,
  • в третьем типе облако содержит категории, размер которых обозначает количество подкатегорий.

В первом типе облаков тегов размер представляет собой количество применений тега к элементу. Это полезно в качестве способа отображения метаданных о предмете, за который сколько-то раз «проголосовали», и когда точные данные не предусмотрены. Примером такого применения является Last.fm (для определения жанра музыки группы) и LibraryThing (для определения ключевых слов книги).

Во втором типе размер соответствует числу предметов, к которым был применен тег, что обозначает популярность тега. Примеры данного типа облаков тегов можно найти на сайте сервиса хранения и распространения цифровых фотографий Flickr, RSS-агрегатора Technorati и введя в поисковый запрос DeeperWeb.

Категоризация путём создания кластера тегов

В третьем типе теги используются как способ категоризации элементов. Теги представлены в облаке, где бо́льшие теги представляют количество элементов в этой категории.

Есть несколько подходов для построения кластера тегов вместо облака тегов, например, применяя теги совместной встречаемости в документах.

Более обще, то же самое визуальное представление может быть использовано для отображения не тегов например, облако тегов или облака данных.

Термин облако ключевых слов иногда используется как термин поисковый маркетинг, где он обозначает группы ключевых слов, относящихся к некоторому веб-сайту. В последние годы облака тегов стали популярны из-за своей значимости в поисковом маркетинге веб-страниц, наряду с помощью пользователям в эффективной навигации по сайтам. Облака тегов, как средства навигации, позволяют связать ресурсы веб-сайта более тесно,обход таких ресурсов поисковым роботом может улучшить позицию сайта в результатах выдачи поисковой системы. С точки зрения пользовательского интерфейса облака тегов часто используются, чтобы помочь пользователю найти информацию в конкретной системе более быстро, обобщая результаты поиска.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector