В середине ноября этого года компания Google предоставила авторам публикаций, индексированных в библиографической базе данных Google Scholar, возможность создавать свои персональные страницы со списком публикаций и индексами цитирования. Новый сервис получил название Google Scholar Citations.
На днях в блоге Simply Statistics было опубликовано интересное сообщение о небольшой программе на языке R, которая позволяет проводить контент-анализ цитирований из Google Scholar Citations (авторами блога Simply Statistics являются Джефри Лик (Jeffrey Leek), Роджер Пенг (Rodger Peng) и Рафаэль Ирицарри (Rafael Irizarry) - известные в мире биостатистики люди). Программа, написанная Джоном Мушелли (John Muschelli) и Эндрю Джаффе (Andrew Jaffe), извлекает библиографическую информацию из работ конкретного автора и затем изображает результат анализа графически в виде облака ключевых слов, характеризующих эти работы. Кроме того, создается также облако из фамилий соавторов этих публикаций, что позволяет выяснить имена исследователей, с которыми анализируемый автор сотрудничал чаще всего.
Код программы находится здесь. Запустить ее автоматическое исполнение из командной строки R можно следующим образом (естественно, предполагается, что Ваш компьютер подключен к Internet):
source("http://biostat.jhsph.edu/~jleek/code/googleCite.r")
Выполнение команды привет к автоматической инсталляции четырех R-пакетов - wordcloud, tm, sendmailR и RColorBrewer, если они еще не установлены на Вашем компьютере. Когда я запустил эту команду на своем компьютере, возникла проблема с автоматической инсталляцией пакета wordcloud, и мне пришлось устанавливать его "вручную" (install.packages("wordcloud")). Как выяснилось позже (см. комментарии к сообщению в блоге Simple Statistics), проблема была обусловлена ошибкой в коде (строка 52, вместо getPckg(wordcloud) должно быть getPckg('wordcloud')).
Далее необходимо найти ссылку на страницу Google Scholar Citations анализируемого автора. Естественно, ради эксперимента я решил взять ссылку на свою страницу :) (http://scholar.google.com/citations?user=FSMLVH8AAAAJ&hl=en). Используя эту ссылку, запускаем функцию goolgeCite():
out = googleCite("http://scholar.google.com/citations?user=FSMLVH8AAAAJ&hl=en", pdfname = "my_wordcloud.pdf")
Это приведет к созданию pdf-файла с изображениями упомянутых выше облаков ключевых слов. В моем случае облако слов, отражающих тематику публикаций, выглядит следующим образом:
Облако с фамилиями моих соавторов выглядит так:
> out = googleCite("http://scholar.google.com/citations?user=FSMLVH8AAAAJ&hl=en",
+ pdfname = "my_wordcloud.pdf")
Error in 1:nrow(alldata) : argument of length 0
Отправить комментарий