24 ноября 2011

R функция для анализа публикаций из Google Scholar Citations



В середине ноября этого года компания Google предоставила авторам публикаций, индексированных в библиографической базе данных Google Scholar, возможность создавать свои персональные страницы со списком публикаций и индексами цитирования. Новый сервис получил название Google Scholar Citations

На днях в блоге Simply Statistics было опубликовано интересное сообщение о небольшой программе на языке R, которая позволяет проводить контент-анализ цитирований из Google Scholar Citations (авторами блога Simply Statistics являются Джефри Лик (Jeffrey Leek), Роджер Пенг (Rodger Peng) и Рафаэль Ирицарри (Rafael Irizarry) - известные в мире биостатистики люди). Программа, написанная Джоном Мушелли (John Muschelli) и Эндрю Джаффе (Andrew Jaffe), извлекает библиографическую информацию из работ конкретного автора и затем изображает результат анализа графически в виде облака ключевых слов, характеризующих эти работы. Кроме того, создается также облако из фамилий соавторов этих публикаций, что позволяет выяснить имена исследователей, с которыми анализируемый автор сотрудничал чаще всего.

Код программы находится здесь. Запустить ее автоматическое исполнение из командной строки R можно следующим образом (естественно, предполагается, что Ваш компьютер подключен к Internet):

source("http://biostat.jhsph.edu/~jleek/code/googleCite.r")

Выполнение команды привет к автоматической инсталляции четырех R-пакетов - wordcloud, tm, sendmailR и RColorBrewer, если они еще не установлены на Вашем компьютере. Когда я запустил эту команду на своем компьютере, возникла проблема с автоматической инсталляцией пакета wordcloud, и мне пришлось устанавливать его "вручную" (install.packages("wordcloud")). Как выяснилось позже (см. комментарии к сообщению в блоге Simple Statistics), проблема была обусловлена ошибкой в коде (строка 52, вместо getPckg(wordcloud) должно быть getPckg('wordcloud')).

Далее необходимо найти ссылку на страницу Google Scholar Citations анализируемого автора. Естественно, ради эксперимента я решил взять ссылку на свою страницу :) (http://scholar.google.com/citations?user=FSMLVH8AAAAJ&hl=en). Используя эту ссылку, запускаем функцию goolgeCite():

out = googleCite("http://scholar.google.com/citations?user=FSMLVH8AAAAJ&hl=en",
                pdfname = "my_wordcloud.pdf")

Это приведет к созданию pdf-файла с изображениями упомянутых выше облаков ключевых слов. В моем случае облако слов, отражающих тематику публикаций, выглядит следующим образом:




Облако с фамилиями моих соавторов выглядит так:




4 комментария :

Vitold комментирует...

День добрый, не совсем понятно как установить

Sergey Mastitsky комментирует...

Vitold, что именно не получается установить?

Pavel M комментирует...

Здравствуйте. У меня постоянно вылазит ошибка:
> out = googleCite("http://scholar.google.com/citations?user=FSMLVH8AAAAJ&hl=en",
+ pdfname = "my_wordcloud.pdf")
Error in 1:nrow(alldata) : argument of length 0

Sergey Mastitsky комментирует...

Да, действительно, этот код перестал работать. Скорее всего, не работает функция getAuthor(), что может быть связано с новым способом генерации страницы Гуглом. Попробуйте обратиться к автору - Джефри Лику (jtleek@gmail.com), она знает свой код лучше других и, возможно, сможет помочь с решением этой проблемы.

Отправить комментарий