RStudioアドベントカレンダー 25日のエントリーです。 RStudioでブログを書きたい RStudioは、Rmarkdownの登場以降、メキメキとドキュメント作成機能が充実していってます。私は、RやRStudioが大好きなので、可能な限り、RStudioと対面していたいのです。データ解析、論文作成、ウェルブサイトの構築・更新、今や全てRStudioで完結します (他の方とのやりとりがなければ…)。 前に、RStudioでウェブサイト構築が簡単にできるという僕の最も身近なRおじさん(@kazutan)のツイートみて、いじっていたらほんとに簡単にサイトが立ち上がってとても感動しました。 blogdownパッケージ その後、特に不満なくRStudioでサイトの管理をしていたのですが、業務上、何か自由にメモや告知をあげられる、ブログのような機能をつけられたらな、と思っていました。何気なくTLを眺めていると、また僕の身近なRおじさん(@kazutan)が、ぼやいてくれました。そして知りました、blogdownパッケージ。僕にとってkazutanは欲しいものを届けてくれる、そう、サンタクロースのような存在なのかもしれません。 以下では、順を追ってみていきます。 1 Githubでリポジトリ作る] 2 RStudioでリポジトリとリンク 3 RStudio上で, ブログサイト構築 4 config.tomlを修正し、俺サイトに 5 投稿チェック 6 出来上がったサイトをcommit push!! Githubでリボジトリを作る ブログをRStudioを通じてgithubで公開するために, Githubで新しいリポジトリ(Repository)を作成します。下の画像にあるように、Repositoriesタブをクリックして右端に現れる[New]ボタンを押します。 すると以下のページが登場するので、Repository nameに任意の名前を設定します。今回はmy_blogとしました。レポジトリ名を入力したら、一番下の[Create repository]ボタンを押します。 これで、ブログサイトのファイルをあげるためのレポジトリが出来ました。[https://github.com/アカウント名/レポジトリ名.git]をコピーしておきます。 これでgithubの準備は完了です。ここからはRStudioで作業をします。 RStudioでgithubレポジトリとリンク RStudioを立ち上げて[File]->[New Project]->[Version Control]->[Git]と進めます。 次のClone Git RepositoryのRepository URLの空欄に、先ほど作成しコビーした、ブログ用のレポジトリのアドレスを貼り付けます。下二つの空欄は、任意に指定します。 これでRStudio側も準備完了です。今、右下には、siteフォルダには、「site.Rproj」と「.gitignore」のみです。 RStudio上で, ブログサイト構築 RStudioでブログサイトを構築して管理するためのバッケージはblogdown(https://github.com/rstudio/blogdown)、開発者はRStudioドキュメント系の神、yihui(https://github.com/yihui)さんです。 blogdownパッケージ: インストール blogdownパッケージをgithubからインストールします。hugo のテーマを使うので、hugoをインストールします。hugoについては、この記事やこの記事が参考になります。 # blogdownのインストール devtools::install_github('rstudio/blogdown') # hugoのインストール library(blogdown) blogdown::install_hugo() この極めてシンプルな1行を実行して少し待つと… new_site() !!! ブログがある。RStudioの中にブログがある !!! ほぼ空だったフォルダが、 ブログサイト用のフォルダどっさりに!!!! ここまできたら、あとはテンプレートを自分のサイト用にカスタマイズしていきます。 編集・投稿 hello-world.Rmdは、「content」->「post」のフォルダ内にあります。これを編集すれば記事内容を編集できます。 元の設定から、 — title: "Hello World" author: "Frida Gomam" date: 2015-07-23T21:13:14-05:00 categories: ["R"] — タイトル、名前、投稿時間を変更し、カテゴリーを追加してみます。編集して保存をすると自動的に修正が反映されます。実は、new_site()関数を実行して出てきたRmdファイルをそのまま編集している場合は、ずっと、serve_site()関数が実行されている状態になっており、これによって、自動的に保存内容が反映されるようになっています。 — title: "今日はクリスマス" author: "ytake2" date: 2016-12-25T21:13:14-05:00 categories: ["R","RStudio","blogdown"] — 元のやつ 修正後は、タイトル、投稿者、投稿日が変わってますね。 カテゴリのタグもしっかりと追加されてます。 修正前 修正後 あとは、記事内容の修正は、普通にRmarkdownで好きなように書けばOKです。 新しい記事の投稿 新規の投稿をするには、postフォルダ内に新しい.Rmdファイルを入れてあげれば良いです。以下のようにコマンドを実行すると、postフォルダ内にRmdファイルが作成されます。このRmdファイルを編集すれば、新しい投稿記事の準備完了です。 new_content("post/newContent.Rmd") 新しい記事をブログサイトに上書きするために、serve状態を解除した後で(赤丸のstopボタンを押す)以下のコマンドを実行します。 build_site() # 編集内容を反映し統合 serve_site() # 反映内容を確認 新規の投稿記事が一番最初にきました。 このように、新しくRmdをpostフォルダに突っ込んでいくだけで、どんどんブログを更新できてしまうのです。たまりませんね。 config.tomlを修正し、俺サイトに hugoでは、.tomlでサイトの外観を設定していきます。「config.toml」ファイルを開きます。 以下のここを修正、と記した部分に自分好みの情報に書き換えます。 baseurl = "/" relativeurls = true languageCode = "en-us" title = "Hugo Future Imperfect" <-ここを修正 theme = "hugo-future-imperfect" preserveTaxonomyNames = true paginate = 3 disqusShortname = "shortname" googleAnalytics = "" [params] # Sets the meta tag description, usually reserved for the main page description = "HTML5 UP theme, Future Imperfect with some extra goodies, ported by Julio Pescador.
StanでLDA code{white-space: pre;} pre:not([class]) { background-color: white; } if (window.hljs && document.readyState && document.readyState === “complete”) { window.setTimeout(function() { hljs.initHighlighting(); }, 0); } h1 { font-size: 34px; } h1.title { font-size: 38px; } h2 { font-size: 30px; } h3 { font-size: 24px; } h4 { font-size: 18px; } h5 { font-size: 16px; } h6 { font-size: 12px; } .table th:not([align]) { text-align: left; } .main-container { max-width: 940px; margin-left: auto; margin-right: auto; } code { color: inherit; background-color: rgba(0, 0, 0, 0.04); } img { max-width:100%; height: auto; } .tabbed-pane { padding-top: 12px; } button.code-folding-btn:focus { outline: none; } $(document).ready(function () { window.buildTabsets(“TOC”); }); StanでLDA TakeR 2016-12-17T21:13:14-05:00 library(RWordPress) library(XMLRPC) library(RISmed) library™ library(wordcloud2) library(RColorBrewer) library(topicmodels) wordcloud この記事はStanアドカレ14日目のエントリーです。今回のテーマはwordcloud、LDAです。wordcloudはしたの図にあるように、文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法で、単語の出現頻度が視覚的に理解できて便利。なによりイケてる。RではテキストデータをCorpusやdataframeとして整えてあげれば(ここがくっそ面倒)、wordcloudやwordcloud2といったパッケージで簡単にwordcloudを作成できます。特にwordcloud2は、以下のようにカッコ良い感じに仕上げてくれます。wordcloud2では文字の上に単語をのせるlettorcloudも可能です。 {“x”:{“word”:[“bayesian”,“model”,“studi”,“differ”,“provid”,“high”,“estim”,“analysi”,“base”,“data”,“includ”,“compar”,“level”,“propos”,“approach”,“relationship”,“evalu”,“group”,“infer”,“inform”,“predict”,“signific”,“associ”,“develop”,“effect”,“find”,“identifi”,“measur”,“observ”,“sampl”,“analys”,“indic”,“relat”,“structur”,“time”,“understand”,“among”,“determin”,“distribut”,“exist”,“major”,“mani”,“number”,“perform”,“potenti”,“previous”,“speci”,“test”,“within”,“combin”,“import”,“likelihood”,“maximum”,“paramet”,“phylogenet”,“present”,“problem”,“sequenc”,“sever”,“activ”,“algorithm”,“appli”,“condit”,“control”,“evid”,“individu”,“limit”,“multipl”,“non”,“obtain”,“rate”,“recent”,“requir”,“risk”,“singl”,“support”,“system”,“three”,“valid”,“valu”,“addit”,“applic”,“area”,“assess”,“case”,“cluster”,“collect”,“complet”,“consist”,“demonstr”,“general”,“hypothesi”,“implement”,“known”,“mean”,“network”,“occur”,“respect”,“suggest”,“accuraci”,“challeng”,“common”,“current”,“diagnos”,“direct”,“exampl”,“experiment”,“fit”,“gene”,“genet”,“integr”,“morpholog”,“object”,“order”,“origin”,“paper”,“patient”,“popul”,“posit”,“rang”,“region”,“strategi”,“term”,“treatment”,“trial”,“uncertainti”,“variabl”,“abil”,“accur”,“adapt”,“analyz”,“avail”,“chang”,“charact”,“characterist”,“class”,“conclus”,“defin”,“describ”,“design”,“distanc”,“experi”,“exploit”,“featur”,“generat”,“higher”,“imag”,“improv”,“incorpor”,“insight”,“novel”,“optim”,“process”,“publish”,“random”,“recogn”,“remain”,“report”,“resolv”,“scale”,“sensit”,“simpl”,“sourc”,“state”,“statist”,“success”,“techniqu”,“tempor”,“account”,“address”,“assum”,“behavior”,“better”,“cell”,“character”,“citi”,“clade”,“clinic”,“code”,“comparison”,“complex”,“comput”,“consid”,“contribut”,“dataset”,“difficult”,“diverg”,“dna”,“due”,“dynam”,“evolut”,“evolutionari”,“follow”,“four”,“framework”,“function”,“genera”,“genus”,“health”,“independ”,“investig”,“learn”,“linear”,“long”,“outcom”,“phylogeni”,“possibl”,“probabl”,“reduc”,“regard”,“regress”,“reliabl”,“respons”,“select”,“signal”,“similar”,“simul”,“site”,“taxa”,“train”,“tree”,“variat”,“via”,“weight”,“wide”],“freq”:[45,26,26,21,21,20,19,18,18,18,18,17,17,17,16,15,14,14,14,14,14,14,13,13,13,13,13,13,13,13,12,12,12,12,12,12,11,11,11,11,11,11,11,11,11,11,11,11,11,10,10,10,10,10,10,10,10,10,10,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5],“fontFamily”:“Segoe UI”,“fontWeight”:“bold”,“color”:“random-dark”,“minSize”:0,“weightFactor”:1.6,“backgroundColor”:“white”,“gridSize”:0,“minRotation”:-0.785398163397448,“maxRotation”:0.785398163397448,“shuffle”:true,“rotateRatio”:0.4,“shape”:“circle”,“ellipticity”:0.65,“figBase64”:null,“hover”:null},“evals”:[],“jsHooks”:[]} letterCloud(subset(term.f,freq>=3), word = "Stan", fontFamily = "Helvetica", wordSize=2, backgroundColor="white") {“x”:{“word”:[“bayesian”,“model”,“studi”,“differ”,“provid”,“high”,“estim”,“analysi”,“base”,“data”,“includ”,“compar”,“level”,“propos”,“approach”,“relationship”,“evalu”,“group”,“infer”,“inform”,“predict”,“signific”,“associ”,“develop”,“effect”,“find”,“identifi”,“measur”,“observ”,“sampl”,“analys”,“indic”,“relat”,“structur”,“time”,“understand”,“among”,“determin”,“distribut”,“exist”,“major”,“mani”,“number”,“perform”,“potenti”,“previous”,“speci”,“test”,“within”,“combin”,“import”,“likelihood”,“maximum”,“paramet”,“phylogenet”,“present”,“problem”,“sequenc”,“sever”,“activ”,“algorithm”,“appli”,“condit”,“control”,“evid”,“individu”,“limit”,“multipl”,“non”,“obtain”,“rate”,“recent”,“requir”,“risk”,“singl”,“support”,“system”,“three”,“valid”,“valu”,“addit”,“applic”,“area”,“assess”,“case”,“cluster”,“collect”,“complet”,“consist”,“demonstr”,“general”,“hypothesi”,“implement”,“known”,“mean”,“network”,“occur”,“respect”,“suggest”,“accuraci”,“challeng”,“common”,“current”,“diagnos”,“direct”,“exampl”,“experiment”,“fit”,“gene”,“genet”,“integr”,“morpholog”,“object”,“order”,“origin”,“paper”,“patient”,“popul”,“posit”,“rang”,“region”,“strategi”,“term”,“treatment”,“trial”,“uncertainti”,“variabl”,“abil”,“accur”,“adapt”,“analyz”,“avail”,“chang”,“charact”,“characterist”,“class”,“conclus”,“defin”,“describ”,“design”,“distanc”,“experi”,“exploit”,“featur”,“generat”,“higher”,“imag”,“improv”,“incorpor”,“insight”,“novel”,“optim”,“process”,“publish”,“random”,“recogn”,“remain”,“report”,“resolv”,“scale”,“sensit”,“simpl”,“sourc”,“state”,“statist”,“success”,“techniqu”,“tempor”,“account”,“address”,“assum”,“behavior”,“better”,“cell”,“character”,“citi”,“clade”,“clinic”,“code”,“comparison”,“complex”,“comput”,“consid”,“contribut”,“dataset”,“difficult”,“diverg”,“dna”,“due”,“dynam”,“evolut”,“evolutionari”,“follow”,“four”,“framework”,“function”,“genera”,“genus”,“health”,“independ”,“investig”,“learn”,“linear”,“long”,“outcom”,“phylogeni”,“possibl”,“probabl”,“reduc”,“regard”,“regress”,“reliabl”,“respons”,“select”,“signal”,“similar”,“simul”,“site”,“taxa”,“train”,“tree”,“variat”,“via”,“weight”,“wide”,“accord”,“acid”,“across”,“advantag”,“allow”,“amp”,“articl”,“benefit”,“best”,“bias”,“captur”,“coeffici”,“concentr”,“conclud”,“confirm”,“construct”,“contrast”,“correspond”,“criterion”,“cross”,“databas”,“date”,“decreas”,“deriv”,“despit”,“detect”,“divers”,“dose”,“drug”,“effici”,“elev”,“enhanc”,“establish”,“event”,“evolv”,“famili”,“focus”,“formul”,“full”,“gap”,“habitat”,“hierarch”,“human”,“increas”,“interpret”,“key”,“line”,“lineag”,“local”,“locat”,“lower”,“main”,“male”,“mitochondri”,“molecular”,“natur”,“negat”,“nuclear”,“oper”,“particip”,“period”,“plant”,“polymorph”,“posterior”,“power”,“precis”,“primari”,“procedur”,“produc”,“program”,“real”,“receiv”,“reconstruct”,“record”,“repres”,“represent”,“reveal”,“revis”,“robust”,“safeti”,“sister”,“size”,“small”,“specif”,“step”,“subject”,“superior”,“taxonom”,“threaten”,“threshold”,“tool”,“transfer”,“vari”,“versus”,“visual”,“acquisit”,“advanc”,“affect”,“age”,“alon”,“altern”,“although”,“appropri”,“approxim”,“atlant”,“basi”,“belong”,“brain”,“calcul”,“calibr”,“center”,“choic”,“classif”,“classifi”,“close”,“composit”,“connect”,“converg”,“copyright”,“correct”,“correl”,“corrobor”,“count”,“curv”,“daili”,“deep”,“degre”,“depend”,“detail”,“diagnosi”,“differenti”,“dimens”,“discrimin”,“discuss”,“diseas”,“east”,“efficaci”,“eight”,“employ”,“environment”,“expect”,“explain”,“explor”,“exponenti”,“extend”,“facilit”,“factor”,“fail”,“fast”,“five”,“futur”,“genom”,“given”,“global”,“goal”,“govern”,“greater”,“grow”,“growth”,“handl”,“highest”,“histori”,“ideal”,“impact”,“indirect”,“infect”,“intens”,“interest”,“intern”,“knowledg”,“latter”,“lead”,“logist”,“loss”,“made”,“manag”,“map”,“marker”,“match”,“meta”,“minim”,“miss”,“multi”,“necessari”,“nerv”,“node”,“numer”,“offer”,“onlin”,“overal”,“parsimoni”,“part”,“past”,“pattern”,“perceiv”,“physiolog”,“pool”,“practic”,“presenc”,“prevent”,“prior”,“probabilist”,“product”,“protect”,“protein”,“quantit”,“question”,“rapid”,“recognit”,“research”,“reserv”,“revers”,“scenario”,“second”,“sex”,“situat”,“solv”,“spatial”,“split”,“standard”,“stimulus”,“subsequ”,“symptom”,“therefor”,“total”,“trait”,“treat”,“uniqu”,“unit”,“valuabl”,“water”,“wherea”,“whether”,“without”,“year”],“freq”:[45,26,26,21,21,20,19,18,18,18,18,17,17,17,16,15,14,14,14,14,14,14,13,13,13,13,13,13,13,13,12,12,12,12,12,12,11,11,11,11,11,11,11,11,11,11,11,11,11,10,10,10,10,10,10,10,10,10,10,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3],“fontFamily”:“Helvetica”,“fontWeight”:“bold”,“color”:“random-dark”,“minSize”:0,“weightFactor”:4,“backgroundColor”:“white”,“gridSize”:0,“minRotation”:-0.785398163397448,“maxRotation”:0.785398163397448,“shuffle”:true,“rotateRatio”:0.4,“shape”:“circle”,“ellipticity”:0.65,“figBase64”:““,“hover”:null},“evals”:[],“jsHooks”:[]} pubmedから論文情報をRStudioにぶち込む 上記のワードクラウドは、Pubmedでbayesianという検索用語でヒットした48本の英語論文のアブストラクトのテキストデータの単語の出現頻度に応じてプロットしたものです。以下のようにRISmedを用いると、Pubmedから簡単に論文情報を入手できます。 res <- EUtilsSummary("bayesian",#検索用語 type = "esearch", db = "pubmed", datetype = "pdat", mindate = 2014, #検索開始年 maxdate = 2017, #検索終了年 retmax = 50 #最高何件記録するか ) EUtilsSummary関数は検索演算子を発生させる関数になります。検索用語や検索開始、終了年を指定します。EUtilsGet関数で、論文情報を抜き出し格納します。そこからTitle情報を抜き出したいときはArticleTitle関数、アブストテキスト情報を抜き出したいときはAbstractText関数が使えます。 records = EUtilsGet(res) #論文情報の抜き出し pubmed_data <- data.frame(Title = ArticleTitle(records), Abstract = AbstractText(records)) こんな感じで論文のアブストテキストデータが抽出されました。今回は、この論文一つ一つのアブストテキストデータに対してトピックモデルの代表格であるLDAを適用し、それぞれの論文を潜在的なトピックにわりふって、トピックのまとまりごとにwordcloudを作ってやろう。というのが解析の目的になります。 #データを確認 library(knitr) kable(head(pubmed_data,10)) Title Abstract Molecular characterization and population structure study of cambuci: strategy for conservation and genetic improvement.