StanでLDA code{white-space: pre;} pre:not([class]) { background-color: white; } if (window.hljs && document.readyState && document.readyState === “complete”) { window.setTimeout(function() { hljs.initHighlighting(); }, 0); } h1 { font-size: 34px; } h1.title { font-size: 38px; } h2 { font-size: 30px; } h3 { font-size: 24px; } h4 { font-size: 18px; } h5 { font-size: 16px; } h6 { font-size: 12px; } .table th:not([align]) { text-align: left; } .main-container { max-width: 940px; margin-left: auto; margin-right: auto; } code { color: inherit; background-color: rgba(0, 0, 0, 0.04); } img { max-width:100%; height: auto; } .tabbed-pane { padding-top: 12px; } button.code-folding-btn:focus { outline: none; } $(document).ready(function () { window.buildTabsets(“TOC”); }); StanでLDA TakeR 2016-12-17T21:13:14-05:00 library(RWordPress) library(XMLRPC) library(RISmed) library™ library(wordcloud2) library(RColorBrewer) library(topicmodels) wordcloud この記事はStanアドカレ14日目のエントリーです。今回のテーマはwordcloud、LDAです。wordcloudはしたの図にあるように、文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法で、単語の出現頻度が視覚的に理解できて便利。なによりイケてる。RではテキストデータをCorpusやdataframeとして整えてあげれば(ここがくっそ面倒)、wordcloudやwordcloud2といったパッケージで簡単にwordcloudを作成できます。特にwordcloud2は、以下のようにカッコ良い感じに仕上げてくれます。wordcloud2では文字の上に単語をのせるlettorcloudも可能です。 {“x”:{“word”:[“bayesian”,“model”,“studi”,“differ”,“provid”,“high”,“estim”,“analysi”,“base”,“data”,“includ”,“compar”,“level”,“propos”,“approach”,“relationship”,“evalu”,“group”,“infer”,“inform”,“predict”,“signific”,“associ”,“develop”,“effect”,“find”,“identifi”,“measur”,“observ”,“sampl”,“analys”,“indic”,“relat”,“structur”,“time”,“understand”,“among”,“determin”,“distribut”,“exist”,“major”,“mani”,“number”,“perform”,“potenti”,“previous”,“speci”,“test”,“within”,“combin”,“import”,“likelihood”,“maximum”,“paramet”,“phylogenet”,“present”,“problem”,“sequenc”,“sever”,“activ”,“algorithm”,“appli”,“condit”,“control”,“evid”,“individu”,“limit”,“multipl”,“non”,“obtain”,“rate”,“recent”,“requir”,“risk”,“singl”,“support”,“system”,“three”,“valid”,“valu”,“addit”,“applic”,“area”,“assess”,“case”,“cluster”,“collect”,“complet”,“consist”,“demonstr”,“general”,“hypothesi”,“implement”,“known”,“mean”,“network”,“occur”,“respect”,“suggest”,“accuraci”,“challeng”,“common”,“current”,“diagnos”,“direct”,“exampl”,“experiment”,“fit”,“gene”,“genet”,“integr”,“morpholog”,“object”,“order”,“origin”,“paper”,“patient”,“popul”,“posit”,“rang”,“region”,“strategi”,“term”,“treatment”,“trial”,“uncertainti”,“variabl”,“abil”,“accur”,“adapt”,“analyz”,“avail”,“chang”,“charact”,“characterist”,“class”,“conclus”,“defin”,“describ”,“design”,“distanc”,“experi”,“exploit”,“featur”,“generat”,“higher”,“imag”,“improv”,“incorpor”,“insight”,“novel”,“optim”,“process”,“publish”,“random”,“recogn”,“remain”,“report”,“resolv”,“scale”,“sensit”,“simpl”,“sourc”,“state”,“statist”,“success”,“techniqu”,“tempor”,“account”,“address”,“assum”,“behavior”,“better”,“cell”,“character”,“citi”,“clade”,“clinic”,“code”,“comparison”,“complex”,“comput”,“consid”,“contribut”,“dataset”,“difficult”,“diverg”,“dna”,“due”,“dynam”,“evolut”,“evolutionari”,“follow”,“four”,“framework”,“function”,“genera”,“genus”,“health”,“independ”,“investig”,“learn”,“linear”,“long”,“outcom”,“phylogeni”,“possibl”,“probabl”,“reduc”,“regard”,“regress”,“reliabl”,“respons”,“select”,“signal”,“similar”,“simul”,“site”,“taxa”,“train”,“tree”,“variat”,“via”,“weight”,“wide”],“freq”:[45,26,26,21,21,20,19,18,18,18,18,17,17,17,16,15,14,14,14,14,14,14,13,13,13,13,13,13,13,13,12,12,12,12,12,12,11,11,11,11,11,11,11,11,11,11,11,11,11,10,10,10,10,10,10,10,10,10,10,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5],“fontFamily”:“Segoe UI”,“fontWeight”:“bold”,“color”:“random-dark”,“minSize”:0,“weightFactor”:1.6,“backgroundColor”:“white”,“gridSize”:0,“minRotation”:-0.785398163397448,“maxRotation”:0.785398163397448,“shuffle”:true,“rotateRatio”:0.4,“shape”:“circle”,“ellipticity”:0.65,“figBase64”:null,“hover”:null},“evals”:[],“jsHooks”:[]} letterCloud(subset(term.f,freq>=3), word = "Stan", fontFamily = "Helvetica", wordSize=2, backgroundColor="white") {“x”:{“word”:[“bayesian”,“model”,“studi”,“differ”,“provid”,“high”,“estim”,“analysi”,“base”,“data”,“includ”,“compar”,“level”,“propos”,“approach”,“relationship”,“evalu”,“group”,“infer”,“inform”,“predict”,“signific”,“associ”,“develop”,“effect”,“find”,“identifi”,“measur”,“observ”,“sampl”,“analys”,“indic”,“relat”,“structur”,“time”,“understand”,“among”,“determin”,“distribut”,“exist”,“major”,“mani”,“number”,“perform”,“potenti”,“previous”,“speci”,“test”,“within”,“combin”,“import”,“likelihood”,“maximum”,“paramet”,“phylogenet”,“present”,“problem”,“sequenc”,“sever”,“activ”,“algorithm”,“appli”,“condit”,“control”,“evid”,“individu”,“limit”,“multipl”,“non”,“obtain”,“rate”,“recent”,“requir”,“risk”,“singl”,“support”,“system”,“three”,“valid”,“valu”,“addit”,“applic”,“area”,“assess”,“case”,“cluster”,“collect”,“complet”,“consist”,“demonstr”,“general”,“hypothesi”,“implement”,“known”,“mean”,“network”,“occur”,“respect”,“suggest”,“accuraci”,“challeng”,“common”,“current”,“diagnos”,“direct”,“exampl”,“experiment”,“fit”,“gene”,“genet”,“integr”,“morpholog”,“object”,“order”,“origin”,“paper”,“patient”,“popul”,“posit”,“rang”,“region”,“strategi”,“term”,“treatment”,“trial”,“uncertainti”,“variabl”,“abil”,“accur”,“adapt”,“analyz”,“avail”,“chang”,“charact”,“characterist”,“class”,“conclus”,“defin”,“describ”,“design”,“distanc”,“experi”,“exploit”,“featur”,“generat”,“higher”,“imag”,“improv”,“incorpor”,“insight”,“novel”,“optim”,“process”,“publish”,“random”,“recogn”,“remain”,“report”,“resolv”,“scale”,“sensit”,“simpl”,“sourc”,“state”,“statist”,“success”,“techniqu”,“tempor”,“account”,“address”,“assum”,“behavior”,“better”,“cell”,“character”,“citi”,“clade”,“clinic”,“code”,“comparison”,“complex”,“comput”,“consid”,“contribut”,“dataset”,“difficult”,“diverg”,“dna”,“due”,“dynam”,“evolut”,“evolutionari”,“follow”,“four”,“framework”,“function”,“genera”,“genus”,“health”,“independ”,“investig”,“learn”,“linear”,“long”,“outcom”,“phylogeni”,“possibl”,“probabl”,“reduc”,“regard”,“regress”,“reliabl”,“respons”,“select”,“signal”,“similar”,“simul”,“site”,“taxa”,“train”,“tree”,“variat”,“via”,“weight”,“wide”,“accord”,“acid”,“across”,“advantag”,“allow”,“amp”,“articl”,“benefit”,“best”,“bias”,“captur”,“coeffici”,“concentr”,“conclud”,“confirm”,“construct”,“contrast”,“correspond”,“criterion”,“cross”,“databas”,“date”,“decreas”,“deriv”,“despit”,“detect”,“divers”,“dose”,“drug”,“effici”,“elev”,“enhanc”,“establish”,“event”,“evolv”,“famili”,“focus”,“formul”,“full”,“gap”,“habitat”,“hierarch”,“human”,“increas”,“interpret”,“key”,“line”,“lineag”,“local”,“locat”,“lower”,“main”,“male”,“mitochondri”,“molecular”,“natur”,“negat”,“nuclear”,“oper”,“particip”,“period”,“plant”,“polymorph”,“posterior”,“power”,“precis”,“primari”,“procedur”,“produc”,“program”,“real”,“receiv”,“reconstruct”,“record”,“repres”,“represent”,“reveal”,“revis”,“robust”,“safeti”,“sister”,“size”,“small”,“specif”,“step”,“subject”,“superior”,“taxonom”,“threaten”,“threshold”,“tool”,“transfer”,“vari”,“versus”,“visual”,“acquisit”,“advanc”,“affect”,“age”,“alon”,“altern”,“although”,“appropri”,“approxim”,“atlant”,“basi”,“belong”,“brain”,“calcul”,“calibr”,“center”,“choic”,“classif”,“classifi”,“close”,“composit”,“connect”,“converg”,“copyright”,“correct”,“correl”,“corrobor”,“count”,“curv”,“daili”,“deep”,“degre”,“depend”,“detail”,“diagnosi”,“differenti”,“dimens”,“discrimin”,“discuss”,“diseas”,“east”,“efficaci”,“eight”,“employ”,“environment”,“expect”,“explain”,“explor”,“exponenti”,“extend”,“facilit”,“factor”,“fail”,“fast”,“five”,“futur”,“genom”,“given”,“global”,“goal”,“govern”,“greater”,“grow”,“growth”,“handl”,“highest”,“histori”,“ideal”,“impact”,“indirect”,“infect”,“intens”,“interest”,“intern”,“knowledg”,“latter”,“lead”,“logist”,“loss”,“made”,“manag”,“map”,“marker”,“match”,“meta”,“minim”,“miss”,“multi”,“necessari”,“nerv”,“node”,“numer”,“offer”,“onlin”,“overal”,“parsimoni”,“part”,“past”,“pattern”,“perceiv”,“physiolog”,“pool”,“practic”,“presenc”,“prevent”,“prior”,“probabilist”,“product”,“protect”,“protein”,“quantit”,“question”,“rapid”,“recognit”,“research”,“reserv”,“revers”,“scenario”,“second”,“sex”,“situat”,“solv”,“spatial”,“split”,“standard”,“stimulus”,“subsequ”,“symptom”,“therefor”,“total”,“trait”,“treat”,“uniqu”,“unit”,“valuabl”,“water”,“wherea”,“whether”,“without”,“year”],“freq”:[45,26,26,21,21,20,19,18,18,18,18,17,17,17,16,15,14,14,14,14,14,14,13,13,13,13,13,13,13,13,12,12,12,12,12,12,11,11,11,11,11,11,11,11,11,11,11,11,11,10,10,10,10,10,10,10,10,10,10,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3],“fontFamily”:“Helvetica”,“fontWeight”:“bold”,“color”:“random-dark”,“minSize”:0,“weightFactor”:4,“backgroundColor”:“white”,“gridSize”:0,“minRotation”:-0.785398163397448,“maxRotation”:0.785398163397448,“shuffle”:true,“rotateRatio”:0.4,“shape”:“circle”,“ellipticity”:0.65,“figBase64”:““,“hover”:null},“evals”:[],“jsHooks”:[]} pubmedから論文情報をRStudioにぶち込む 上記のワードクラウドは、Pubmedでbayesianという検索用語でヒットした48本の英語論文のアブストラクトのテキストデータの単語の出現頻度に応じてプロットしたものです。以下のようにRISmedを用いると、Pubmedから簡単に論文情報を入手できます。 res <- EUtilsSummary("bayesian",#検索用語 type = "esearch", db = "pubmed", datetype = "pdat", mindate = 2014, #検索開始年 maxdate = 2017, #検索終了年 retmax = 50 #最高何件記録するか ) EUtilsSummary関数は検索演算子を発生させる関数になります。検索用語や検索開始、終了年を指定します。EUtilsGet関数で、論文情報を抜き出し格納します。そこからTitle情報を抜き出したいときはArticleTitle関数、アブストテキスト情報を抜き出したいときはAbstractText関数が使えます。 records = EUtilsGet(res) #論文情報の抜き出し pubmed_data <- data.frame(Title = ArticleTitle(records), Abstract = AbstractText(records)) こんな感じで論文のアブストテキストデータが抽出されました。今回は、この論文一つ一つのアブストテキストデータに対してトピックモデルの代表格であるLDAを適用し、それぞれの論文を潜在的なトピックにわりふって、トピックのまとまりごとにwordcloudを作ってやろう。というのが解析の目的になります。 #データを確認 library(knitr) kable(head(pubmed_data,10)) Title Abstract Molecular characterization and population structure study of cambuci: strategy for conservation and genetic improvement.