citeseerxで検索する時に気をつけている18項目

コンパイルエラーを探すときの技法は次の記事に書いた。

プログラマに必須な検索技法

https://qiita.com/kaizen_nagoya/items/8ee1f5e241e2aee39f5c

計算機関連の文献には便利な検索がある。

citeseerx

http://citeseerx.ist.psu.edu/

arxiv

https://arxiv.org/

researchgate

http://researchgate.com

「はたらく細胞」特許を探す。罠4つ。

https://qiita.com/kaizen_nagoya/items/8e6d028c250f629ebcde

で、上記以外にも細胞検索についていくつか紹介した。


ceteseerx

citeseerxで気をつけていることを記録する。


1 略号検索とfull spell検索の両方

上記,「はたらく細胞」の記事でのiPSのように、多数のfull spellがある場合は、略号とfull spellのどちらもで検索して、共通部分をみつける。

「はたらく細胞」のように、cellという特徴的な言葉を追加することもある。

ノイズがなくなるわけではない。


2 著者の同姓同名に気をつける

検索には固有名詞が入っているとノイズが少ない。著者、組織、冊子名など。

同じ分野で同姓同名がいることがしばしば。自分でもOgawa Kiyoshiと表題だけでは自分がかいたものかどうか思い出せないことがある。

共著者を見ても、知り合いがそこにいると、断言できる自信がなくなる。所属と年から逆算して判定。


3 著者名が見出しにはないことがある。

by unknown authors

PDFファイルには著者名の記載があることがある。


4 組織の文書で、誰を著者にするとよいか

著者名がない場合に、組織の文書で著者の記載が見当たらないことがある。

著者名欄、PDF上からでは、実際の著者かどうかがわかりにくい。

参加者全員の一覧があったり、代表者の名前があったり、ひとまず仮置きする。


5 電子ファイルがない

citeseerx以外のURL は、かなりの確率でリンク切れ。

キャッシュのPDFが生きて入れば万々歳。

どちらも切れている例:

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.46.8510&rank=26


6 抄録しかない

無料では抄録しか公開しておらず、全文は有料の場合がある。

参考文献欄がcitationsなどに掲載があれば参考にする。


7 掲載している2つのURLで内容が微妙に違う

書誌情報、書式が違うだけなら、どちらが現著作に近いか、どちらが著者の意図かがわかればよい。

著者が誤植などを訂正して再掲載している場合など、細かい訂正事項、掲載年月日などを確認する。


8 表題、著者が同名で複数の版がある

掲載しているURL以外にも、表題、著者が同じで、複数の版がある場合に、どれを引用するとよいか。

場合によっては、初版と最新版の2つを参照することがある。

初版、第二版、第三版と明確な区分をしており、それぞれに有用な記述があれば、3つ参照することもある。


9 重複

全く同じ内容で、抄録の作成方法などの手続きで、表題に余分な情報がまじり、別論文として扱われている可能性がある。

例:

Author manuscript, published in "International Conference on Rehabilitation Robotics (ICORR), Seattle: États-Unis (2013)" Model-Based Safety Analysis of Human-Robot Interactions: the MIRAS Walking Assistance Robot

by Jérémie Guiochet, Quynh Anh, Do Hoang, Mohamed Kaaniche, David Powell , 2013

"... Abstract—Robotic systems have to cope with various execution environments while guaranteeing safety, and in particular when they interact with humans during rehabilitation tasks. These systems are often critical since their failure can lead to human injury or even death. However, such systems are di ..."

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.405.8037&rank=84&q=hazop&osm=&ossid=

Model-Based Safety Analysis of Human-Robot Interactions: the MIRAS Walking Assistance Robot

by Quynh Anh, Do Hoang, Mohamed Kaaniche, David Powell

"... Abstract—Robotic systems have to cope with various execution environments while guaranteeing safety, and in particular when they interact with humans during rehabilitation tasks. These systems are often critical since their failure can lead to human injury or even death. However, such systems are di ..."

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.650.8810&rank=85&q=hazop&osm=&ossid=


10 投稿雑誌名がない

書誌に掲載がある場合、PDFの中に記載がある場合と、書誌にも、PDFにも投稿雑誌名がないこととどちらが多いだろう。

書籍の一部の場合もあり、雑誌名が出てくるとは限らない。

ぐぐるか、下記で検索する(計算機関係の場合)。

arxiv

https://arxiv.org/

researchgate

http://researchgate.com

IEEE

https://ieeexplore.ieee.org/Xplore/home.jsp

ACM

https://dl.acm.org


11ページ番号がない

ページ番号が参考になる時と、著者が独自に掲載したものでページ番号が冊子(本、雑誌)と一致しないことがる。


12 コピペできない

Web上でPDFを開いていると、参考文献などがコピペできないことがある。

ファイルを保存して、Acrobat readerなどでコピペしてみる。

PDFを画像ファイルとして保存している場合には、OCRソフトと機械学習を組み合わせて文字に変換するとよいかもしれない。

例:FACILITATING SOFTWARE PROCESS IMPROVEMENT

by Wendell Bazemore, Susan P. Hocevar, Mark E. Nissen, Wendell Bazemore , 1998

https://apps.dtic.mil/dtic/tr/fulltext/u2/a355441.pdf


13 コピペすると文字化けする

web上、Acrobat Readerなどでコピペすると文字化けすることがある。

fiが1文字になり、うまくfiにならなかったり。

もっと困るのは、全部文字化けする場合である。

例:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.87.8742&rep=rep1&type=pdf


14 改行があると -(ハイフン)がついて2つに分かれる

例えば、

citation



cita- tion

という感じの文字列になり、改行を削るだけでなく「- 」も削らないと読みづらい。

すべての「- 」を削ればよいかは場合による。


15 citationの欄が本文中の Referenceより少ない

citeseerxに掲載のあるものだけがcitationに掲載があるらしい。


16 bibtex抜け漏れ

雑誌名が書誌にないだけでなく、発行年にないこともある。

書誌に該当する事項があっても BibTeX にないこともある。


17 bibtexの書式がばらばら

article, proceedingsはそれぞれの書式に由来する。

@ARTICLE{Hogganvik05onthe,

author = {Ida Hogganvik and Ketil Stølen},
title = {On the comprehension of security risk scenarios},
journal = {In: IWPC},
year = {2005},
pages = {115--124}
}

@INPROCEEDINGS{Aagedal02k.:model-based,
author = {Jan Øyvind Aagedal and Folker Den Braber and Theo Dimitrakos and Bjørn Axel Gran and Dimitris Raptis and Ketil Stølen},
title = {K.: Model-based risk assessment to improve enterprise security},
booktitle = {In: Proc. EDOC2002. IEEE Computer Society},
year = {2002},
pages = {51--62}

@TECHREPORT{Reese97softwaredeviation,
author = {Jon Damon Reese and Nancy G. Leveson},
title = {Software Deviation Analysis: A "Safeware" Technique},
institution = {},
year = {1997}

@MISC{Sommerville_responsibilitymodelling,
author = {Ian Sommerville and Tim Storer and Russell Lock},
title = {Responsibility Modelling for Civil Emergency Planning},
year = {}
}


18 ライセンスがわかりにくい

学術用に参照、引用する場合には、著作権に違反しないような習慣に従えば良い。

商用で参照、引用する場合に、文献によって著作権に関する記述がわかりにくいことがある。

発行主体が明確であれば、発行主体に問いあわせればよい。

著者、発行主体がわからない時は、Researchgateで検索して著者と連絡を取ってみる。

著者が出版社に著作権を託しているときには、出版社を教えてくれる。

自分が加入しているIEEE(ACM)が発行者のときはそちらを頼る。

arxivにあるときはarxivによる。


参考文献(reference)

参考文献駆動執筆(reference driven writing)

https://qiita.com/drafts/b27b3f58b8bf265a5cd1

情報系論文の検索サービスメモ

https://qiita.com/bori_so1/items/847a80149e38444a033e

人工知能系トップ会議論文の検索ページを作った話

https://qiita.com/gdgd_gutta/items/654c874172d873307c98


文書履歴(document history)

ver. 0.01 初稿 10項目 20181225 朝

ver. 0.02 bibtex書式追記。11項目 20181225 午前

ver. 0.03 2つのURL追記。12項目 20181225 昼

ver. 0.04 16項目 20181225 午後

ver. 0.05 重複追記, 17項目 20181225 お八つ時

ver. 0.06 文字化け例, 「- 」追記 18項目 20181225 夕

ver. 0.07 リンク切れ例追記 20181226 朝

ver. 0.08 参考文献追記 20181226 昼

ver. 0.09 参考文献追記 20190103

ver. 0.10 URL訂正 20190331