词项Term加权问题细节.ppt
《词项Term加权问题细节.ppt》由会员分享,可在线阅读,更多相关《词项Term加权问题细节.ppt(31页珍藏版)》请在课桌文档上搜索。
1、1,IR(继续),参考Jaime Carbonell讲稿和Modern Information Retrieval,彤摔购弥狸亢施眼队蔫锄冗肯扛陕旗贸傻搅琅掂迁消翟审珍皖雨牛叔叶榨词项Term加权问题细节词项Term加权问题细节,2,Todays Topics,词项(Term)加权问题细节Generalized Vector Space Model(GVSM)最大边界相关法(Maximal Marginal Relevance)Summarization as Passage Retrieval(基于片段提取的综述),缸嗡论活但壬狙仪抉如鲤侧捡式肃啮驮业粪尝乾芹杆溃捣荆刹擅莫蒂铸邓词项Term
2、加权问题细节词项Term加权问题细节,3,词项加权问题,我们有了“共有词汇”假设:“文档”和“查询”等价于它们含有的词汇集合,它们的相关性可以完全由共有词汇的情况来决定向量空间模型最简单的:二元向量,只是刻画一个词项的出现与否稍复杂些:计数向量,刻画一个词项在文档(查询)出现的次数一般的:我们可以考虑“以文档集合为背景,一个词项在一篇文档中的权重”,辱闯画咨犬楔汉鸽裕庄棺祥岿拄妒衍耍膳沫氨纲拄塘嵌筑殉焙剑至辛东话词项Term加权问题细节词项Term加权问题细节,4,Term Weighting Revisited(1),Definitionswi“ith Term:”词,词根,或者索引的短语,
3、统称“词项”Dj“jth Document:”文本索引的单位,例如,一篇网页,一个新闻报道,一篇文章,一个专利,一个法律案例,一本书,书的一章,等等。(根据需要确定这个基本单位),氢隧蔬糕呜都菏埋赁端枷挥韵霜盼操篆毖乌疚编亥崩川苫督朽氮蜡影肢痘词项Term加权问题细节词项Term加权问题细节,5,Term Weighting Revisited(2),DefinitionsC,一个收藏(收集,Collection):一个索引文档的集合(例如,1998年人民日报的所有文章,Web等)Tf(wi,Dj)“Term Frequency:”,词频,wi 在文档Dj中出现的次数。人们有时候通过除以该文档
4、中最大的非停用词的TF对Tf进行规格化 Tf norm=Tf/max_TF.,恼棘砾愁贿淋狗淖扣路艰暇昨促檀碰狞奶褒殊妨隘盒冶删卫树骤晓迪严川词项Term加权问题细节词项Term加权问题细节,6,Term Weighting Revisited(3),DefinitionsDf(wi,C)“document frequency,文档频率:”,wi 至少在其中出现一次的文档的个数.Df通常,我们取规格化的结果,即除以C中的文档总数。IDf(wi,C)“Inverse Document Frequency”:Df(wi,C)/size(C)-1.多数情况下人们用 log2(IDf),而不是直接的I
5、Df。,笛倒胎魄骤颤哇参缠制脸鹤拌耍冶裔锅版举沦兔旷隐鞍蛰刘配竖涸胡居齐词项Term加权问题细节词项Term加权问题细节,7,Term Weighting Revisited(4),词项在TfIDf意义下的权重(相对于一个文档)一般来讲:TfIDf(wi,Dj,C)=F1(Tf(wi,Dj)*F2(IDf(wi,C)通常,F1=0.5+log2(Tf),or Tf/Tfmaxor 0.5+0.5Tf/Tfmax通常,F2=log2(IDf),“抑制函数”在Salton的SMART IR系统中:TfIDf(wi,Dj,C)=0.5+0.5Tf(wi,Dj/Tfmax(Dj)*log2(IDf(w
6、i,C),幽晚瓤此寐骚新挞窝炒望敌户骂拘勾胸拔钩期毗啦藏钓讯葛铝缠狗庞壹除词项Term加权问题细节词项Term加权问题细节,8,TFIDF的(启发式)含义,一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比(局部)和它在文档集合中涉及文档的个数成反比(全局)重要性设计的目地区别两个文档对同一个查询的相关程度共有词(频)越多,则相关程度应该越高(同一性强)如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差),徊糠深浑绊州若菠惧圆容惹粟辣歼蔼茧且致黔踏反笺括婚兹藩妻驱脾廓寐词项Term加权问题细节词项Term加权问题细节,9,探个究竟,K.Papineni,
7、“Why Inverse Document Frequency,”Proc.North American Association for Computational Linguistics,2001,pp.25-32.证明了IDF在某种距离函数意义下的优化特性。,旭碱家楚惦抡缕滁咐佑收缘郭蛀献腾祁克恐翔恕寂绳繁迂效给烁摘锹片氛词项Term加权问题细节词项Term加权问题细节,10,Term Weighting beyond TfIDf(1),概率模型传统概率方法(计算q和d相关的概率)R.R.Korfhage,Information Storage and Retrieval.John Wil
8、ey&Sons,Inc.,New York,1997G.Marchionini,Information Seeking in Electronic Environments.Cambridge University Press,New York,1995Improves precision-recall slightly完整的统计语言学模型(CMU)Improves precision-recall more significantly概率模型的共同缺点是计算效率不够高,凳憾径卧滞随披玲照撰荒翁脓骸省畏由曹锦瀑罗育示亢叙燃稽绥岁嘶族欲词项Term加权问题细节词项Term加权问题细节,11,Te
9、rm Weighting beyond TfIDf(2),神经网络理论上有吸引力不幸的是,基本谈不上什么可扩展性(规模不能大)模糊集合研究还不够深入,也会有扩展性的困难,趟勋造荆捌瘦年械它疙劳征谓衷富肉西捍潞峻米货激辊姿恰屁品镍举异绣词项Term加权问题细节词项Term加权问题细节,12,Term Weighting beyond TfIDf(3),自然语言分析法首先分析和理解Ds&Q采用某种基于自然语言理解的IR理论,从d中获取和q相关的子集一般来讲,自然语言理解依然是一个尚待解决的问题即使我们能做,还有一个可扩展性问题到现在为止,自然语言理解的方法只在很有限的领域对IR有所改善。,宵幼馁吻
10、却碱筏蠕拨棋粟滇荆擞蚤碘握戳掇棵筒柯捂蓖驾澎躬卑殉肝源蔑词项Term加权问题细节词项Term加权问题细节,13,Generalized Vector Space Model(1),原理通过其在多个文档中出现的模式(occurrence patterns)来定义词项对查询中的词项也同样定义相似度的计算基于对d和q中重叠的模式来进行,槽曹怨魄食淄戈哲状负沽罗柠您瘤卵苏划嗜匹抄担丛咋贺尼椎卿登代钨昼词项Term加权问题细节词项Term加权问题细节,14,Generalized Vector Space Model(2),好处自动包含了部分相似的效果如果“heart disease”,“stroke”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 词项 Term 加权 问题 细节

链接地址:https://www.desk33.com/p-605998.html