本書將利用文本挖掘和情報(bào)學(xué)中的信息分析方法,采用大樣本數(shù)據(jù)集對(duì)具有非專利引文關(guān)系的科學(xué)論文與技術(shù)專利文本的知識(shí)相關(guān)性進(jìn)行檢驗(yàn)。在四輪德?tīng)柗茖<艺{(diào)查后歸納總結(jié)兩類文本具有的知識(shí)相關(guān)類型,并在此基礎(chǔ)上提出能夠反映科學(xué)研究創(chuàng)新應(yīng)用潛力的文本知識(shí)相關(guān)性計(jì)算方法與技術(shù),協(xié)助企業(yè)從事基于科學(xué)的技術(shù)創(chuàng)新實(shí)踐,達(dá)到提升研發(fā)效率的目的。
科技創(chuàng)新是國(guó)家濟(jì)和社會(huì)發(fā)展的重要支撐,科學(xué)發(fā)展對(duì)技術(shù)創(chuàng)新的積極作用得到了各國(guó)政府和各領(lǐng)城學(xué)者的廣泛認(rèn)可。企業(yè)作為國(guó)家技術(shù)創(chuàng)新體系中活躍和重要的參與主體,是創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的中堅(jiān)力量?茖W(xué)研究中已揭示的科學(xué)發(fā)展對(duì)技術(shù)創(chuàng)新的作用以及多元主體從事研發(fā)活動(dòng)所積累的創(chuàng)新成果等,為以企業(yè)為代表的技術(shù)創(chuàng)新主體開(kāi)展基于科學(xué)的技術(shù)創(chuàng)新實(shí)踐提供了理論指導(dǎo)和知識(shí)積累。
作為科學(xué)和技術(shù)領(lǐng)域間存在關(guān)聯(lián)關(guān)系的重要依據(jù),專利文獻(xiàn)含的非專利引文為探索二者間復(fù)雜的作用關(guān)系和互動(dòng)方式提供了可度量的現(xiàn)實(shí)途徑。已有的研究多根據(jù)技術(shù)專利和學(xué)術(shù)論文中的著錄信息在不同
創(chuàng)新主體、創(chuàng)新領(lǐng)城、創(chuàng)新成果之間建立映射,再結(jié)合創(chuàng)新擴(kuò)散、社會(huì)
再
網(wǎng)絡(luò)關(guān)系、技術(shù)轉(zhuǎn)移等理論探討科學(xué)發(fā)展推動(dòng)技術(shù)創(chuàng)新的內(nèi)在原理與作用機(jī)制。雖然非專利引文真正關(guān)聯(lián)的是學(xué)術(shù)論文和技術(shù)專利這兩類文本,但其能夠作為關(guān)聯(lián)科學(xué)和技術(shù)領(lǐng)城的依據(jù)則是基于這樣兩個(gè)假設(shè):,專利和論文分別是技術(shù)創(chuàng)新和科學(xué)研究的重要產(chǎn)出;第二,非專利引文關(guān)系中的專利與論文之間存在知識(shí)上的相關(guān)性。
目前,學(xué)術(shù)界對(duì)于個(gè)假設(shè)的成立已達(dá)成共識(shí),在對(duì)各個(gè)國(guó)家和地區(qū)授予專利和文數(shù)行統(tǒng)計(jì)后可以發(fā)現(xiàn),企業(yè)和以高校為代表的科研機(jī)構(gòu)分別是專利和論文的申請(qǐng)與發(fā)表的主體,因而將專利和論文作為兩類創(chuàng)新主體的主要?jiǎng)?chuàng)新產(chǎn)出存在合理性。然而,關(guān)于第二個(gè)假設(shè)的成立仍缺少系統(tǒng)且全面的科學(xué)論證,這直接影響了建立在非專利引文基礎(chǔ)上的科學(xué)和技術(shù)關(guān)聯(lián)研究的可靠性。此外,雖然重大技術(shù)突破離不開(kāi)相關(guān)領(lǐng)城的科展,但并非所有與施引專利存在知識(shí)相關(guān)性的學(xué)術(shù)成果對(duì)于技術(shù)問(wèn)題的解決都具有直接推動(dòng)作用,優(yōu)秀的科研成果也并是具有可直行技術(shù)轉(zhuǎn)化的高應(yīng)用價(jià)值。在企業(yè)的技術(shù)創(chuàng)新實(shí)踐中,非專利引文能夠?yàn)檠邪l(fā)活動(dòng)需要的科學(xué)知識(shí)提供具體線索,但過(guò)分依賴容易造成科學(xué)研究和技術(shù)創(chuàng)新發(fā)展邏輯上的不兼容而導(dǎo)致企業(yè)研發(fā)戰(zhàn)略的制定和資源投入出現(xiàn)偏差,增加項(xiàng)目投資風(fēng)險(xiǎn)、延長(zhǎng)了技術(shù)研發(fā)周期。因此,檢驗(yàn)非專利引文關(guān)系學(xué)和技術(shù)文本知識(shí)相關(guān)性,揭示兩類文本的知識(shí)相關(guān)類型和特點(diǎn),開(kāi)發(fā)能夠從非專利引文中識(shí)別具有技術(shù)創(chuàng)新應(yīng)用潛力科學(xué)研究的技術(shù)方法,對(duì)于探索科學(xué)與技術(shù)間的復(fù)雜關(guān)系,豐富和完善二者相關(guān)性研究的范式與方法,指導(dǎo)企業(yè)從事基于科學(xué)的技術(shù)創(chuàng)新實(shí)踐等具有重要意義。
本書利用文本挖掘技術(shù)和信息分析方法對(duì)非專利引文關(guān)系中的論文和專利兩類科學(xué)與技術(shù)文本的知識(shí)相關(guān)行系統(tǒng)研究,主要的研究?jī)?nèi)容如下:
(1)梳理科學(xué)與技術(shù)間存在關(guān)聯(lián)關(guān)系的理論依據(jù)、研究方手段,對(duì)基于非專利引文所確立的科學(xué)技術(shù)相關(guān)性研究現(xiàn)行評(píng)述并指出不足。
(2)將研究對(duì)象限定在論文和專利兩類科學(xué)和技術(shù)文本,并將非專利引文限定在技術(shù)專利對(duì)科學(xué)論文的引用上。以向量空間模型計(jì)算兩類文本的知識(shí)相關(guān)性,采用大樣本數(shù)據(jù)集對(duì)3D打印技術(shù)領(lǐng)城非專利引文關(guān)系中的論文和專利的知識(shí)相關(guān)行檢驗(yàn),對(duì)非專利引文能否作為判定兩類文本存在知識(shí)相關(guān)性的依據(jù)提供系統(tǒng)而全面的論證。
(3)在四輪德?tīng)柗茖<艺{(diào)查法后歸結(jié)施引專利與被引論文間的知識(shí)相關(guān)類型,結(jié)合創(chuàng)新擴(kuò)散、基于文獻(xiàn)的知識(shí),探討與專利存在不同相關(guān)類型的科學(xué)研究成果如何輔助企業(yè)的技術(shù)創(chuàng)新實(shí)踐,是如何加快具體技術(shù)問(wèn)題的解決。在此基礎(chǔ)上,分析以向量空間模型為基礎(chǔ)的相關(guān)性計(jì)算結(jié)果對(duì)不同知識(shí)相關(guān)文本的度量效果,指出將高得分科學(xué)研究成果作為實(shí)現(xiàn)技術(shù)創(chuàng)新重要途徑存在的問(wèn)題與不足。
(4)針對(duì)上述傳統(tǒng)相關(guān)性計(jì)算方法中的不足,從信息抽取、知識(shí)表示、相關(guān)性度量三個(gè)方面入手,提出能夠從非專利引文中識(shí)別具有創(chuàng)新應(yīng)用潛力的科學(xué)研究的方法括用于專利和論文知識(shí)內(nèi)容表示的關(guān)鍵詞抽取算法、融合概念間語(yǔ)義信息的文本知識(shí)表示方文與專利的知識(shí)相關(guān)性計(jì)算方法。
(5)為了體現(xiàn)本書提出的相關(guān)性計(jì)算方法的性,以3D打印技術(shù)領(lǐng)域的技術(shù)專利和科學(xué)論文為分析對(duì)象,介紹如何將該方法應(yīng)用于企業(yè)的技術(shù)創(chuàng)新合作伙伴識(shí)別任務(wù)當(dāng)中。揭示將該相關(guān)性結(jié)果作為合作伙伴評(píng)價(jià)指標(biāo)對(duì)識(shí)別結(jié)果的影響,以此證明本書的方法在科學(xué)和技術(shù)文本知識(shí)相關(guān)性計(jì)算方面的可靠性。
本書的主要研究結(jié)論與成果如下:
(1)證明了具有非專利引文關(guān)系的技術(shù)專利和科學(xué)論文之間的確存在知識(shí)相關(guān)性。
(2)提出了非專利引文關(guān)系中專利與論文具有的四種知識(shí)相關(guān)類別,即知識(shí)背景相關(guān)、創(chuàng)新依存相關(guān)、能相關(guān)、主題概念相關(guān)。
(3)提出了一種可用于表示專利和論文摘要中重要知識(shí)內(nèi)容的關(guān)鍵詞抽取算法,并在開(kāi)放語(yǔ)料上證明其的性能。
(4)提出了一種用于計(jì)算專利和論文文本知識(shí)相關(guān)性的新方法,可反映文本知識(shí)在文本內(nèi)容、“技能”關(guān)聯(lián)、知識(shí)網(wǎng)絡(luò)距離三個(gè)維度上的相關(guān)性特征。
(5)以3D打印技術(shù)領(lǐng)域企業(yè)的技術(shù)創(chuàng)新合作伙伴識(shí)別任務(wù)為例,證明了相關(guān)方法在科學(xué)和技術(shù)文本相關(guān)性計(jì)算方面的性,說(shuō)明了本書的方法應(yīng)用境廣泛。
第1章導(dǎo)論/1
1.1研究背景與研究問(wèn)題/1
1.2研究目標(biāo)與研究意義/4
1.3研究思路/7
第2章理論基礎(chǔ)與研究綜述/10
2.1相關(guān)概念界定/10
2.2科學(xué)與技術(shù)關(guān)聯(lián)的理論基礎(chǔ)/15
2.3科學(xué)與技術(shù)的定量關(guān)聯(lián)方法/
2.4基于非專利引文的科學(xué)技術(shù)關(guān)聯(lián)研究/23
2.5科學(xué)論文與技術(shù)專利的信息抽取方法/26
第3章非專利引文文本知識(shí)相關(guān)性的可靠性研究/37
3.1假設(shè)的提出/38
3.2數(shù)據(jù)采集與預(yù)處理/38
3.3非專利引文的知識(shí)相關(guān)性的比較分析/45
3.4基于非專利引文耦合的專利知識(shí)相關(guān)性檢驗(yàn)/
3.5本章小結(jié)/67
第4章基于關(guān)鍵詞網(wǎng)絡(luò)的專利與論文知識(shí)內(nèi)容提取/69
4.1摘要文本的預(yù)處理與圖表示方法/71
4.2基于共現(xiàn)與語(yǔ)義連接的關(guān)鍵詞加權(quán)方法/85
4.3關(guān)鍵詞抽取方法的比較與評(píng)估/90
本章小結(jié)/95
非專利引文關(guān)系文本的知識(shí)相關(guān)性計(jì)算方法/96
5.1問(wèn)題描述與概念界定/97
5.2異質(zhì)信息網(wǎng)絡(luò)生成與元路徑設(shè)定/105
5.3基于異質(zhì)信息網(wǎng)絡(luò)的專利與論文知識(shí)相關(guān)性計(jì)算/109
5.4算法評(píng)估與討論/118
5.5本章小結(jié)/130
第6章科學(xué)與技術(shù)文本知識(shí)相關(guān)性的應(yīng)用研究/131
6.1基于技術(shù)專利的企業(yè)一技術(shù)領(lǐng)域關(guān)聯(lián)分析/134
6.2基于科學(xué)論文的科研機(jī)構(gòu)一一科學(xué)知識(shí)關(guān)聯(lián)分析/146
6.33D打印技術(shù)企業(yè)與科研機(jī)構(gòu)的知識(shí)相關(guān)性計(jì)算/153
3D打印技術(shù)企業(yè)的科研機(jī)構(gòu)合作伙伴識(shí)別/157
6.5本章小結(jié)/170
第7章研究結(jié)論與展望/172
7.1主要研究結(jié)論/172
7.2研究創(chuàng)新點(diǎn)與貢獻(xiàn)/174
7.3研究局限與展望/177
參考文獻(xiàn)/179
附錄/ 195
附錄A:科學(xué)與技術(shù)文本知識(shí)相關(guān)類型調(diào)查問(wèn)卷/195
附錄B:德?tīng)柗茖<艺{(diào)查反饋結(jié)果/ 196
索引/ 198