夜夜躁爽日日躁狠狠躁视频,亚洲国产精品无码久久一线,丫鬟露出双乳让老爷玩弄,第一次3q大战的经过和结果

首頁 > 范文大全 > 畢業論文 > 開題報告 > 文本聚類開題報告范文

文本聚類開題報告范文

發布時間:2019-12-03

文本聚類開題報告范文

  文檔聚類可以作為多文檔自動文摘等自然語言處理應用的預處理步驟,可以將重要新聞文本進行聚類處理,是一種處理文本信息的重要手段。

  基于K―Mean文本聚類的研究

  摘 要 文本聚類能夠把相似性大的文本聚到同一類中。K-Means常用來聚類文本,但是由于聚類中心的選取對聚類結果有影響,導致聚類不穩定,因此采用一種基于聚類中心的改進算法分析文本,通過實驗,驗證算法的有效性。

  關鍵詞 文本聚類;k-means;相似性;度量準則

  中圖分類號:TP391 文獻標識碼:B

  文章編號:1671-489X(20xx)18-0050-03

  Research for Text Clustering based on K-Mean//ZHANG Yue, LI Baoqing, HU Lingfang, MENG Li

  Abstract Text clustering can make the text similarity large clustered into the same class, K-Means usually is used in text clustering, because of impacting on the cluster center, which results in the clustering instability. Therefore, this paper uses a text analysis of improved algorithm based on the clustering center, through the experiment, it verifies the effectiveness of the improved algorithm.

  Key words text clustering; k-means; similarity; measure criterion

  文本聚類是把不同的文本分別聚在不同的類別中,是文本挖掘的重要技術,它是一種無監督的學習技術,每個類中包含的文本之間具有較大的相似性,不同類間的文本相似性比較小。文本聚類是數據挖掘的重要分支,它應用神經網絡、機器學習等技術,能夠自動地對不同文本進行分類。

  在文本聚類分析中,文本特征表示一般采用向量空間模型[1],這種模型能更好表現文本。在對文本聚類的研究中,Steinbach等人研究了基于劃分的方法和基于層次的方法在文本聚類中的適用程度[2-3],得出結論:采用K-Means算法進行聚類,不僅聚類結果較好,而且適用于數據量比較大的聚類場合。在文章中根據研究者對K-Means的發現,結合實際研究,采用一種基于K-Means的改進算法來聚類。Dhillod等人對文本聚類進行研究發現,采用余弦夾角作為相似性度量比采用歐氏距離度量的結果好很多[4]。

  1 文本聚類

  文本聚類的方法很多,主要分為基于層次的方法、基于劃分的方法、基于密度的方法、基于模型的方法、基于網格的方法[5]。在這些聚類方法中,基于劃分的K-Mean是最常用也是很多改進方法的基礎,文章中采取的改進方法也是基于K-Mean的。

  K-Mean首先由MacQueent[6]提出。它能在大數據集中廣泛被使用,因為算法效率較高、算法執行過程理解容易。當前進行的很多研究都是以K-Mean為基礎開展進行的,它的計算復雜度低,具有與文檔數量成線性關系的特性,計算效率不僅高,而且伸縮性較強,適應大數據集的能力也很強。K-Mean以k為初始聚類數,然后把n個文本分到k個聚類中,這樣類內的文本具有較高的相似度,不同類間的相似度較小。

  K-Mean具體的算法過程如下:

  1)首先給定n個數據文本,從其中任選k個文本,這k個數據文本初始地代表了k個類的數據中心;

  2)對剩余的每個文本計算其到每個中心的距離,并把它歸到最近的中心類中;

  3)重新計算已經得到的各個類的中心,通常計算中心的準則函數采用平方誤差準則,這個準則能夠使生成的結果類盡可能地獨立和緊湊;

  4)迭代執行第二步和第三步的動作直至新的中心與原中心相等或小于指定閾值,直到算法結束。

  具體的算法流程如圖1所示。

  2 改進的聚類算法

  雖然使用K-Mean算法進行文本聚類時,具有計算復雜度低,計算效率不僅高,而且伸縮性較強,適應大數據集的能力也很強的優點,但是實驗發現,不僅初始聚類中心的選取對聚類結果有影響,孤立點的存在對文本的相似性的判斷也有很大的影響,這就導致聚類判斷不穩定。基于此,文章采用一種改進的方法來進行文本聚類,改進關鍵點在于聚類中心的計算,用與原聚類中心相似的文本數據來計算平均值作為該聚類中心。

  改進的K-Means算法描述如下所示:

  1)首先給定n個數據文本,從其中任選k個文本,這k個數據文本初始地代表了k個類的數據中心;

  2)對剩余的每個文本計算其到每個中心的距離,并把它歸到最近的中心類中,記作means;

  3)選擇類中與類中心大于等于(1+a)*means的文本集合{D1,D2,...,Dk},其中a[-0.31,0.31],重新計算新文本集中的類中心;

  4)迭代執行第2步和第3步的動作直至新的中心與原中心相等或小于指定閾值,直到算法結束。

  3 相似度計算

  文本聚類中涉及文本的相似性計算,只有相似性大的文本才能聚到同一類中,因此,相似性的度量對文本的聚類很關鍵。在文本聚類中,相似度度量方式一般有曼哈頓距離、Cosine距離、歐式距離,其中Cosine距離更能體現文本的相似性。本文主要采用Cosine距離,當兩個文本之間的文本相似度越大,它們之間的相關性越強。文本集用向量空間模型表示后,文本的相似度采用向量之間距離表示:

  4 評價標準

  文本聚類的有效性需要進行驗證,文章中主要采用F度量、平均純度來對聚類結果進行評價。

  1)F度量。F度量把召回率和評價標準準確率結合在一起。

  準確率:P(i,r)=nir/nr (2)

  召回率:R(i,r)=nir/ni (3)

  其中nir是類別r中包含類別i中的文本的個數,nr是類別r中實際文本的數目,ni是原本類別i中應有的文本數,F值的計算公式:

  (4)

  由公式(4)最后得到評價函數為:

  (5)

  其中n為文本的總數。從公式看出F值越高,聚類效果越好。

  2)平均純度。除了用F度量來評價聚類,文章中還使用平均純度來度量文本聚類質量好壞[7]。設類ci的大小為ni,則該類的純度為:

  (6)

  其中nj表示類ci與第j類的交集大小,則平均純度公式為:

  (7)

  其中k為最終的聚類數目。一般說來純度越高聚類效果越好。

  5 聚類實驗結果分析

  文章中采用的實驗數據主要是搜狗語料庫。搜狗語料庫主要包括10種文本類別:軍事、招聘、IT、文化、健康、汽車、體育、旅游、財經、教育。搜狗語料庫包含了每一類的文件夾,在文件夾中都是txt文本。為了驗證改進后的算法比原算法更有效,進行了多次實驗,最終選取了其中一次實驗結果為例子,對兩種算法的F度量和純度進行比較,分別如表1和表2所示。

  從表1可以看出,改進聚類中心的K-Means算法在純度方面相對有一些提高;從表2可以看到F值提高明顯;從兩個表中的實驗結果可以看到改進的算法是有效的。

  6 結論

  基于文本的聚類分析能夠對大量的文本進行聚類,分析中采用的聚類算法的改進能在很大程度上提高聚類的準確性。實驗證明達到設計的效果,同時也為后期的各種數據挖掘工作打下基礎。

  參考文獻

  [1]Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J].Comm. ACM,1975,18(11):613-620.

  [2]Steinbach M, KaryPis G, Kumar V. A comparison of document clustering techniques[C].Proceedings of KDD 2019 Workshop on Text Mining.2019:1-20.

  [3]Ying Zhao, KaryPis G. Hierarchical Clustering Algorithms for Document Datasets[J].Proceedings of Data Mining and Knowledge Discovery,2019,10(2):141-168.

  [4]Dhillon I S, Modha D S. Concept decompositions for large sparse text data using clustering[J].Machine Learning,2019,

  42(1):143-175.

  [5]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2019.

  [6]MacQueen J. Some methods for classification and analysis

  of multivariate observations[C]//Proceedings of 5th Berkeley

  Symposium on Mathematics. Statistics and Science.1967:281-

  296.

  [7]Hammouda K, Kamel M. Collaborative document clu-stering[C]//2019 SIAM Conference on Data Mining (SDM06).

  2019:453-463.

文本聚類開題報告范文 相關內容:
  • 特征提取開題報告

    特征提取基于內容的圖像檢索技術通過提取圖像的內容特征,包括顏色、紋理、形狀等,生成圖像特征庫。查詢時,系統抽取用戶提供的示例圖像的特征,與特征庫中存儲的圖像特征進行比較匹配,計算示例圖像與圖像庫中各圖像的相似度,最后按相...

  • 關于計算機畢業設計論文開題報告

    1.本課題的研究意義,國內外研究現狀、水平和發展趨勢1.1研究意義隨著社會的發展和進步,各項社會保障和福利制度進一步完善。實行住房公積金制度是其中的重要內容。...

  • 畢業論文開題報告撰寫格式

    (一)題目的國內外研究現狀及評價改革開放以來,我國的居民生活得到了很到了很大的改善,人民收入也提高了很多,但是,我們可以發現城鄉居民之間的收入差距卻越拉越大,基尼系數甚至已經連續幾年超過了警戒線。...

  • 畢業論文開題報告:鄉村旅游

    一、研究背景鄉村旅游在我國起步較晚,在20世紀80年代以后開始萌芽,經過三十多年發展,鄉村旅游已具有一定規模,形成了圍繞大中城市、名勝景區、山水生態區、特色農業區的鄉村旅游發展格局,并涌現出一批先進典型。...

  • 蘇州科技學院大學生畢業論文開題報告

    蘇州科技學院畢業論文開題報告 論文題目 院 系 蘇州科技學院 專 業 人力資源管理 學生姓名 胡玉鳳 學號 指導教師 年 月 日開題報告填寫要求 1.開題報告應在畢業論文工作前期內完成,經指導教師簽署意見后方可進行論文正文寫作;2.開題報告...

  • 畢業論文“英、中文摘要、關鍵詞”樣式

    AbstractThis paper begins with a brief introduction to Chomskys methodology of idealization in linguistic research. Although the idealization in physical research from which Chomskys idealization deprives can still keep...

  • 畢業論文單親家庭子女教育問題研究開提報告

    《單親家庭子女教育問題研究》課題系涼山州教委普教科研資助金項目,也是《四川省民族地區中小學心理健康教育研究》子課題,由涼山州教科所和西昌市教科培訓中心管理指導,由西昌市第三小學承擔研究。...

  • 應屆大學生怎樣寫好一篇完整的畢業論文

    摘 要: 本文講述了3個問題:1、為什么要撰寫畢業論文。2、如何撰寫畢業論文,寫前要做哪些準備工作,畢業論文怎樣選題,怎樣收集材料,怎樣分析、研究,研究成果如何表達,撰寫論文有哪些程序和要求。...

  • 開題報告
主站蜘蛛池模板: 鞍山市| 九寨沟县| 五常市| 上犹县| 万载县| 隆回县| 江津市| 贵阳市| 读书| 滦平县| 谢通门县| 贺兰县| 长沙县| 喀喇| 洞口县| 惠来县| 峨眉山市| 镇沅| 冀州市| 麻城市| 广宁县| 裕民县| 广丰县| 桃江县| 揭阳市| 弥勒县| 万州区| 凤庆县| 金堂县| 美姑县| 义乌市| 灵川县| 静安区| 永嘉县| 阳泉市| 穆棱市| 黄大仙区| 隆尧县| 玉树县| 南通市| 延边|