問題重述:有一個內含有大約40萬條常用詞匯的詞庫。現給定一篇文章,使用這個詞庫分析出常用詞匯的出現次數,并按出現次數由高到低排序這些詞語。 改進算法的思路: 1. 通常一篇文章所包含的詞語遠少于詞庫中40萬的數量; 2. 數據庫建立索引之后,可采用“二分法”對詞語進行快速定位; 3. 逐字縮小查詢范圍,如果查詢到某個字符時范圍已經為0,那么可以預測其后的詞一定也不存在,(例如查詢到forest時已經沒有匹配的詞了,就可以到此結束)。
關注B站賬號,站內消息自動回復給您下載驗證碼。
前往 B站:半導體科技觀察
蟲蟲下載站版權所有 京ICP備2021023401號-1