美文网首页
thinkphp jieba 中文分词、关键词提取 2022-0

thinkphp jieba 中文分词、关键词提取 2022-0

作者: 阿然学编程 | 来源:发表于2022-05-22 23:54 被阅读0次
composer require fukuball/jieba-php:dev-master
<?php
/**
 * Created by PhpStorm.
 * User: 14280
 * Date: 2022-05-23
 * Time: 22:24
 */

namespace app\index\controller;

use Fukuball\Jieba\Jieba;//必须
use Fukuball\Jieba\Finalseg;
use Fukuball\Jieba\JiebaAnalyse;//关键词提取

ini_set('memory_limit', '1024M');//设置PHP运行占用内存,必须

//实例化:第一个参数表示开启测试模式   dict表示读取small词库,如果是繁体需要改成big
//Jieba::init();
Jieba::init(array('mode' => 'test', 'dict' => 'small'));//必须
Finalseg::init();
JiebaAnalyse::init();//关键词提取

class JiebaChinese
{
    /**
     * 中文分词
     * 注意:必须是 utf-8 字符串
     */
    public function fenci()
    {
        //默认精确模式
        $seg_list = Jieba::cut("我来到北京清华大学");
        dump($seg_list);
        //全局模式
        $seg_list = Jieba::cut("我来到北京清华大学",true);
        dump($seg_list);
        //搜索引擎模式
        $seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造");
        dump($seg_list);
    }

    /**
     * 关键词提取
     * 注意:必须是 utf-8 字符串
     */
    public function tiQu()
    {
        //越小精确度越高|提取的关键词越准|默认20
        $top_k = 10;
        $content = "我来到北京清华大学";
        //关键词提取
        $tags = JiebaAnalyse::extractTags($content, $top_k);
        dump($tags);
    }

    /**
     * 导入自定义词库并分词
     */
    public function importCikuFenci()
    {
        //导入自定义的词库(一个词语占一行)
        jieba::loadUserDict("../public/upload/ciku.txt");///重点在这里,导入自定义的词库
        //词库中就会有你导入的词库
        $seg_list = Jieba::cut("结巴中文分词:做最好的中文分词!");
        dump($seg_list);
    }


    /**
     * 导入自定义词库并提取关键词
     */
    public function importCikuTiqu()
    {
        //导入自定义的词库(一个词语占一行)
        jieba::loadUserDict("../public/upload/ciku.txt");//自定义的词语
        //越小精确度又高|提取的关键词越准|默认20
        $top_k = 10;
        $content = "这是自定义的词库并且提取自定义关键词";
        //定义截断性比重占比分析(有问题,无法获取到自定义关键词)
        JiebaAnalyse::setStopWords('../public/upload/stop_words.txt');
        //关键词提取
        $tags = JiebaAnalyse::extractTags($content, $top_k);
        dump($tags);
    }
}

相关文章

  • jieba python中文分词库快速入门

    jieba python中文分词库快速入门 关键词提取

  • 第3章 中文分词技术

    本章要点: 中文分词的概念与分类 常用分词的技术介绍 开源中文分词工具-Jieba简介 实战分词之高频词提取 中文...

  • TF-IDF入门与实例

    我们对文档分析的时候,通常需要提取关键词,中文分词可以使用jieba分词,英文通过空格和特殊字符分割即可。那么分割...

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

  • 关键词抽取

    五种关键词抽取 工具 1、jieba GitHub - fxsjy/jieba: 结巴中文分词 2、hanlp G...

  • Python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • python jieba分词库使用

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • python3中文jieba分词设置说明

    jieba分词的安装 在虚拟环境中 / 本地下安装 jieba jieba分词的配置 jieba中文分词的使用 进...

  • jieba分词

    参考:Python 中文分词组件 jiabaPython中文分词 jieba 十五分钟入门与进阶jieba完整文档...

网友评论

      本文标题:thinkphp jieba 中文分词、关键词提取 2022-0

      本文链接:https://www.haomeiwen.com/subject/grudprtx.html