互联网上老提到这2个名词:SEM和SEO。
我们搜索出的结果由标题title、内容content、网址url构成,所以我们在数据清洗时,应该规定统一格式便于后续处理。这里我们采用的方案是:titlecontenturl \n titlecontenturl \n titlecontenturl \n … 用换行符标识一个文件的内容提取完毕,也便于我们后续从文件中读取内容。 我们先来编写大致的逻辑代码: