python带你获取TripAdvisor旅游景点的真实评价

news/2024/7/24 10:19:44 标签: python, chrome, 开发语言, pycharm, 学习

前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

猫途鹰(TripAdvisor)是一个旅游点评网站,

如果您想要爬取该网站的数据,需要了解该网站的访问规则和爬取限制。

所使用软件工具:

  • python 3.8 运行代码

  • pycharm 2022.3.2 辅助敲代码 专业版

代码实现

针对猫途鹰网站,可以使用Python的第三方库Selenium模拟浏览器行为,模拟用户在网站上进行的操作,从而获取数据。

以下是一个简单的实现过程:

1. 安装必要的库:Selenium和BeautifulSoup

pip install selenium beautifulsoup4

第三方模块安装:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. pycharm中点击Terminal(终端) 输入安装命令

如果出现爆红, 可能是因为 网络连接超时, 可切换国内镜像源,命令如下:

python">pip install -i https://pypi.doubanio.com/simple/ requests

python资料、源码、教程\福利皆: 点击此处跳转文末名片获取

2. 下载对应浏览器的webdriver,安装到系统中

# 以Chrome浏览器调用为例
# 下载对应管理器
from selenium import webdriver
driver_path = "/path/to/chromedriver"
options=webdriver.ChromeOptions()
options.add_argument('--no-sandbox') # 以root模式下不是必须的,非root模式下才有必要
完整源码、解答、教程皆+VX:pytho8987获取,记得验证备注“777”
browser = webdriver.Chrome(executable_path=driver_path, options=options)

3. 发送HTTP请求,获取目标页面数据

url = "https://www.tripadvisor.cn/Attractions-g186338-Activities-London_England.html#FILTERED_LIST"
browser.get(url)
html = browser.page_source
soup = BeautifulSoup(html, "html.parser")

4. 解析HTML页面,获取所需数据

results = []
for element in soup.find_all("div", class_="listItem"):
    name = element.find("div", class_="listing_title").text
    rating = element.find("span", class_="ui_bubble_rating")['class'][1][1]
    review_count = element.find("a", class_="review_count").text.split(" ")[0]
    results.append((name, rating, review_count))

5. 采集数据并保存,便于之后的处理和分析

df = pd.DataFrame(results, columns=["name", "rating", "review_count"])
df.to_csv("tripadvisor_data.csv", index=False)

请注意,具体的爬取过程可能随着网站的改变而变化,请您自己进行具体的分析和处理。

本人只是提供一个简单的实现过程供参考。

尾语

感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇


http://www.niftyadmin.cn/n/436388.html

相关文章

《Lua程序设计》--学习8

编译,执行和错误 编译 可以认为dofile函数就是这样: loadfile函数从文件中加载Lua代码段,但它不会运行代码,只是编译代码,然乎将编译后的代码段作为一个函数返回 函数loadfile更灵活。在发生错误的情况中&#xff0…

数据预处理:标准化、正则化、最大最小归一化、绝对值标准化

https://scikit-learn.org/stable/modules/preprocessing.html 标准化 公式 : 优点:适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布 缺点 :是一种中心化方法,会改变原有数据得分…

交换机中光口是如何配置的

在往期的文章中我们有介绍到电口和光口的概念,以及两者之间的区别。本期文章我们来了解一下交换机光口的是如何配置的。 一、交换机光口是如何配置的 1、确认光口类型:首先,确定光口插槽使用的光模块类型(如SFP、SFP、QSFP等&am…

刁钻面试问题?超全接口测试面试题总结+答案,面试看这篇就够了

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 面试题&#xff1…

mdBook介绍及使用——使用 Markdown 创建你自己的博客和电子书

目录 介绍一、下载与创建项目1.下载2.初始化3.结构说明 二、编写文章与启动1.编写文章2.构建3.启动 mdbook 服务 三、其他配置 介绍 mdBook 是一个使用 Markdown 创建书籍的命令行工具。它非常适合创建产品或 API 文档、教程、课程材料或任何需要清晰、易于导航和可定制的演示…

【RH850/U2A】:Task激活过程

Task激活过程 Autostart非AutostartTASK(Default_Init_Task)EcuM_StartupTwo(void)SchM_Init(void)BswM_Init(xx)Rte_Start(void)Task激活过程,分自动运行(AutoStart)和非自动运行。 Autostart 在DavinciCfg中的配置如下: Autostart意味作在执行StartOS()后就开始运行了。…

一次过!快速申领软件著作权

文章目录 一次过!快速申领软件著作权1 软件著作权的定义2 申请流程2.1 准备申请材料2.2 登录软著局申请系统并进行填写2.3 审核2.4 补正和修改申请材料2.5 接受核准并领证 3 申请材料4 注意事项5 总结 一次过!快速申领软件著作权 申领软件著作权是保护软…

采用UWB定位技术开发的室内定位系统源码

UWB精准定位系统源码 UWB是什么? UWB(Ultra Wideband)超宽带技术是一种全新的、与传统通信技术有极大差异的通信新技术。它不需要使用传统通信体制中的载波,而是通过发送和接收具有纳秒或纳秒级以下的极窄脉冲来传输数据,实现精准定位。 技术…