Pandas与数据库交互详解

news/2024/7/24 7:10:10 标签: pandas, 数据库


Pandas 是一个强大的数据分析库,可以与各种数据库进行交互,从而可以方便地从数据库中读取数据、分析数据,并将结果写回数据库中。以下是使用 Pandas 与数据库交互的一般步骤:

一 、数据库交互

  1. 安装必要的库:首先,你需要安装 Pandas 和适用于你的数据库数据库连接库。例如,如果你要连接到 MySQL 数据库,你可以使用 mysql-connector-python 或 pymysql 等库。如果你要连接到 PostgreSQL 数据库,你可以使用 psycopg2 等库。你可以使用 pip 来安装这些库,例如:

    pip install pandas mysql-connector-python
    
  2. 导入库:在 Python 脚本中导入 Pandas 和数据库连接库:

    import pandas as pd
    import mysql.connector  # 或其他适当的数据库连接库
    
  3. 建立数据库连接:使用数据库连接库建立与数据库的连接。具体的连接参数(如主机、用户名、密码、数据库名称等)会根据你连接的数据库类型而有所不同。以下是一个连接到 MySQL 数据库的示例:

    connection = mysql.connector.connect(
        host='localhost',
        user='your_username',
        password='your_password',
        database='your_database'
    )
    
  4. 读取数据到 Pandas DataFrame:一旦建立了数据库连接,你可以使用 Pandas 的 read_sql 函数从数据库中读取数据并将其存储在 DataFrame 中。例如,从数据库中读取一个表中的数据:

    query = "SELECT * FROM your_table"
    df = pd.read_sql(query, connection)
    
  5. 分析和操作数据:一旦数据加载到 Pandas DataFrame 中,你可以使用 Pandas 提供的各种数据分析和操作功能进行数据处理、转换和分析。

  6. 将数据写回数据库(可选):如果需要,你还可以使用 Pandas 将处理后的数据写回数据库。例如,将一个 DataFrame 写入到新的数据库表中:

    df.to_sql('new_table', connection, index=False, if_exists='replace')
    
  7. 关闭数据库连接:最后,不要忘记在使用完数据库后关闭连接以释放资源:

    connection.close()
    

二 orm交互

Pandas 和 ORM(对象关系映射)库可以结合使用,以便在将数据库数据映射到 Python 对象(通常是类)的同时,使用 Pandas 进行数据分析、转换和处理。这种联合使用的情况可能特别有用,因为你可以使用 ORM 从数据库中获取数据并将其转换为 Python 对象,然后使用 Pandas 对这些对象进行更进一步的数据分析。

以下是如何在 Pandas 和 ORM 之间进行联合使用的一般步骤:

  1. 安装 Pandas 和你选择的 ORM 库:首先,确保你已经安装了 Pandas 和你打算使用的 ORM 库,例如 SQLAlchemy(适用于多种数据库)或 Django ORM(专为 Django 框架设计的)。

  2. 导入库:在 Python 脚本中导入 Pandas 和你选择的 ORM 库:

    import pandas as pd
    from sqlalchemy import create_engine  # 如果使用 SQLAlchemy
    # 或
    # from django.db import models  # 如果使用 Django ORM
    
  3. 配置数据库连接(如果使用 SQLAlchemy):如果你使用 SQLAlchemy,需要配置数据库连接,创建一个数据库引擎,然后使用 ORM 映射的模型类与数据库交互。以下是一个 SQLAlchemy 连接数据库的示例:

    from sqlalchemy import create_engine
    
    # 创建数据库引擎
    engine = create_engine('mysql://username:password@localhost/dbname')
    
    # 导入 ORM 映射的模型类
    from myapp.models import MyModel
    
  4. 查询数据库并将结果转换为 Pandas DataFrame:使用 ORM 查询数据库并将结果转换为 Pandas DataFrame。这样,你可以在 Pandas DataFrame 上执行各种数据分析操作。以下是一个示例:

    # 使用 ORM 查询数据库
    session = Session(engine)
    query = session.query(MyModel).filter(MyModel.some_column == 'some_value')
    
    # 将查询结果转换为 Pandas DataFrame
    df = pd.read_sql(query.statement, query.session.bind)
    
  5. 使用 Pandas 进行数据分析和操作:现在,你可以在 Pandas DataFrame 上使用 Pandas 提供的各种功能进行数据分析、转换和处理。

  6. 可选:将处理后的数据写回数据库:如果需要,你还可以使用 Pandas 将处理后的数据写回数据库,或者使用 ORM 将 Python 对象更新到数据库中。

  7. 关闭数据库连接(如果使用 SQLAlchemy):最后,不要忘记在使用完数据库后关闭数据库连接以释放资源:

    session.close()
    

三、orm 源生sql

与上面的方法不同处是你可以自己去写底层sql,执行 SQL 查询,并将结果加载到 Pandas DataFrame 中进行进一步的数据分析和处理。

  1. 安装 Pandas 和 SQLAlchemy:确保你已经安装了 Pandas 和 SQLAlchemy。你可以使用 pip 来安装它们:

    pip install pandas sqlalchemy
    
  2. 导入库:在 Python 脚本中导入 Pandas 和 SQLAlchemy:

    import pandas as pd
    from sqlalchemy import create_engine
    
  3. 创建数据库连接:使用 SQLAlchemy 创建与数据库的连接。你需要提供数据库的连接字符串,该字符串包含有关数据库类型、主机、用户名、密码和数据库名称的信息。以下是一个示例连接到 SQLite 数据库的代码:

    db_url = "sqlite:///mydatabase.db"  # SQLite 示例
    engine = create_engine(db_url)
    

    如果你要连接到其他类型的数据库,连接字符串将有所不同。例如,连接到 MySQL 数据库的示例:

    db_url = "mysql+mysqlconnector://username:password@localhost/database_name"  # MySQL 示例
    engine = create_engine(db_url)
    
  4. 执行 SQL 查询并将结果加载到 Pandas DataFrame:使用 Pandas 的 read_sql 函数执行 SQL 查询并将结果加载到 DataFrame 中。以下是一个示例查询的代码:

    query = "SELECT * FROM your_table"
    df = pd.read_sql(query, engine)
    
  5. 使用 Pandas 进行数据分析和操作:一旦数据加载到 Pandas DataFrame 中,你可以使用 Pandas 提供的各种数据分析和操作功能进行数据处理、转换和分析。

  6. 可选:将处理后的数据写回数据库:如果需要,你还可以使用 Pandas 将处理后的数据写回数据库。例如,将一个 DataFrame 写入到新的数据库表中:

    df.to_sql('new_table', engine, index=False, if_exists='replace')
    
  7. 关闭数据库连接:最后,不要忘记在使用完数据库后关闭连接以释放资源:

    engine.dispose()
    

这些步骤允许你在 SQLAlchemy 提供的数据库连接和数据模型的基础上,使用 Pandas 强大的数据分析功能来处理数据库中的数据。这种组合在数据科学和数据分析领域非常常见,因为它允许你轻松地在 SQL 查询和数据分析之间切换,从而更好地理解和处理数据。

四、常用数据库交互函数

Pandas 与数据库交互时,有一些常用的函数和方法,用于从数据库中读取数据、将数据写入数据库以及执行数据分析和转换操作。以下是一些常用的 Pandas 函数和方法,用于数据库交互:

  1. 读取数据

    • pd.read_sql(sql, con): 从数据库连接 con 中执行 SQL 查询 sql,并将结果加载到 Pandas DataFrame 中。

    • pd.read_sql_table(table_name, con): 从数据库连接 con 中读取整个表 table_name 的数据并将其加载到 DataFrame 中。

  2. 写入数据

    • DataFrame.to_sql(table_name, con, if_exists='fail', index=False): 将 DataFrame 中的数据写入数据库表 table_name 中。你可以指定是否要覆盖已存在的表(if_exists='replace')、追加到已存在的表(if_exists='append')或如果表已存在则报错(if_exists='fail')。

  3. 执行 SQL 查询

    • con.execute(sql): 在数据库连接 con 上执行 SQL 查询 sql。通常用于执行自定义的 SQL 命令,而不是将结果加载到 DataFrame 中。

  4. 数据分析和操作

    • DataFrame.head(n): 返回 DataFrame 的前 n 行数据。

    • DataFrame.tail(n): 返回 DataFrame 的后 n 行数据。

    • DataFrame.describe(): 生成关于 DataFrame 列的统计描述信息。

    • DataFrame.groupby(by): 将 DataFrame 数据按指定的列 by 进行分组。

    • DataFrame.merge(other, on=None, how='inner'): 将两个 DataFrame 合并在一起,类似于 SQL 中的 JOIN 操作。

    • DataFrame.pivot_table(values, index, columns, aggfunc='mean'): 创建数据透视表。

    • DataFrame.drop(labels, axis=0/1, inplace=True): 删除指定行或列。

    • DataFrame.rename(columns={'old_name': 'new_name'}, inplace=True): 重命名列。

  5. 数据筛选和过滤

    • DataFrame[df['column'] > value]: 根据条件筛选数据。

    • DataFrame.loc[row_indexer, column_indexer]: 使用标签对 DataFrame 进行选择和切片。

    • DataFrame.iloc[row_indexer, column_indexer]: 使用整数位置进行选择和切片。

  6. 数据排序

    • DataFrame.sort_values(by, ascending=True): 根据指定列的值对数据进行升序或降序排序。

这些是一些常用的 Pandas 函数和方法,用于与数据库进行交互和执行数据分析操作。你可以根据具体的需求和情境使用这些函数和方法,以便更好地处理数据库中的数据。在与不同数据库系统交互时,一些函数的用法可能会有所不同,需要查阅相关数据库连接库的文档以获取更多细节。


http://www.niftyadmin.cn/n/5106913.html

相关文章

git仓库中增加子仓库

在 Git 中包含另一个 Git 仓库通常使用 Git 子模块(Git Submodule)来实现。子模块允许你在一个 Git 仓库中包含另一个 Git 仓库,从而在一个仓库中管理多个相关但独立的项目。 以下是如何将一个 Git 仓库包含为另一个 Git 仓库的子模块的步骤…

promise返回值多层嵌套

实际上打印的是promise的res不是api接口返回值 因为用apifox测试开发服务器的代理接口,和不加代理测试返回值相同: http://localhost:3030是vue开发代理。 "D:\code\jeecg\vue\job-app-master\manifest.json" "proxy" : {"/ap…

有湖有仓,如何升级到湖仓一体

很多企业在过去的 IT 基础建设过程中,都已经搭建了数据仓库或数据湖,或者两者都有。其中数据仓库一般使用的是传统 Oracle 或者传统 MPP 数据库,如 Teradata 和 Greenplum,数据湖使用 Hadoop 大数据平台。所以在考虑湖仓一体升级改…

eNSP-OSPF协议其他区域不与骨干区域相连解决方法3

virtual-link技术 AR1 [ar1]int g0/0/0 [ar1-GigabitEthernet0/0/0]ip add 192.168.1.1 24 [ar1-GigabitEthernet0/0/0]quit [ar1]ospf [ar1-ospf-1]area 0 [ar1-ospf-1-area-0.0.0.0]net 192.168.1.0 0.0.0.255 [ar1-ospf-1-area-0.0.0.0]quit AR2 [ar2]int g0/0/0 [ar2-Gig…

删除字符串字符,使输出结果不包含回文串

回文串的判定条件:1、相邻两个字符相同;2、当前字符的前后两个字符相同 1、给定一个字符串,删除其中的回文串,使打印的字符串不包含回文字符 def deleteHuiwen(s):tmp ""for i in range(len(s)):if tmp ""…

学会C++之后,为什么学任何语言都会更加容易?

学会C之后,为什么学任何语言都会更加容易? 编程的本质是把自然语言翻译为机器语言,但机器没有联想力,所以它需要编写者事无巨细地告诉它怎么做。最近很多小伙伴找我,说想要一些c语言资料,然后我根据自己从业…

物联网AI MicroPython传感器学习 之 BH1750数字光强传感器

学物联网,来万物简单IoT物联网!! 一、产品简介 BH1750 是罗姆(ROHM)半导体集团出品的数字光强传感器,也称作光敏传感器。广泛应用于移动手机、LCD电视、电脑PC、掌上游戏机、数码相机、数码摄像机、汽车导…

蓝牙5.4的几个新特性

前述文章《蓝牙5.4引入PAwR,电子价签迎来新机遇》中我们介绍了蓝牙5.4的PAwR特性,该特性的引入使得电子价签领域迎来了新的机遇,但其实蓝牙5.4一共引入了4个特性,本文将逐一进行介绍后面3个特性。 首先来回顾一下蓝牙5.4的几个新…