介绍Pandas两种少用的读取文件方式
大家好,我是Peter。本文主要介绍Pandas两种少用的读取文件方式:

- 载入在线文件的信息
- 载入剪切板的信息
read_html函数读取在线文件
read_html函数可以立即载入线上的html文件,并将HTML的表格转换为DataFrame,是一种迅速方便快捷的方式。
使用该方法可以非常方便地合并来自各式各样网页页面里的报表,免去了抓取数据信息再去载入的时间。
read_html函数的参数为:
- io:文件io对象;路径或者io.Strings对象
- match:str或编译的正则表达式,可选
- flavor:要使用的解析引擎,None是默认值
- header:文件表头
- index_col:索引
- skiprows:跳过行
- attrs:属性
- parse_dates:日期解析
- thousands:千分位
- encoding:编码
- decimal:识别为小数点的字符
- converters:属性转换
- na_values:空值信息
- keep_default_na:是否保持空值
- displayed_only:是否应该解析带有“display:none”的元素
在线文件1
读取维基百科上一份历届奥运会乒乓球冠军的相关数据。该地址下的部分表格形式的数据:
url="https://zh.m.wikipedia.org/zh/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A%E4%B9%93%E7%90%83%E5%A5%96%E7%89%8C%E5%BE%97%E4%B8%BB%E5%88%97%E8%A1%A8" df=pd.read_html(url) df
在线文件2
一个国外网站下的数据:
df1=pd.read_html("https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list")
df1[0]
读取剪切板的信息
read_clipboard函数可以读取剪切板中的内容,并转换为DataFrame格式。
例如,假设本地目录下有一个Excel表格的数据,可以通过复制数据后使用该函数,省去了通过Excel或CSV文件的读取过程。
import pandas as pd df=pd.read_clipboard(sep='s+',**kwargs)
结尾
以上就是介绍Pandas两种少用的读取文件方式的内容了,希望能对大家有所帮助。
原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/6896.html
