1. python读取图片exif属性中的GPS信息
- 智能手机或平板如果在拍照时开启定位服务,照片中就会记录拍照位置信息和拍摄时间。如果将原始照片直接发送发布到网上,无意中就泄漏了自己的位置信息,有恶意企图的人可能会通过照片分析出你的家庭住址和工作单位。
- python有很多工具库可以解析图片的exif元数据信息,笔者喜欢使用exifread这个库。
2. 完整代码(需要使用python3)
- 图片exif属性中的经纬度是“度,分,秒”的形式,如:[25, 34, 5927/100],需要转换成类似“16.439683,39.941649999”这样的形式。
- 除经纬度外,还要读取GPS元数据中的东西半球和南北半球标识。
- 经纬度转换成地理位置需要调用地图服务接口,本程序代码采用百度的逆地理编码服务API接口,调用接口需要申请服务密钥。
- 笔者自己利用手机拍照测试,程序分析后得到的位置信息基本没有误差。
#!/bin/python
#coding:utf8
import os
import exifread
import re
import sys
import requests
import json__author__ = 'DaDaLuLa'#************************************************************************
#代码功能:#
# 1.读取所有图片文件的exif信息 #
# 2.提取图片中的经纬度,将度、分、秒转换为小数形式 #
# 3.利用百度地图API接口将经纬度转换成地址形式 #
#************************************************************************#遍历文件夹及子文件夹中的所有图片,逐个文件读取exif信息
def get_pic_GPS(pic_dir):items = os.listdir(pic_dir)for item in items:path = os.path.join(pic_dir, item)if os.path.isdir(path):get_pic_GPS(path)else:imageread(path)#将经纬度转换为小数形式
def convert_to_decimal(*gps):#度if '/' in gps[0]:deg = gps[0].split('/')if deg[0] == '0' or deg[1] == '0':gps_d = 0else:gps_d = float(deg[0]) / float(deg[1])else:gps_d = float(gps[0])#分if '/' in gps[1]:minu = gps[1].split('/')if minu[0] == '0' or minu[1] == '0':gps_m = 0else:gps_m = (float(minu[0]) / float(minu[1])) / 60else:gps_m = float(gps[1]) / 60#秒if '/' in gps[2]:sec = gps[2].split('/')if sec[0] == '0' or sec[1] == '0':gps_s = 0else:gps_s = (float(sec[0]) / float(sec[1])) / 3600else:gps_s = float(gps[2]) / 3600decimal_gps = gps_d + gps_m + gps_s#如果是南半球或是西半球if gps[3] == 'W' or gps[3] == 'S' or gps[3] == "83" or gps[3] == "87":return str(decimal_gps * -1)else:return str(decimal_gps)#读取图片的经纬度和拍摄时间
def imageread(path):f = open(path,'rb')GPS = {}Data = ""try:tags = exifread.process_file(f)except:return'''for tag in tags:print(tag,":",tags[tag])'''#南北半球标识if 'GPS GPSLatitudeRef' in tags:GPS['GPSLatitudeRef'] = str(tags['GPS GPSLatitudeRef'])else:GPS['GPSLatitudeRef'] = 'N' #缺省设置为北半球#东西半球标识if 'GPS GPSLongitudeRef'in tags:GPS['GPSLongitudeRef'] = str(tags['GPS GPSLongitudeRef'])else:GPS['GPSLongitudeRef'] = 'E' #缺省设置为东半球#海拔高度标识if 'GPS GPSAltitudeRef' in tags:GPS['GPSAltitudeRef'] = str(tags['GPS GPSAltitudeRef'])#获取纬度if 'GPS GPSLatitude' in tags:lat = str(tags['GPS GPSLatitude'])#处理无效值if lat == '[0, 0, 0]' or lat == '[0/0, 0/0, 0/0]':returndeg, minu, sec = [x.replace(' ', '') for x in lat[1:-1].split(',')]#将纬度转换为小数形式GPS['GPSLatitude'] = convert_to_decimal(deg, minu, sec,GPS['GPSLatitudeRef'])#获取经度if 'GPS GPSLongitude' in tags:lng = str(tags['GPS GPSLongitude'])#处理无效值if lng == '[0, 0, 0]' or lng == '[0/0, 0/0, 0/0]':returndeg, minu, sec = [x.replace(' ', '') for x in lng[1:-1].split(',')]#将经度转换为小数形式GPS['GPSLongitude'] = convert_to_decimal(deg, minu, sec,GPS['GPSLongitudeRef'])#对特殊的经纬度格式进行处理#获取海拔高度if 'GPS GPSAltitude' in tags:GPS['GPSAltitude'] = str(tags["GPS GPSAltitude"])#获取图片拍摄时间if 'Image DateTime' in tags:GPS["DateTime"] = str(tags["Image DateTime"])elif "EXIF DateTimeOriginal" in tags:GPS["DateTime"] = str(tags["EXIF DateTimeOriginal"])if 'GPSLatitude' in GPS:#将经纬度转换为地址convert_gps_to_address(GPS)#利用百度全球逆地理编码服务(Geocoder)Web API接口服务将经纬转换为位置信息
def convert_gps_to_address(GPS):secret_key = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'#百度密钥lat, lng = GPS['GPSLatitude'], GPS['GPSLongitude']#注意coordtype为wgs84ll(GPS经纬度),否则定位会出现偏差baidu_map_api = "http://api.map.baidu.com/geocoder/v2/?coordtype=wgs84ll&location={0},{1}&output=json&pois=0&ak={2}".format(lat,lng,secret_key)content = requests.get(baidu_map_api).textgps_address = json.loads(content)#结构化的地址formatted_address = gps_address["result"]["formatted_address"]#国家(若需访问境外POI,需申请逆地理编码境外POI服务权限)country = gps_address["result"]["addressComponent"]["country"]#省province = gps_address["result"]["addressComponent"]["province"]#城市city = gps_address["result"]["addressComponent"]["city"]#区district = gps_address["result"]["addressComponent"]["district"]#语义化地址描述sematic_description = gps_address["result"]["sematic_description"]#将转换后的信息写入文件with open("gps_address.csv","a+") as csv:csv.write(GPS["DateTime"] + "|" + formatted_address + "|" + country + "|" + province + "|" + city + "|" + district + "|" + sematic_description + "n")if __name__ == "__main__":get_pic_GPS("./photo/")
- 从网站下载多张照片,测试运行结果如下:
2017:07:27 22:02:52|天津市河东区长征路8号|中国|天津市|天津市|河东区|水利家园东79米
2018:10:28 17:53:32|广东省广州市天河区员村二横路|中国|广东省|广州市|天河区|程界子富新村内
2017:08:30 05:52:54|山东省济南市济阳县经四路|中国|山东省|济南市|济阳县|嘉景苑南
3. 某色情网站照片GPS批量提取
- 笔者无意中发现,互联网上传播的一些色情图片保留了完整的GPS等元数据信息。为了分析色情图片的拍摄位置,从某网站爬取了34万张少儿不宜的图片。利用上文中的程序进行分析,共获取了3000余张图片包含的经纬度信息,利用百度地图API接口转换成对应的精确地理位置信息。
photo.jpg - 经程序分析后获取的部分数据如下(多数位置信息能够精确所在的小区和酒店,以下结果对具体地址加*号处理):
2017:10:16 15:13:43|四川省成都市双流县华阳大道4段-200|中国|四川省|成都市|双流县|成都栢顿*大酒店内
2017:10:16 15:43:39|四川省成都市双流县华阳大道4段-200|中国|四川省|成都市|双流县|泊尔*酒店
2017:10:24 19:41:37|四川省成都市双流县华阳大道4段-200|中国|四川省|成都市|双流县|泊尔*酒店
2017:08:31 22:04:58|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
2017:08:31 22:05:20|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
2017:08:31 22:04:29|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
2017:08:31 22:07:36|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
2018:01:24 23:21:23|河南省许昌市长葛市铁东路|中国|河南省|许昌市|长葛市|幸*小区
2018:01:24 23:21:20|河南省许昌市长葛市铁东路|中国|河南省|许昌市|长葛市|幸*小区
018:08:31 22:56:52|广东省深圳市宝安区航城大道|中国|广东省|深圳市|宝安区|南航明*花园内
2018:11:14 21:43:42|广东省深圳市宝安区航城大道|中国|广东省|深圳市|宝安区|南航明*花园内
2018:06:21 21:43:45|辽宁省沈阳市于洪区中央大街|中国|辽宁省|沈阳市|于洪区|沈阳世纪高尔*俱乐部内
2018:08:23 19:04:38|辽宁省沈阳市大东区滂江街|中国|辽宁省|沈阳市|大东区|龙之*畅园内
2018:10:24 23:16:13|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
2018:10:24 23:12:40|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
2018:10:24 23:34:06|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
2018:10:24 23:12:30|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
2017:10:10 07:37:31|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
2017:10:10 07:37:36|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
2017:10:21 20:28:06|江苏省徐州市云龙区大工巷1号楼2楼|中国|江苏省|徐州市|云龙区|建*小区内
2017:10:21 20:22:25|江苏省徐州市云龙区大工巷1号楼2楼|中国|江苏省|徐州市|云龙区|建*小区内
2017:11:07 16:02:51|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
2017:11:07 16:02:50|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
2018:04:04 15:40:21|上海市宝山区春雷路372号|中国|上海市|上海市|宝山区|上海中*医院内
2018:04:04 15:40:14|上海市宝山区春雷路372号|中国|上海市|上海市|宝山区|上海中*医院内
2017:10:16 22:42:54|浙江省温州市永嘉县|中国|浙江省|温州市|永嘉县|西后村附近37米
2018:11:14 21:44:13|广东省深圳市宝安区宝安大道5005-9|中国|广东省|深圳市|宝安区|汇*居内
2013:05:13 00:20:17|四川省成都市成华区建设北路2段-4号|中国|四川省|成都市|成华区|电子科技大学(沙河校区)内
2017:10:30 11:47:33|广东省汕头市龙湖区长平路东段|中国|广东省|汕头市|龙湖区|汕头龙光喜来*酒店内,龙光世纪大厦南59米
2017:10:30 11:35:11|广东省汕头市龙湖区金环南路|中国|广东省|汕头市|龙湖区|汕头龙光喜来*酒店内,龙光世纪大厦内0米
2017:07:28 23:11:27|山东省济南市济阳县纬一路|中国|山东省|济南市|济阳县|雅*园-四区内
2017:07:29 05:20:51|山东省济南市济阳县纬一路|中国|山东省|济南市|济阳县|雅*园-四区内
2017:07:28 23:12:03|山东省济南市济阳县纬一路|中国|山东省|济南市|济阳县|雅*园-四区内
2018:01:09 13:14:27|河北省沧州市任丘市燕山南道|中国|河北省|沧州市|任丘市|源*美璟商业广场内,源*大酒店内
2017:12:31 11:28:04|浙江省杭州市江干区秋涛北路38号|中国|浙江省|杭州市|江干区|浙江大学医学院附属邵逸夫医院(庆春院区)西南298米
2017:12:31 11:24:09|浙江省杭州市江干区秋涛北路52号3023|中国|浙江省|杭州市|江干区|杭州钱*精品酒店内
2018:01:13 10:47:13|浙江省杭州市上城区浣纱路18号|中国|浙江省|杭州市|上城区|浙江烟草大楼东54米
2017:12:31 11:30:59|浙江省杭州市江干区秋涛北路52号3023|中国|浙江省|杭州市|江干区|杭州钱*精品酒店内
2018:06:21 21:43:45|辽宁省沈阳市于洪区中央大街|中国|辽宁省|沈阳市|于洪区|沈阳世纪高*俱乐部内
2018:08:23 19:04:38|辽宁省沈阳市大东区滂江街|中国|辽宁省|沈阳市|大东区|龙之*畅园内
2018:10:24 23:16:13|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
2018:10:24 23:12:40|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
2018:10:24 23:34:06|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
2018:10:24 23:12:30|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
2017:08:07 21:47:14|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
2017:05:01 23:17:23|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
2017:05:01 22:56:49|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
2017:05:01 23:13:07|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
2017:09:15 09:29:44|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|滹*小区西69米
2017:09:15 09:25:36|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|泘*小学内
2017:09:15 09:27:12|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|滹*锦绣-北区内
2017:09:15 09:25:38|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|泘沱小学内
2018:08:23 23:06:26|福建省南平市建阳市黄溪路93号|中国|福建省|南平市|建阳市|金*大酒店(上水南路店)内
2017:09:15 21:53:39|四川省成都市成华区和锦路|中国|四川省|成都市|成华区|成都*畔生活酒店(成都火车东站魅力店)
2017:06:30 23:22:51|福建省福州市闽侯县广贤路|中国|福建省|福州市|闽侯县|福建华南*职业学院(旗山校区)内
2017:12:04 00:32:06|福建省福州市仓山区永南路|中国|福建省|福州市|仓山区|领*新城内
2017:08:06 10:07:41|四川省成都市新都区詹家湾路|中国|四川省|成都市|新都区|润*花园内
4. 拍摄位置分析
- 拍摄地分析
- 利用python的科学库numpy、数据分析库panda、绘图库matplotlib和数据可视化库pyecharts,对获取的不良图片拍摄位置数据进行处理,分析不良图片拍摄地分布情况。
- 本文进对数据进行粗略分析,展示结果仅作一般性观察分析,不代表笔者任何观点和倾向。
#代码在notebook中执行
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif'] = ['Simhei']
df = pd.read_csv('gps_address.csv',sep='|')
fig = plt.figure(figsize=(15,20))
data = df["province"].value_counts()
num_of_province = data.values
plt.barh(range(len(num_of_province),0,-1),num_of_province,height=0.7,color='steelblue',alpha=0.8)
plt.title("各省分布情况",fontsize=20)
plt.xlabel("数量",fontsize=15)
plt.ylim(0,len(num_of_province)+1)
plt.yticks(range(len(num_of_province),0,-1),data.index,fontsize=15)
for x,y in enumerate(np.sort(num_of_province)):plt.text(y + 0.5,x + 0.9,'%s' % y,fontsize=18 )
plt.show()
province.png
fig = plt.figure(figsize=(15,40))
data = df["city"].value_counts()
num_of_city = data.values
plt.barh(range(len(num_of_city),0,-1),num_of_city,height=0.8,color='steelblue',alpha=0.8)
plt.title("城市分布情况",fontsize=20)
plt.xlabel("数量",fontsize=15)
plt.yticks(range(len(num_of_city),0,-1),data.index,fontsize=15)
plt.ylim(0,len(num_of_city)+2)
for x,y in enumerate(np.sort(num_of_city)):plt.text(y +0.2,x + 0.8,'%s' % y,fontsize=18 )
plt.show()
city.png
- 各省分布情况地图展示
from pyecharts import Map, Geo
import re
provinces = list(df["province"].value_counts().index)
provinces = [re.sub("壮族自治区|自治区|省|市","",x) for x in provinces]
print(provinces)pro_values = list(df["province"].value_counts().values)
city = list(df["province"].value_counts().index)
city_values = list(df["province"].value_counts().values)geo = Geo("各省分布情况", "", title_color="#fff",title_pos="center", width=1000,height=600, background_color='#404a59')
geo.add("", provinces, pro_values, visual_range=[0, 200], maptype='china',visual_text_color="#fff",symbol_size=10, is_visualmap=True)geo
各省分布情况.png
- 城市分布情况地图展示
city = list(df["city"].value_counts().index)
city= [re.sub("白族自治州|市","",x) for x in city]
city_values = list(df["city"].value_counts().values)
geo = Geo("城市分布情况", "", title_color="#fff",title_pos="center", width=1000,height=600, background_color='#404a59')
geo.add("", city, city_values, visual_range=[0, 200], maptype='china',visual_text_color="#fff", symbol_size=10, is_visualmap=True)
geo
城市分布情况.png