Python – Hill's Logs

2018 年 9 月 20 日2018 年 10 月 17 日

在Ubuntu上安装Chrome浏览器和ChromeDriver

一.安装Chrome浏览器

1.安装依赖

1	sudo apt-get install libxss1 libappindicator1 libindicator7

2.下载Chrome安装包

1	wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

3.安装

1 2	sudo dpkg -i google-chrome*.deb sudo apt-get install -f

二.安装ChromeDriver

1.安装xvfb以便我们可以无头奔跑地运行Chrome

1	sudo apt-get install xvfb

2.安装依赖

1	sudo apt-get install unzip

3.下载安装包

1	wget -N http://chromedriver.storage.googleapis.com/对应版本/chromedriver_linux64.zip

chromedriver与chrome的对应关系表：
各个版本的下载地址：淘宝镜像

chromedriver版本	支持的Chrome版本
v2.41	v67-69
v2.40	v66-68
v2.39	v66-68
v2.38	v65-67
v2.37	v64-66
v2.36	v63-65
v2.35	v62-64
v2.34	v61-63
v2.33	v60-62
v2.32	v59-61
v2.31	v58-60
v2.30	v58-60
v2.29	v56-58
v2.28	v55-57
v2.27	v54-56
v2.26	v53-55
v2.25	v53-55
v2.24	v52-54
v2.23	v51-53
v2.22	v49-52
v2.21	v46-50
v2.20	v43-48
v2.19	v43-47
v2.18	v43-46
v2.17	v42-43
v2.13	v42-45
v2.15	v40-43
v2.14	v39-42
v2.13	v38-41
v2.12	v36-40
v2.11	v36-40
v2.10	v33-36
v2.9	v31-34
v2.8	v30-33
v2.7	v30-33
v2.6	v29-32
v2.5	v29-32
v2.4	v29-32

4.解压缩+添加执行权限

1	unzip chromedriver_linux64.zip

5.移动

1	sudo mv -f chromedriver /usr/local/share/chromedriver

6.建立软连接

1 2	sudo ln -s /usr/local/share/chromedriver /usr/local/bin/chromedriver sudo ln -s /usr/local/share/chromedriver /usr/bin/chromedriver

三.无头运行Chrome

1.安装Python依赖

1 2	pip3 install selenium pip3 install pyvirtualdisplay

2.开整

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get(url)
iframe=driver.find_elements_by_tag_name('iframe')
    if len(iframe)>0:
        iframe = iframe[0]
        driver.switch_to.frame(iframe)
        ibody = driver.find_elements_by_tag_name('body')
        if len(ibody)>0:
            ibody=ibody[0]
            video =ibody.find_element_by_tag_name('video')
            if video is not None:
                src = video.get_attribute("src")
                if src != "" and src is not None:
                    res = {'src':src}
                    return str(res)

2018 年 9 月 7 日2018 年 10 月 17 日

初学数据挖掘-相似性度量

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94

# -*- coding:utf-8 -*-
critics = {'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5,'The Night Listener': 3.0},
                'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5, 'Just My Luck': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0, 'You, Me and Dupree': 3.5},
                'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0, 'Superman Returns': 3.5, 'The Night Listener': 4.0},
                'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'The Night Listener': 4.5, 'Superman Returns': 4.0, 'You, Me and Dupree': 2.5},
                'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0, 'You, Me and Dupree': 2.0},
                'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5},
                'Toby': {'Snakes on a Plane': 4.5, 'You, Me and Dupree': 1.0, 'Superman Returns': 4.0},
                'Yu':{'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5,'The Night Listener': 3.0}}

from math import sqrt
print u"距离与相关系数：它们之间是相反的，若距离越短（距离的数值越小），则相似度越大（相似度的数值越大）"
# 欧几里得距离
def sim_distance(prefs, person1, person2):
    # 得到两者同时评价过的电影的列表
    si = { }
    for item in prefs[person1]:
        if item in prefs[person2]:
            si[item] = 1
    # 若不存在同时评价过的电影则返回0
    if len(si) == 0 :   return 0

    # 计算所有差值的平方和
    sum_of_squares = sum([pow(prefs[person1][item] - prefs[person2][item], 2)
                                        for item in prefs[person1] if item in prefs[person2]])     # sum()函数中的参数是一个list，sum([item for item in a if item in b])

    return 1 / (1+sqrt(sum_of_squares))
print u"欧几里得距离（最后给出的数值，实际上是给出了相似度评价）："
print(sim_distance(critics, 'Lisa Rose', 'Gene Seymour'))

# 皮尔逊相关系数
def sim_pearson(prefs, p1, p2):
    si = { }
    for item in prefs[p1]:
        if item in prefs[p2]:
            si[item] = 1
    n = len(si)
    if n == 0:
        return 1    #如果两者不存在同时评论过的电影时，返回1

    #对所有偏好求和
    sum1 = sum([prefs[p1][it] for it in si])
    sum2 = sum([prefs[p2][it] for it in si])
    #求平方和
    sum1Sq = sum([pow(prefs[p1][it], 2) for it in si])
    sum2Sq = sum([pow(prefs[p2][it], 2) for it in si])
    #求乘积之和
    pSum = sum([prefs[p1][it] * prefs[p2][it] for it in si])

    #计算皮尔逊评价值
    num = pSum - (sum1 * sum2 / n)
    den = sqrt((sum1Sq-pow(sum1, 2)/n) * (sum2Sq-pow(sum2, 2)/n))

    if den == 0: return 0
    r =  num/den

    return r

print u"皮尔逊相关系数："
print (sim_pearson(critics, 'Lisa Rose', 'Gene Seymour'))

# Jaccard相似度（狭义）——只能用于判断两者之间是否一致，而不能根据其评分来判定相似度
def sim_jaccard(prefs, per1, per2):
    si_union = { }  #并集
    si_inter = { }  #交集
    si_union = dict(prefs[per1], **prefs[per2])

    for item in  prefs[per1]:
        if item in prefs[per2]:
            si_inter[item] = min(prefs[per1][item], prefs[per2][item])

    sum1 = len(si_inter)
    sum2 = len(si_union)

    if (sum2 == 0): return 0

    r = float(sum1) / sum2
    return r

print u"Jaccard相似度（狭义）——只能用于判断两者之间是否一致，而不能根据其评分来判定相似度："
print sim_jaccard(critics, 'Lisa Rose', 'Gene Seymour')

#曼哈顿距离（城市街区距离  ）
def sim_manhattan(prefs, p1, p2):
    si = { }
    for item in p1:
        if item in p2: si[item] = 1
    if len(item) == 0: return 1

    sum_of_minus = sum([abs(prefs[p1][item] - prefs[p2][item])
                                        for item in prefs[p1] if item in prefs[p2]])
    return 1 / (sum_of_minus+1)
print u"曼哈顿距离（最后得到的数值也是相似度）："
print sim_manhattan(critics, 'Lisa Rose', 'Gene Seymour')

2018 年 9 月 7 日2018 年 10 月 17 日

各种相似度计算的python实现

前言
在数据挖掘中有很多地方要计算相似度，比如聚类分析和协同过滤。计算相似度的有许多方法，其中有欧几里德距离、曼哈顿距离、Jaccard系数和皮尔逊相关度等等。我们这里把一些常用的相似度计算方法，用python进行实现以下。如果是初学者，我认为把公式先写下来，然后再写代码去实现比较好。

欧几里德距离
几个数据集之间的相似度一般是基于每对对象间的距离计算。最常用的当然是欧几里德距离

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

#-*-coding:utf-8 -*-

#计算欧几里德距离：
def euclidean(p,q):
#如果两数据集数目不同，计算两者之间都对应有的数
same = 0
for i in p:
if i in q:
same +=1

#计算欧几里德距离,并将其标准化
e = sum([(p[i] - q[i])**2 for i in range(same)])
return 1/(1+e**.5)
我们用数据集可以去算一下：

p = [1,3,2,3,4,3]
q = [1,3,4,3,2,3,4,3]
print euclidean(p,q)

得出结果是：0.261203874964

皮尔逊相关度
几个数据集中出现异常值的时候，欧几里德距离就不如皮尔逊相关度‘稳定’，它会在出现偏差时倾向于给出更好的结果。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

-*-coding:utf-8 -*-

#计算皮尔逊相关度：
def pearson(p,q):
#只计算两者共同有的
    same = 0
    for i in p:
        if i in q:
            same +=1

    n = same
    #分别求p，q的和
    sumx = sum([p[i] for i in range(n)])
    sumy = sum([q[i] for i in range(n)])
    #分别求出p，q的平方和
    sumxsq = sum([p[i]**2 for i in range(n)])
    sumysq = sum([q[i]**2 for i in range(n)])
    #求出p，q的乘积和
    sumxy = sum([p[i]*q[i] for i in range(n)])
    # print sumxy
    #求出pearson相关系数
    up = sumxy - sumx*sumy/n
    down = ((sumxsq - pow(sumxsq,2)/n)*(sumysq - pow(sumysq,2)/n))**.5
    #若down为零则不能计算，return 0
    if down == 0 :return 0
    r = up/down
    return r

用同样的数据集去计算：

1
2
3

p = [1,3,2,3,4,3]
q = [1,3,4,3,2,3,4,3]
print pearson(p,q)

得出结果是：0.00595238095238

曼哈顿距离
曼哈顿距离是另一种相似度计算方法，不是经常需要，但是我们仍然学会如何用python去实现，其公式为：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

#-*-coding:utf-8 -*-

#计算曼哈顿距离：
def manhattan(p,q):
#只计算两者共同有的
    same = 0
    for i in p:
        if i in q:
        same += 1
#计算曼哈顿距离
    n = same
    vals = range(n)
    distance = sum(abs(p[i] - q[i]) for i in vals)
    return distance
用以上的数据集去计算：

p = [1,3,2,3,4,3]
q = [1,3,4,3,2,3,4,3]
print manhattan(p,q)

得出结果为4

Jaccard系数
当数据集为二元变量时，我们只有两种状态：0或者1。这个时候以上的计算相似度的方法就无法派上用场，于是我们引出Jaccard系数，这是一个能够表示两个数据集都是二元变量（也可以多元）的相似度的指标

1
2
3
4
5
6

#-*-coding:utf-8 -*-

# 计算jaccard系数
def jaccard(p,q):
c = [a for i in p if v in b]
return float(len(c))/(len(a)+len(b)-len(b))

#注意：在使用之前必须对两个数据集进行去重
我们用一些特殊的数据集去测试一下：

1
2
3

p = ['shirt','shoes','pants','socks']
q = ['shirt','shoes']
print jaccard(p,q)

得出结果是:0.5

Tanimoto系数
Tanimoto系数是一种度量两个集合之间相似程度的方法（与Jaccard 系数相似，但不是完全相同）。其主要用于二元变量或者多元变量之间的数据集之间的相似度计算

1 2	#--coding:utf-8--def tanimoto(p,q): c = [v for v in p if v in q] return float(len(c) / (len(a) + len(b) - len(c)))

当比较的数据集的数据集合中的元素都是相异的时候，Jaccard系数与Tanimoto系数相同。

2026 年 7 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31