from google.colab import drive
drive.mount('/content/drive')

# importing all the required basic modules

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

#!pip install shap

# importing few other required modules

import shap
import xgboost

from sklearn.externals import joblib

clf_load = joblib.load('pima.pickle.dat')

# compute SHAP values
explainer = shap.TreeExplainer(clf_load)

# load JS visualization code to notebook
shap.initjs()

fp_data = pd.read_csv("fp.csv")
fn_data = pd.read_csv("fn.csv")

fp_data.head()

data = fp_data.iloc[:,3:]

data.head()

# compute SHAP values
shap_values = explainer.shap_values(data)

shap.summary_plot(shap_values, data)

shap.summary_plot(shap_values, data, plot_type="bar")

shap.initjs()

# visualize the first prediction's explanation (use matplotlib=True to avoid Javascript)
shap.force_plot(explainer.expected_value, shap_values[0,:], data.iloc[0,:])

shap.initjs()

# visualize the training set predictions
shap.force_plot(explainer.expected_value, shap_values, data)

# create a SHAP dependence plot to show the effect of a single feature across the whole dataset
shap.dependence_plot("mc_url_parts_std_prob", shap_values, data)

# sort the features indexes by their importance in the model
# (sum of SHAP value magnitudes over the validation dataset)
top_inds = np.argsort(-np.sum(np.abs(shap_values), 0))

# make SHAP plots of the three most important features
for i in range(20):
    shap.dependence_plot(top_inds[i], shap_values, data)

fn_data.head()

data = fn_data.iloc[:,3:]

data.head()

# compute SHAP values
shap_values = explainer.shap_values(data)

shap.summary_plot(shap_values, data)

shap.summary_plot(shap_values, data, plot_type="bar")

shap.initjs()

# visualize the first prediction's explanation (use matplotlib=True to avoid Javascript)
shap.force_plot(explainer.expected_value, shap_values[0,:], data.iloc[0,:])

shap.initjs()

# visualize the training set predictions
#shap.force_plot(explainer.expected_value, shap_values, data)

# create a SHAP dependence plot to show the effect of a single feature across the whole dataset
shap.dependence_plot("domain_length", shap_values, data)

# sort the features indexes by their importance in the model
# (sum of SHAP value magnitudes over the validation dataset)
top_inds = np.argsort(-np.sum(np.abs(shap_values), 0))

# make SHAP plots of the three most important features
for i in range(20):
    shap.dependence_plot(top_inds[i], shap_values, data)

	Unnamed: 0	url	cert_extendedKeyUsage_other	cert_extendedKeyUsage_TLS_Web_Client_Authentication	cert_keyUsage_other	cert_keyUsage_Key_Encipherment	cert_keyUsage_Digital_Signature	cert_muti_domain_cert	cert_wildcard_domain	cert_validty_period_days	...	edu.cu	dp.ua	yt	com.pa	cool	police.uk	others	web	mail	webmail
0	25378	development-software.goalkeeping-development.com	False	True	False	True	True	False	False	90	...	False	False	False	False	False	False	False	False	False	False
1	91985	sitescrack.bid	False	True	False	False	True	True	True	190	...	False	False	False	False	False	False	False	False	False	False
2	196067	vinogradnik-dashevskih.com	False	True	False	True	True	False	False	90	...	False	False	False	False	False	False	False	False	False	False
3	279980	inkubator-teknologi.com	False	True	False	True	True	False	False	90	...	False	False	False	False	False	False	False	False	False	False
4	341944	happybirthdaywishes-images.com	False	True	False	True	True	False	False	90	...	False	False	False	False	False	False	False	False	False	False

	cert_extendedKeyUsage_TLS_Web_Client_Authentication	cert_keyUsage_other	cert_keyUsage_Key_Encipherment	cert_keyUsage_Digital_Signature	cert_muti_domain_cert	cert_wildcard_domain	cert_validty_period_days	cert_num_domains	cert_num_distinct_domains	cert_age	...	edu.cu	dp.ua	yt	com.pa	cool	police.uk	others	web	mail	webmail
0	True	False	True	True	False	False	90	1	1	309	...	False	False	False	False	False	False	False	False	False	False
1	True	False	False	True	True	True	190	83	42	328	...	False	False	False	False	False	False	False	False	False	False
2	True	False	True	True	False	False	90	2	1	325	...	False	False	False	False	False	False	False	False	False	False
3	True	False	True	True	False	False	90	6	1	319	...	False	False	False	False	False	False	False	False	False	False
4	True	False	True	True	False	False	90	3	1	181	...	False	False	False	False	False	False	False	False	False	False

	Unnamed: 0	url	cert_extendedKeyUsage_other	cert_extendedKeyUsage_TLS_Web_Client_Authentication	cert_keyUsage_other	cert_keyUsage_Key_Encipherment	cert_keyUsage_Digital_Signature	cert_muti_domain_cert	cert_wildcard_domain	cert_validty_period_days	...	edu.cu	dp.ua	yt	com.pa	cool	police.uk	others	web	mail	webmail
0	938	trycoba.uk	False	True	False	True	True	False	False	90	...	False	False	False	False	False	False	False	False	False	False
1	1754	pitchinside.saversites.com	False	True	False	True	True	False	False	90	...	False	False	False	False	False	False	False	False	False	False
2	4718	webdisk.personalmasterynow.com	False	True	False	True	True	True	False	90	...	False	False	False	False	False	False	False	True	False	False
3	9366	runners-cache-5.gitlab.com	False	True	False	True	True	False	False	365	...	False	False	False	False	False	False	False	False	False	False
4	9444	webdisk.techkesho.com	False	True	False	True	True	False	False	90	...	False	False	False	False	False	False	False	True	False	False

	cert_extendedKeyUsage_TLS_Web_Client_Authentication	cert_keyUsage_other	cert_keyUsage_Key_Encipherment	cert_keyUsage_Digital_Signature	cert_muti_domain_cert	cert_wildcard_domain	cert_validty_period_days	cert_num_domains	cert_num_distinct_domains	cert_age	...	edu.cu	dp.ua	yt	com.pa	cool	police.uk	others	web	mail	webmail
0	True	False	True	True	False	False	90	2	1	262	...	False	False	False	False	False	False	False	False	False	False
1	True	False	True	True	False	False	90	15	1	187	...	False	False	False	False	False	False	False	False	False	False
2	True	False	True	True	True	False	90	8	2	233	...	False	False	False	False	False	False	False	True	False	False
3	True	False	True	True	False	False	365	2	1	213	...	False	False	False	False	False	False	False	False	False	False
4	True	False	True	True	False	False	90	6	1	369	...	False	False	False	False	False	False	False	True	False	False