在本文中,您将学习如何使用 Python 和 Dash 框架创建一个仪表板,以可视化 Netflix 的内容分发和分类。
数据集分析现在您已经熟悉了达世币,让我们开始我们的动手项目。您将使用由 Shivam Bansal 创建的 Kaggle 上提供的 Netflix 电影和电视节目数据集。
此数据集包含截至 2021 年 Netflix 上可用的电影和电视节目的详细信息,例如内容类型、标题、导演、演员、制作国家/地区、发行年份、评级、时长等。
尽管该数据集是在 2021 年创建的,但它仍然是开发数据可视化技能和了解媒体娱乐趋势的宝贵资源。
内容分类:此可视化将 Netflix 的内容分为电影和电影,以查看哪些类型最突出。
让我们开始为名为 netflix-dashboard 的项目创建目录,然后通过以下命令初始化并激活 Python 虚拟环境:
# Linux & MacOS mkdir netflix-dashboard && cd netflix-dashboard python3 -m venv netflix-venv && source netflix-venv/bin/activate
# Windows Powershell mkdir netflix-dashboard && cd netflix-dashboard python -m venv netflix-venv && .\netflix-venv\Scripts\activate
# Linux & MacOS pip3 install pandas dash plotly dash-bootstrap-components
# Windows Powershell pip install pandas dash plotly dash-bootstrap-components清理数据集
浏览 Netflix 数据集,您会在 、 和 列中找到缺失的值。将列值转换为以便于分析也很方便。directorcastcountrydate_addedstringdatetime
import pandas as pd # Load the dataset df = pd.read_csv('netflix_titles.csv') # Fill missing values df['director'].fillna('No director', inplace=True) df['cast'].fillna('No cast', inplace=True) df['country'].fillna('No country', inplace=True) # Drop missing and duplicate values df.dropna(inplace=True) df.drop_duplicates(inplace=True) # Strip whitespaces from the `date_added` col and convert values to `datetime` df['date_added'] = pd.to_datetime(df['date_added'].str.strip()) # Save the cleaned dataset df.to_csv('netflix_titles.csv', index=False)Dash入门
设置工作区并清理数据集后,即可开始处理仪表板。使用以下代码创建一个新的文件 app.py:
from dash import Dash, dash_table, html import pandas as pd # Initialize a Dash app app = Dash(__name__) # Define the app layout app.layout = html.Div([ html.H1('Netflix Movies and TV Shows Dashboard'), html.Hr(), ]) # Start the Dash app in local development mode if __name__ == '__main__': app.run_server(debug=True)
让我们在 app.py 中分解代码:
app = Dash(__name__):此行初始化一个新的达世币应用程序。将其视为应用程序的基础。
app.layout = html.Div(…):该属性允许您编写类似 HTML 的代码来设计应用程序的用户界面。上面的布局使用仪表板标题的标题元素和标题下方的水平规则元素。app.layouthtml.H1(…)html.Hr()
运行 app.py 后,您将在终端中看到一条消息,指示您的达世币应用程序正在运行, 即可访问。在 Web 浏览器中打开此 URL 以查看它:
让我们继续修改 app.py 的内容以合并 DBC:
from dash import Dash,dcc, html import pandas as pd import dash_bootstrap_components as dbc # Initialize the Dash app and import the Bootstrap theme to style the dashboard app = Dash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP]) app.layout = dbc.Container( [ dcc.Store(id='store'), html.H1('Netflix Movies and TV Shows Dashboard'), html.Hr(), dbc.Tabs( [ dbc.Tab(label='Geographical content distribution', tab_id='tab1'), dbc.Tab(label='Content classification', tab_id='tab2'), ], id='tabs', active_tab='tab1', ), html.Div(id='tab-content', className='p-4'), ] ) if __name__ == '__main__': app.run(debug=True)
dcc.Store:此Dash Core组件允许您在客户端(在用户的浏览器上)存储数据,通过将数据保存在本地来提高应用程序的性能。
dbc.Tabs和 :每个表示一个单独的选项卡,该选项卡将包含不同的可视化效果。该属性是显示在选项卡本身上的内容,用于标识选项卡。的属性用于指定达世币应用程序启动时的活动选项卡。dbc.Tabdbc.Tablabeltab_idactive_tabdbc.Tabs
现在运行 app.py。 生成的仪表板现在将具有具有两个空选项卡的引导样式布局:
在此仪表板中,您将使用回调在所选选项卡中呈现相关可视化效果,并且每个可视化效果将存储在其自己的 Python 文件中的新组件目录下,以便更好地组织和模块化项目结构。
地理内容分布可视化让我们创建一个名为 components 的新目录,并在其中创建 geographical_content.py 文件,该文件将生成一个分区统计图,说明 Netflix 的内容制作多年来因国家/地区而异:
import pandas as pd import plotly.express as px from dash import dcc, html df = pd.read_csv('netflix_titles.csv') # Filter out entries without country information and if there are multiple production countries, # consider the first one as the production country df['country'] = df['country'].str.split(',').apply(lambda x: x[0].strip() if isinstance(x, list) else None) # Extract the year from the date_added column df['year_added'] = pd.to_datetime(df['date_added']).dt.year df = df.dropna(subset=['country', 'year_added']) # Compute the count of content produced by each country for each year df_counts = df.groupby(['country', 'year_added']).size().reset_index(name='count') # Sort the DataFrame by 'year_added' to ensure the animation frames are in ascending order df_counts = df_counts.sort_values('year_added') # Create the choropleth map with a slider for the year fig1 = px.choropleth(df_counts, locations='country', locationmode='country names', color='count', hover_name='country', animation_frame='year_added', projection='natural earth', title='Content produced by countries over the years', color_continuous_scale='YlGnBu', range_color=[0, df_counts['count'].max()]) fig1.update_layout(width=1280, height=720, title_x=0.5) # Compute the count of content produced for each year by type and fill zeros for missing type-year pairs df_year_counts = df.groupby(['year_added', 'type']).size().reset_index(name='count') # Create the line chart using plotly express fig2 = px.line(df_year_counts, x='year_added', y='count', color='type', title='Content distribution by type over the years', markers=True, color_discrete_map={'Movie': 'dodgerblue', 'TV Show': 'darkblue'}) fig2.update_traces(marker=dict(size=12)) fig2.update_layout(width=1280, height=720, title_x=0.5) layout = html.Div([ dcc.Graph(figure=fig1), html.Hr(), dcc.Graph(figure=fig2) ])
上面的代码按 和 对数据进行筛选和分组,然后计算数据帧中每个国家/地区每年生成的内容计数。'country''year_added'df_counts
locationmode='country names':此参数“告诉函数”提供的是国家/地区名称,因为 Plotly Express 还支持其他位置模式,如 ISO-3 国家/地区代码或美国州。locations
color_continous_scale='YlGnBu':当 表示的列包含数值数据时,为地图中的每个国家/地区构建连续色阶。color
projection='natural earth':此参数不使用数据帧中的任何列;但是,该值是使用地球世界地图设置投影所必需的。df_counts'natural earth'
然后,此分组数据与 其中 和 参数分别分配给 和 列,并将参数设置为 以区分电视节目和电影。px.line'x''y''year_added''count''color''type'
内容分类可视化下一步是创建一个名为 content_classification.py 的新文件,该文件将生成一个树状图,从类型和类型的角度可视化 Netflix 的内容:
import pandas as pd import plotly.express as px from dash import dcc, html df = pd.read_csv('netflix_titles.csv') # Split the listed_in column and explode to handle multiple genres df['listed_in'] = df['listed_in'].str.split(', ') df = df.explode('listed_in') # Compute the count of each combination of type and genre df_counts = df.groupby(['type', 'listed_in']).size().reset_index(name='count') fig = px.treemap(df_counts, path=['type', 'listed_in'], values='count', color='count', color_continuous_scale='Ice', title='Content by type and genre') fig.update_layout(width=1280, height=960, title_x=0.5) fig.update_traces(textinfo='label+percent entry', textfont_size=14) layout = html.Div([ dcc.Graph(figure=fig), ])
接下来,创建数据帧以按 和列对数据进行分组,并计算每个类型组合的计数。df_counts'type''listed_in'
path=['type', 'listed_in']:这些是树状图中表示的层次结构类别。和列分别包含内容类型(电视节目或电影)和类型。'type''listed_in'
color_continous_scale='Ice':当表示 的列包含数值数据时,为树状图中的每个矩形构建连续色阶。color
netflix-dashboard ├── app.py ├── clean_netflix_dataset.py ├── components │ ├── content_classification.py │ └── geographical_content.py ├── netflix-venv │ ├── bin │ ├── etc │ ├── include │ ├── lib │ ├── pyvenv.cfg │ └── share └── netflix_titles.csv实现回调
最后一步是修改 app.py 以导入组件目录中的两个新可视化效果,并实现回调函数以在选择选项卡时呈现图形:
from dash import Dash, dcc, html, Input, Output import dash_bootstrap_components as dbc from components import ( geographical_content, content_classification ) app = Dash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP]) app.layout = dbc.Container( [ dcc.Store(id='store'), html.H1('Netflix Movies and TV Shows Dashboard'), html.Hr(), dbc.Tabs( [ dbc.Tab(label='Geographical content distribution', tab_id='tab1'), dbc.Tab(label='Content classification', tab_id='tab2'), ], id='tabs', active_tab='tab1', ), html.Div(id='tab-content', className='p-4'), ] ) # This callback function switches between tabs in a dashboard based on user selection. # It updates the 'tab-content' component with the layout of the newly selected tab. @app.callback(Output('tab-content', 'children'), [Input('tabs', 'active_tab')]) def switch_tab(at): if at == 'tab1': return geographical_content.layout elif at == 'tab2': return content_classification.layout if __name__ == '__main__': app.run(debug=True)
每当更改时,都会触发该函数。此函数检查 id 并返回要在 Div 中呈现的相应布局,如对象所示。因此,当您切换选项卡时,将显示相关的可视化效果。'active_tab'switch_tab'active_tab''tab-content'Output
最后,再次运行 app.py 以查看包含新可视化效果的更新仪表板:
Netflix 电影和电视节目仪表板 — 最终结果
本文介绍了如何创建仪表板来探索和可视化 Netflix 的内容分发和分类。通过利用Python和Dash的强大功能,您现在可以创建自己的可视化,为数据提供宝贵的见解。
您可以在以下 GitHub 存储库中查看此项目的完整代码:https://github.com/gutyoh/netflix-dashboard
原文链接:使用 Python 和 dash 创建仪表板 (mvrlink.com)