Hoàn thiện phần mềm crawl data từ website howkteam.com

Crawl data từ website howkteam với Regex và Http Client trên C# WPF

5.0 (1 đánh giá)
Tạo bởi Kteam Cập nhật lần cuối 09:05 18-11-2021 16.352 lượt xem 0 bình luận
Tác giả/Dịch giả: Kteam
Học nhanh

Danh sách bài học

Hoàn thiện phần mềm crawl data từ website howkteam.com

Dẫn nhập

Với những ứng dụng mạnh mẽ của REGEX  và WPF. Cộng với khả năng lấy dữ liệu từ website bất kì với Http Client. Thì chuyện làm ra một ứng dụng CRAWL DATA từ một website như Howkteam.com là quá đơn giản.

Serial này sẽ là bài tập đầu tiên về Regular expression cho các bạn luyện tập!


Nội dung

Nội dung hiện tại mang tính tạm thời đáp ứng nhu cầu xem & cập nhập kiến thức cơ bản thông qua Video hướng dẫn.

Nội dung chi tiết của khóa học CRAWL DATA TỪ HOWKTEAM.COM đang trong quá trình xây dựng một cách kỹ lưỡng nhằm đảm bảo chất lượng và sẽ được cập nhập liên tục trong thời gian tới.

Các bạn nhớ theo dõi và luôn ủng hộ Kteam nhé!

Để theo dõi tốt khóa học này, hãy đảm bảo bạn đã xem qua kiến thức về


Project tham khảo

Code MainWindow.xaml

<Window x:Class="CrawlDataFromHowKteam.MainWindow"
        xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
        xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
        xmlns:d="http://schemas.microsoft.com/expression/blend/2008"
        xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006"
        xmlns:local="clr-namespace:CrawlDataFromHowKteam"
        mc:Ignorable="d"
        Title="MainWindow" 
        WindowState="Maximized"
        >
    <Grid>
        <Grid.RowDefinitions>
            <RowDefinition Height="auto"></RowDefinition>
            <RowDefinition></RowDefinition>
        </Grid.RowDefinitions>
        <Grid.ColumnDefinitions>
            <ColumnDefinition Width="250" MinWidth="250"></ColumnDefinition>
            <ColumnDefinition Width="5"></ColumnDefinition>
            <ColumnDefinition MinWidth="200"></ColumnDefinition>
        </Grid.ColumnDefinitions>
        <Grid Grid.Column="0" Grid.Row="0">
            <Button Click="Button_Click_1">Load data</Button>
        </Grid>       

        <GridSplitter HorizontalAlignment="Stretch" Grid.Column="1" Grid.RowSpan="2"></GridSplitter>
        <TreeView x:Name="treeMain" Grid.Column="0" Grid.Row="1">
            <TreeView.ItemTemplate>
                <HierarchicalDataTemplate ItemsSource="{Binding Items}">

                    <TextBlock Margin="5 5 5 5" PreviewMouseDown="TextBlock_PreviewMouseDown" Foreground="Blue" Text="{Binding Name}" Tag="{Binding URL}"></TextBlock>

                </HierarchicalDataTemplate>
            </TreeView.ItemTemplate>
        </TreeView>
        <WebBrowser Grid.RowSpan="2" Navigated="wbMain_Navigated" x:Name="wbMain" Grid.Column="2" Grid.Row="0"></WebBrowser>
    </Grid>
</Window>

Code MainWindow.xaml.cs

using System;
using System.Collections.Generic;
using System.Collections.ObjectModel;
using System.Diagnostics;
using System.Linq;
using System.Net;
using System.Net.Http;
using System.Reflection;
using System.Runtime.InteropServices;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
using System.Windows;
using System.Windows.Controls;
using System.Windows.Data;
using System.Windows.Documents;
using System.Windows.Input;
using System.Windows.Media;
using System.Windows.Media.Imaging;
using System.Windows.Navigation;
using System.Windows.Shapes;

namespace CrawlDataFromHowKteam
{
    /// <summary>
    /// Interaction logic for MainWindow.xaml
    /// </summary>
    public partial class MainWindow : Window
    {
        #region properties
        ObservableCollection<MenuTreeItem> TreeItems;
        string HomePage = "https://www.howkteam.com/";

        HttpClient httpClient;
        HttpClientHandler handler;
        CookieContainer cookie = new CookieContainer();


        #endregion
        public MainWindow()
        {
            InitializeComponent();

            IniHttpClient();            

            TreeItems = new ObservableCollection<MenuTreeItem>();            
            treeMain.ItemsSource = TreeItems;
        }

        #region methods
        void IniHttpClient()
        {
            handler = new HttpClientHandler
            {
                CookieContainer = cookie,
                ClientCertificateOptions = ClientCertificateOption.Automatic,
                AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate,
                AllowAutoRedirect = true,
                UseDefaultCredentials = false
            };

            httpClient = new HttpClient(handler);

            //httpClient.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) coc_coc_browser/63.4.154 Chrome/57.4.2987.154 Safari/537.36");
            /*
             * Header:
             * - Origin
             * - Host
             * - Referer
             * - :scheme
             * - accept
             * - Accept-Encoding
             * - Accept-Language
             * - User-Argent
             */


            httpClient.BaseAddress = new Uri(HomePage);
        }
        void AddItemIntoTreeViewItem(ObservableCollection<MenuTreeItem> root, MenuTreeItem node)
        {
            treeMain.Dispatcher.Invoke(new Action(()=> {
                root.Add(node);
            }));
        }

        string CrawlDataFromURL(string url)
        {
            string html = "";
            
            html = WebUtility.HtmlDecode(httpClient.GetStringAsync(url).Result);

            //html = httpClient.PostAsync(url,new StringContent("")).Result.Content.ReadAsStringAsync().Result;

            return html;
        }

        void Crawl(string url)
        {
            string htmlLearn = CrawlDataFromURL(url);
            var CourseList = Regex.Matches(htmlLearn, @"<div class=""info-course(.*?)</div>", RegexOptions.Singleline);
            foreach (var course in CourseList)
            {
                string courseName = Regex.Match(course.ToString(), @"(?=<h5>).*?(?=</h5>)").Value.Replace("<h5>","");
                string linkCourse = Regex.Match(course.ToString(), @"'(.*?)'", RegexOptions.Singleline).Value.Replace("'","");

                MenuTreeItem item = new MenuTreeItem();
                item.Name = courseName;
                item.URL = linkCourse;

                AddItemIntoTreeViewItem(TreeItems, item);

                string htmlCourse = CrawlDataFromURL(linkCourse);
                string sideBar = Regex.Match(htmlCourse, @"<div class=""sidebardetail"">(.*?)</ul>", RegexOptions.Singleline).Value;
                var listLecture = Regex.Matches(sideBar, @"<li(.*?)</li>", RegexOptions.Singleline);
                foreach (var lecture in listLecture)
                {
                    string lectureName = Regex.Match(lecture.ToString(), @"<li title=""(.*?)"">", RegexOptions.Singleline).Value.Replace("\">", "").Replace("<li title=\"", "");
                    string linkLecture = Regex.Match(lecture.ToString(), @"<a href=""(.*?)"">", RegexOptions.Singleline).Value.Replace("<a href=\"", "").Replace("\">","");

                    MenuTreeItem Subitem = new MenuTreeItem();
                    Subitem.Name = lectureName;
                    Subitem.URL = linkLecture;
                    AddItemIntoTreeViewItem(item.Items, Subitem);
                }
            }
        }
        public static void SetSilent(WebBrowser browser, bool silent)
        {
            if (browser == null)
                throw new ArgumentNullException("browser");

            // get an IWebBrowser2 from the document
            IOleServiceProvider sp = browser.Document as IOleServiceProvider;
            if (sp != null)
            {
                Guid IID_IWebBrowserApp = new Guid("0002DF05-0000-0000-C000-000000000046");
                Guid IID_IWebBrowser2 = new Guid("D30C1661-CDAF-11d0-8A3E-00C04FC9E26E");

                object webBrowser;
                sp.QueryService(ref IID_IWebBrowserApp, ref IID_IWebBrowser2, out webBrowser);
                if (webBrowser != null)
                {
                    webBrowser.GetType().InvokeMember("Silent", BindingFlags.Instance | BindingFlags.Public | BindingFlags.PutDispProperty, null, webBrowser, new object[] { silent });
                }
            }
        }
        
        [ComImport, Guid("6D5140C1-7436-11CE-8034-00AA006009FA"), InterfaceType(ComInterfaceType.InterfaceIsIUnknown)]
        private interface IOleServiceProvider
        {
            [PreserveSig]
            int QueryService([In] ref Guid guidService, [In] ref Guid riid, [MarshalAs(UnmanagedType.IDispatch)] out object ppvObject);
        }
        #endregion
        private void Button_Click_1(object sender, RoutedEventArgs e)
        {
            //treeMain.Dispatcher.Invoke(new Action(()=> {
            //    Crawl("Learn");
            //}));
            Task t = new Task(()=> { Crawl("Learn"); });
            t.Start();
        }        

        private void wbMain_Navigated(object sender, NavigationEventArgs e)
        {
            SetSilent(wbMain, true);
        }

        private void TextBlock_PreviewMouseDown(object sender, MouseButtonEventArgs e)
        {
            string url = HomePage + (sender as TextBlock).Tag.ToString();
            wbMain.Navigate(url);
            //Process.Start(url);
        }
    }
}

Code MenuTreeItem.cs

using System;
using System.Collections.Generic;
using System.Collections.ObjectModel;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace CrawlDataFromHowKteam
{
    public class MenuTreeItem
    {
        public string Name { get; set; }
        public string URL { get; set; }
        public ObservableCollection<MenuTreeItem> Items { get; set; }
        public MenuTreeItem()
        {
            this.Items = new ObservableCollection<MenuTreeItem>();
        }
    }
}

Kết luận

Qua khóa học này, bạn đã nắm qua được các kỹ thuật về WPF, TreeView, Http Client, Regular Expression trong ứng dụng thực tế,...Và nhiều điều thú vị cũng như kinh nghiệm của người hướng dẫn.

Cảm ơn các bạn đã theo dõi bài viết. Hãy để lại bình luận hoặc góp ý của mình để phát triển bài viết tốt hơn. Và đừng quên “Luyện tập – Thử Thách – Không ngại khó


Tải xuống

Tài liệu

Nhằm phục vụ mục đích học tập Offline của cộng đồng, Kteam hỗ trợ tính năng lưu trữ nội dung bài học Hoàn thiện phần mềm crawl data từ website howkteam.com dưới dạng file PDF trong link bên dưới.

Ngoài ra, bạn cũng có thể tìm thấy các tài liệu được đóng góp từ cộng đồng ở mục TÀI LIỆU trên thư viện Howkteam.com

Đừng quên likeshare để ủng hộ Kteam và tác giả nhé!

Project

Nếu việc thực hành theo hướng dẫn không diễn ra suôn sẻ như mong muốn. Bạn cũng có thể tải xuống PROJECT THAM KHẢO ở link bên dưới!


Thảo luận

Nếu bạn có bất kỳ khó khăn hay thắc mắc gì về khóa học, đừng ngần ngại đặt câu hỏi trong phần bên dưới hoặc trong mục HỎI & ĐÁP trên thư viện Howkteam.com để nhận được sự hỗ trợ từ cộng đồng.

Nội dung bài viết

Tác giả/Dịch giả

Khóa học

Crawl data từ website howkteam với Regex và Http Client trên C# WPF

Crawl data từ website howkteam với Regex và Http Client trên C# WPF

Đánh giá

AissNguyen đã đánh giá 21:24 18-09-2020

Bình luận

Để bình luận, bạn cần đăng nhập bằng tài khoản Howkteam.

Đăng nhập
Không có video.