200字范文 > php项目实战教程用爬虫技术能做到哪些有趣的事情 – PHP基础 – 前端 php截取文件后缀

php项目实战教程用爬虫技术能做到哪些有趣的事情 – PHP基础 – 前端 php截取文件后缀

时间：2019-08-13 11:57:38

喜欢旅行又怕吃土？让Python来爬取最便宜机票吧！

图源：

你喜欢旅行吗？

这个问题通常会得到一个肯定的答案，随后引出一两个有关之前冒险经历的故事。大多数人都认为旅行是体验新文化和开阔视野的好方法。但如果问题是“你喜欢搜索机票的过程吗？”也许话题就到此为止了……

可事实上，便宜的机票往往也很重要！本文将尝试构建一个网络爬虫，该爬虫对特定目的地运行并执行带有浮动日期（首选日期前后最多三天）的航班价格搜索。它会将结果保存为excel文件并发送一封包含快速统计信息的电子邮件。显然，这个爬虫的目的就是帮助大家找到最优惠的价格！

你可以在服务器上运行脚本(一个简单的Raspberry Pi就可以)，每天运行一到两次。结果会以邮件形式发送，建议将excel文件存入Dropbox文件夹，以便随时随地查看。

因为爬虫以“浮动日期”进行搜索，所以它会搜索首选日期前后最多三天的航班信息。尽管该脚本一次仅运行一对目的地，但可以很容易地改写该爬虫使其每个循环运行多个目的地。最终甚至可能找到一些错误票价…那会很有意思！

另一个爬虫

某种意义上来讲，网络爬取是互联网“工作”的核心。

也许你认为这是一个十分大胆的说法，但谷歌就是从拉里·佩奇用Java和Python构建的网络爬虫开始的。爬虫不断地爬取信息，整个互联网都在试图为所有问题提供最佳的可能答案。网络爬取有不计其数的应用程序，即使更喜欢数据科学中的其他分支，你仍需要一些爬取技巧以获得数据。

这里用到的一些技术来自于最近新的一本佳作《Python网络数据采集》，书中包含与网络爬取相关的所有内容，并提供了大量简例和实例。甚至有一个特别有意思的章节，讲述如何解决验证码检验的问题。

Python的拯救

第一个挑战就是选择爬取信息的平台，本文选择了客涯（Kayak）。大家试过了Momondo, 天巡（Skyscanner）, 亿客行（Expedia）和其它一些网站，但是这些网站上的验证码特别变态。

在那些“你是人类吗？”的验证中，尝试了多次选择交通灯、十字路口和自行车后，客涯似乎是最好的选择，尽管短时间内加载太多页面它会跳出安全检查。

大家设法让机器人每4到6个小时查询一次网站，结果一切正常。虽然说不定哪个部分偶尔会出点小问题，但是如果收到验证码，既可以手动解决问题后启动机器人，也可以等待几小时后的自动重启。

如果你是网络爬取新手，或者不知道为何有些网站花费很大力气阻止网络爬取，那么为构建爬虫写下第一行代码前，你一定要多加努力。

谷歌的“网络爬取规范”：

/?q=web+scraping+etiquette

系紧安全带…

导入并打开Chrome浏览器标签页后，会定义一些循环中会用到的函数。这个架构的构思大概是这样的：

· 一个函数用于启动机器人程序，表明想要搜索的城市和日期。

· 这个函数获得首轮搜索结果，按“最佳”航班排序，然后点击“加载更多结果”。

· 另一个函数会爬取整个页面，并返回一个dataframe数据表。

· 随后重复步骤2和步骤3，得出按“价格”和“航行时间”排序的结果。

· 发送一封简要总结价格（最低价和平均价）的邮件，并将带有这三种排序类型的dataframe数据表保存为一份excel文件。

· 以上所有步骤会在循环中重复，每X小时运行一次。

每个Selenium项目都以一个网页驱动器开始。大家使用Chromedriver驱动器，但还有其它选择。PhantomJS和Firefox也很受欢迎。下载Chromedriver后，将其置于一个文件夹中即可。第一行代码会打开一个空白Chrome标签页。

from time import sleep, strftime

from random import randint

import pandas as pd

from selenium import webdriver

from mon.keys import Keys

import smtplib

from email.mime.multipart import MIMEMultipart

# Change this to your own chromedriver path!

chromedriver_path = ‘C:/{YOUR PATH HERE}/chromedriver_win32/chromedriver.exe’

driver = webdriver.Chrome(executable_path=chromedriver_path) # This will open the Chrome window

sleep(2)

这些是将用于整个项目的包。使用randint函数令机器人在每次搜索之间随机睡眠几秒钟。这对任何一个机器人来说都是必要属性。如果运行前面的代码，应该打开一个Chrome浏览器窗口，机器人会在其中导航。

一起来做一个快速测试：在另一个窗口上访问客涯网，选择往返城市和日期。选择日期时，确保选择的是“+-3天”。由于在编写代码时考虑到了结果页面，所以如果只想搜索特定日期，很可能需要做一些微小的调整。

点击搜索按钮在地址栏获取链接。它应该类似于下面所使用的链接，将变量kayak定义为url，并从网页驱动器执行get方法，搜索结果就会出现。

无论何时，只要在几分钟内使用get命令超过两到三次，就会出现验证码。实际上可以自己解决验证码，并在下一次验证出现时继续进行想要的测试。从测试来看，第一次搜索似乎一直没有问题，所以如果想运行这份代码，并让它在较长的时间间隔后运行，必须解决这个难题。你并不需要十分钟就更新一次这些价格，对吧？

每个XPath都有陷阱

到目前为止，已经打开了一个窗口，获取了一个网站。为了开始获取价格和其他信息，需要使用XPath或CSS选择器，大家选择了XPath。使用XPath导航网页可能会令人感到困惑，即使使用从inspector视图中直接使用“复制XPath”，但这不是获得所需元素的最佳方法。有时通过“复制XPath”这个方法获得的链接过于针对特定对象，以至于很快就失效了。《Python网络数据采集》一书很好地解释了使用XPath和CSS选择器导航的基础知识。

接下来，用Python选择最便宜的结果。上面代码中的红色文本是XPath选择器，在网页上任意一处右键单击选择“inspect”就可以看到它。在想要查看代码的位置，可以再次右键单击选择“inspect”。

为说明之前所观察到的从“inspector”复制路径的缺陷，请参考以下差异：

1 # This is what the copymethod would return. Right click highlighted rows on the right side and select “copy> Copy XPath”//*[@id=“wtKI-price_aTab”]/div[1]/div/div/div[1]/div/span/span

2 # This is what I used todefine the “Cheapest” buttoncheap_results= ‘//a[@data-code = “price”]’

第二种方法的简洁性清晰可见。它搜索具有data-code等于price属性的元素a。第一种方法查找id等于wtKI-price_aTab的元素，并遵循第一个div元素和另外四个div和两个span。这次……会成功的。现在就可以告诉你，id元素会在下次加载页面时更改。每次页面一加载，字母wtKI会动态改变，所以只要页面重新加载，代码就会失效。花些时间阅读XPath，保证你会有收获。

不过，使用复制的方法在不那么“复杂”的网站上工作，也是很好的！

基于以上所展示的内容，如果想在一个列表中以几个字符串的形式获得所有搜索结果该怎么办呢？其实很简单。每个结果都在一个对象中，这个对象的类是“resultWrapper”。获取所有结果可以通过像下面这样的for循环语句来实现。如果你能理解这一部分，应该可以理解接下来的大部分代码。它基本上指向想要的结果（结果包装器），使用某种方式（XPath）获得文本，并将其放置在可读对象中（首先使用flight_containers，然后使用flight_list）。

前三行已展示在图中，并且可以清楚地看到所需的内容，但是有获得信息的更优选择，需要逐一爬取每个元素。

准备起飞吧！

最容易编写的函数就是加载更多结果的函数，所以代码由此开始。为了在不触发安全验证的前提下最大化所获取的航班数量，每次页面显示后，单击“加载更多结果”。唯一的新内容就是所添加的try语句，因为有时按钮加载会出错。如果它对你也有用，只需在前面展示的start_kayak函数中进行简要注释。

# Load more results to maximize the scraping

def load_more():

try:

more_results = ‘//a[@class = “moreButton”]’

driver.find_element_by_xpath(more_results).click()

# Printing these notes during the program helps me quickly check what it is doing

print(‘sleeping…..’)

sleep(randint(45,60))

except:

pass

现在，经过这么长的介绍，已经准备好定义实际爬取页面的函数。

大家编译了下一个函数page_scrape中的大部分元素。有时这些元素会返回列表插入去程信息和返程信息之间。这里使用了一个简单的办法分开它们，比如在第一个 section_a_list和section_b_list变量中，该函数还返回一个flight_df数据表。所以可以分离在不同分类下得到的结果，之后再把它们合并起来。

def page_scrape():

“““This function takes care of the scraping part”““

xp_sections = ‘//*[@class=“section duration”]’

sections = driver.find_elements_by_xpath(xp_sections)

sections_list = [value.text for value in sections]

section_a_list = sections_list[::2] # This is to separate the two flights

section_b_list = sections_list[1::2] # This is to separate the two flights

# if you run into a reCaptcha, you might want to do something about it

# you will know there’s a problem if the lists above are empty

# this if statement lets you exit the bot or do something else

# you can add a sleep here, to let you solve the captcha and continue scraping

# i’m using a SystemExit because i want to test everything from the start

if section_a_list == []:

raise SystemExit

# I’ll use the letter A for the outbound flight and B for the inbound

a_duration = []

a_section_names = []

for n in section_a_list:

# Separate the time from the cities

a_section_names.append(”.join(n.split()[2:5]))

a_duration.append(”.join(n.split()[0:2]))

b_duration = []

b_section_names = []

for n in section_b_list:

# Separate the time from the cities

b_section_names.append(”.join(n.split()[2:5]))

b_duration.append(”.join(n.split()[0:2]))

xp_dates = ‘//div[@class=“section date”]’

dates = driver.find_elements_by_xpath(xp_dates)

dates_list = [value.text for value in dates]

a_date_list = dates_list[::2]

b_date_list = dates_list[1::2]

# Separating the weekday from the day

a_day = [value.split()[0] for value in a_date_list]

a_weekday = [value.split()[1] for value in a_date_list]

b_day = [value.split()[0] for value in b_date_list]

b_weekday = [value.split()[1] for value in b_date_list]

# getting the prices

xp_prices = ‘//a[@class=“booking-link”]/span[@class=“price option-text”]’

prices = driver.find_elements_by_xpath(xp_prices)

prices_list = [price.text.replace(‘$’,”) for price in prices if price.text != ”]

prices_list = list(map(int, prices_list))

# the stops are a big list with one leg on the even index and second leg on odd index

xp_stops = ‘//div[@class=“section stops”]/div[1]’

stops = driver.find_elements_by_xpath(xp_stops)

stops_list = [stop.text[0].replace(‘n’,’0′) for stop in stops]

a_stop_list = stops_list[::2]

b_stop_list = stops_list[1::2]

xp_stops_cities = ‘//div[@class=“section stops”]/div[2]’

stops_cities = driver.find_elements_by_xpath(xp_stops_cities)

stops_cities_list = [stop.text for stop in stops_cities]

a_stop_name_list = stops_cities_list[::2]

b_stop_name_list = stops_cities_list[1::2]

# this part gets me the airline company and the departure and arrival times, for both legs

xp_schedule = ‘//div[@class=“section times”]’

schedules = driver.find_elements_by_xpath(xp_schedule)

hours_list = []

carrier_list = []

for schedule in schedules:

hours_list.append(schedule.text.split(‘\n’)[0])

carrier_list.append(schedule.text.split(‘\n’)[1])

# split the hours and carriers, between a and b legs

a_hours = hours_list[::2]

a_carrier = carrier_list[1::2]

b_hours = hours_list[::2]

b_carrier = carrier_list[1::2]

cols = ([‘Out Day’, ‘Out Time’, ‘Out Weekday’, ‘Out Airline’, ‘Out Cities’, ‘Out Duration’, ‘Out Stops’, ‘Out Stop Cities’,

‘Return Day’, ‘Return Time’, ‘Return Weekday’, ‘Return Airline’, ‘Return Cities’, ‘Return Duration’, ‘Return Stops’, ‘Return Stop Cities’,

‘Price’])

flights_df = pd.DataFrame({‘Out Day’: a_day,

‘Out Weekday’: a_weekday,

‘Out Duration’: a_duration,

‘Out Cities’: a_section_names,

‘Return Day’: b_day,

‘Return Weekday’: b_weekday,

‘Return Duration’: b_duration,

‘Return Cities’: b_section_names,

‘Out Stops’: a_stop_list,

‘Out Stop Cities’: a_stop_name_list,

‘Return Stops’: b_stop_list,

‘Return Stop Cities’: b_stop_name_list,

‘Out Time’: a_hours,

‘Out Airline’: a_carrier,

‘Return Time’: b_hours,

‘Return Airline’: b_carrier,

‘Price’: prices_list})[cols]

flights_df[‘timestamp’] = strftime(“%Y%m%d-%H%M”) # so we can know when it was scraped

return flights_df

尽量让这些名字容易理解。记住变量a表示旅行的去程信息，变量b表示旅行的返程信息。接下来说说下一个函数。

等等，还有什么吗？

截至目前，已经有了一个能加载更多结果的函数和一个能爬取其他结果的函数。本可以在此结束这篇文章，而你可以自行手动使用这些函数，并在浏览的页面上使用爬取功能。但是前文提到给自己发送邮件和一些其他信息的内容，这都包含在接下来的函数start_kayak中。

它要求填入城市名和日期，并由此打开一个kayak字符串中的地址，该字符串直接跳转到“最佳”航班结果排序页面。第一次爬取后，可以获取价格的顶部矩阵，这个矩阵将用于计算平均值和最小值，之后和客涯（Kayak）的预测结果（页面左上角）一同发送到邮件中。这是单一日期搜索时可能导致错误的原因之一，因其不包含矩阵元素。

def start_kayak(city_from, city_to, date_start, date_end):

“““City codes – it’s the IATA codes!

Date format – YYYY-MM-DD”““

kayak = (‘/flights/’ + city_from + ‘-‘ + city_to +

‘/’ + date_start + ‘-flexible/’ + date_end + ‘-flexible?sort=bestflight_a’)

driver.get(kayak)

sleep(randint(8,10))

# sometimes a popup shows up, so we can use a try statement to check it and close

try:

xp_popup_close = ‘//button[contains(@id,”dialog-close”) and contains(@class,”Button-No-Standard-Style close “)]’

driver.find_elements_by_xpath(xp_popup_close)[5].click()

except Exception as e:

pass

sleep(randint(60,95))

print(‘loading more…..’)

#load_more()

print(‘starting first scrape…..’)

df_flights_best = page_scrape()

df_flights_best[‘sort’] = ‘best’

sleep(randint(60,80))

# Let’s also get the lowest prices from the matrix on top

matrix = driver.find_elements_by_xpath(‘//*[contains(@id,”FlexMatrixCell”)]’)

matrix_prices = [price.text.replace(‘$’,”) for price in matrix]

matrix_prices = list(map(int, matrix_prices))

matrix_min = min(matrix_prices)

matrix_avg = sum(matrix_prices)/len(matrix_prices)

print(‘switching to cheapest results…..’)

cheap_results = ‘//a[@data-code = “price”]’

driver.find_element_by_xpath(cheap_results).click()

sleep(randint(60,90))

print(‘loading more…..’)

#load_more()

print(‘starting second scrape…..’)

df_flights_cheap = page_scrape()

df_flights_cheap[‘sort’] = ‘cheap’

sleep(randint(60,80))

print(‘switching to quickest results…..’)

quick_results = ‘//a[@data-code = “duration”]’

driver.find_element_by_xpath(quick_results).click()

sleep(randint(60,90))

print(‘loading more…..’)

#load_more()

print(‘starting third scrape…..’)

df_flights_fast = page_scrape()

df_flights_fast[‘sort’] = ‘fast’

sleep(randint(60,80))

# saving a new dataframe as an excel file. the name is custom made to your cities and dates

final_df = df_flights_cheap.append(df_flights_best).append(df_flights_fast)

final_df.to_excel(‘search_backups//{}_flights_{}-{}_from_{}_to_{}.xlsx’.format(strftime(“%Y%m%d-%H%M”),

city_from, city_to,

date_start, date_end), index=False)

print(‘saved df…..’)

# We can keep track of what they predict and how it actually turns out!

xp_loading = ‘//div[contains(@id,”advice”)]’

loading = driver.find_element_by_xpath(xp_loading).text

xp_prediction = ‘//span[@class=“info-text”]’

prediction = driver.find_element_by_xpath(xp_prediction).text

print(loading+’\n’+prediction)

# sometimes we get this string in the loading variable, which will conflict with the email we send later

# just change it to “Not Sure” if it happens

weird = ‘¯\\_(ツ)_/¯’

if loading == weird:

loading = ‘Not sure’

username = ‘YOUREMAIL@’

password = ‘YOUR PASSWORD’

server = smtplib.SMTP(‘’, 587)

server.ehlo()

server.starttls()

server.login(username, password)

msg = (‘Subject: Flight Scraper\n\n\

Cheapest Flight: {}\nAverage Price: {}\n\nRecommendation: {}\n\nEnd of message’.format(matrix_min, matrix_avg, (loading+’\n’+prediction)))

message = MIMEMultipart()

message[‘From’] = ‘YOUREMAIL@’

message[‘to’] = ‘YOUROTHEREMAIL@’

server.sendmail(‘YOUREMAIL@’, ‘YOUROTHEREMAIL@’, msg)

print(‘sent email…..’)

虽然没有使用Gmail账户测试发送邮件，但是可以搜索到很多的替代方法，前文提到的那本书中也有其他方法来实现这一点。如果已有一个Hotmail账户，只要替换掉个人的详细信息，它就会开始工作了。

如果想探索脚本的某一部分正在做什么，可以将脚本复制下来并在函数外使用它。这是彻底理解它的唯一方法。

利用刚才创造的一切

在这些步骤之后，还可以想出一个简单的循环来使用刚创造的函数，同时使其持续运行。完成四个“花式”提示，写下城市和日期（输入）。因为测试时不想每次都输入这些变量，需要的时候可以使用以下这个清楚的方式进行替换。

如果已经做到了这一步，恭喜你！改进还有很多，比如与Twilio集成，发送文本消息而不是邮件。也可以使用VPN或更加难懂的方式同时从多个服务器上研究搜索结果。还有就是验证码的问题，验证码会时不时地跳出来，但对此类问题还是有解决办法的。不过，能走到这里已经是有很牢固的基础了，你可以尝试添加一些额外的要素。

使用脚本运行测试的示例

留言点赞关注

大家一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

PMP的学习方法有哪些？

PMP备考的一点建议，学霸们请无视，哈哈哈：

偶觉得参加PMP的学习和考试有两点需要把握住，一是心态，二是学习方法；

谈心态的话虽然比较虚，因为这个还是要看个人在生活中对事物发展的应对能力与应对突发情况的处理能力，但是简单的谈谈在备考过程中心态的处理还是很有必要的。所谓对心态的把握不仅仅限于考试时的心态，也包括在学习过程中的心态与你能调整出的学习状态。现在大部分学员在学习中都是处于在职状态，平时工作压力会很大，家里生活压力大，难免有时会错过课程和必要的QQ微信群讲解，当你在学习途中看到其他学员似乎了解的知识比你多时不必过度紧张，先分析出到底是时间没投入够还是知识没学习扎实。如果是前者就比较简单，可以多花时间补补，毕竟不花时间准备的证也是没价值的证；若是后者就要好好反思下，如果是老师讲过的知识点没有记住则反思下是不是听讲时不够认真，如果是老师没讲但是高校和pmbok上有的内容则反思下是不是没有花时间去深入了解细节。

最后你会发现绊脚的并不是你的才智，而是在不稳定状态下催生的消极心态。

聊完心态，在来聊一些方法上的干货。对于没有题库，范围大的考试，最主要的是建立知识框架，能联想记忆，同时在理解的基础上举一反三，有限的时间内掌握更加全面的知识。

先来点学习前的准备：

1）学习小组

学习小组大家一定要组织起来，要有一个愿意组织的组长，目的不一定是每天粘在一起学习，而是相互之间催生动力以及对一些课堂上的知识点进行相互补充。

（最重要的偶觉得还是在学习的这段时间内大家相互了解成为了朋友，像大家小组在考试后一直都很活跃）

2）制定明确的备考目标

对于PMP考试，因为周期比较短，知识量比较大，所以大家总会有一些类似念头：“偶可以缓考”，“不急，时间多”，“这次没准备充分下次考算了”，巴拉巴拉巴拉。。。。。

之所以有这个念头是因为完全没有明确的目标支持你什么时候考这场考试，仅仅抱着碰运气去试试的态度去准备考试，造成心里没底。所以制定一个明确目标，让生活&工作中的一些可以协调的事情就要为你的目标让道（当然这个也是视情况而定，毕竟都是成年人的作息时间，在工作生活中有些事确实完全没法避开，无非是确认孰轻孰重之后的一个抉择）。

说完前提条件，接下来直接上偶的备考计划吧：

1）讲义+高效+PMBOK刷一遍，整理出知识体系思维导图（泛读，半个月）：

这个是基于成年人会掉课的情况做出的计划（偶就掉过。。。），偶的理解是先看讲义后，按照讲义的脉络来看高效，因为高效写的比较简单只强调了重点，所以最后再补一遍pmbok（不要想着反复看，一遍到位），在这个过程中可以根据自己的理解画出思维导图（在后面的学习过程中可以根据新的理解慢慢补充和修改思维导图）；

2）做高效题，根据高效上的错题找到对应PMBOK上的知识点（一个月，这个就不详细介绍了，顺着看书做题大家都会。因为这个月工作上有些其他事情冲突了所以这里的计划时间比较长，大家可以根据自身情况适当调整缩短下时间）：

3）精读一遍PMBOK找到那些做过的题目中没有的涉及点记录下来，结合ITTO：（三周）

这里强调下偶的一个观点ITTO，个人感觉在时间不充裕的情况下不要全部背下来（把6脉和一些关键点背下来理解记忆），并不是全部背下来了就代表你掌握的有多深，那只能代表你花的时间比较长。偶觉得你能在背诵的时候找到各个过程之间的关系，在脑海中形成一套体系是最棒的。

4）做模拟题，错题找到原因，找到薄弱的知识点（三周）

做模拟题比较重要，是检验出到时候考试稳不稳的标准，如果分数太低，或在一些大部分人都可以做对而你却摸不着头脑的题丢分时，你就要开始想办法怎么去恶补下了。

整个周期大概有4次模拟题。第一次模拟（大家可以攒着当做练习题来做），熟悉下考试题型分布（偶当时错了60多题，感觉爆炸，哈哈、、、、），之后分析错题原因，发现很多分都是都送分题因为没看清楚题意或书上的知识点理解的有歧义造成的，在对每道错题进行分析讨论同时找到书上对应的知识点后，做了模拟二和模拟三（好像大家先发的冲刺，具体哪套卷子记得不清楚了反正攒着到你计划的时间节点开始模拟）。这两份试卷最好一口气坐下来，熟悉下考试时间（偶每次做模拟都会保持在2到两个半小时的时间，这样考出来的结果会比较准确，避免了实际考试中的紧张造成的答题过慢的情况）。在考完第二、三套试卷的时候，偶基本上可以把错误率控制在30-40之间（这就很稳），但是偶发现每套试卷偶都有猜出来的答案（比如说用排除法做出来的题）大概占15-25题左右，对于这些题偶会把他们当做错误的题目来对待，进行详细的分析。最后一套试卷留在最后一周做（大家也可以看情况，如果老师讲解可以提前做），用来熟悉一波答题的手感，也是考前找信心的一套卷子，做完当时基本上30题左右错、10题左右猜，这时候就别纠结偏题怪题或最终得分了，只要每次都有进步，在及格线上就找好状态开始准备考试的一搏吧。考前也不要放松，可以再巩固一遍基础，看看之前的思维导图，背背ITTO什么的就可以进入考场厮杀了。

在备考的过程中有两点需要注意的，也是偶一直以来的一些心得：

a）猜的题不要当做你会的题；

b）不要仅限于会接老师的话、会复述老师的话就满足了，转化为自己的知识才是考试之后你能消化理解同时将这个知识运用到实处的前提；

最后希望大家都能顺利通过PMP考试！~~

有没有关于php实例的文字教程app或者能在手机上看的视频教学？

php实例教程：/article/19959

工作前景如何？

前端开发趋势一直都是热度高且变化快。因此，对于前端开发者来说，想要跟上这些不断变化的趋势，需要耗费巨大的精力。至于前端技术具体会发生哪些变化，让大家一起来聊聊吧。

1、前端介绍

前端，也称为“客户端开发”，简单来说，你可以在应用程序或网站的屏幕上看到的所有内容都属于前端。让大家考虑一个现实的例子：你正在访问的网站。内容设计、图像、段落和线条之间的间距，左上角的公司徽标，以及右下角的小通知按钮——所有这一切都是前端。

2、前端技术包括哪些？

前端开发是创建Web页面或app等前端界面呈现给用户的过程，通过HTML，CSS及JavaScript以及衍生出来的各种技术、框架、解决方案，来实现互联网产品的用户界面交互。它从网页制作演变而来，名称上有很明显的时代特征。在互联网的演化进程中，网页制作是Web1.0时代的产物，早期网站主要内容都是静态，以图片和文字为主，用户使用网站的行为也以浏览为主。随着互联网技术的发展和HTML5、CSS3的应用，现代网页更加美观，交互效果显著，功能更加强大。

2.1、HTML

掌握HTML是网页的核心，是一种制作万维网页面的标准语言，是万维网浏览器使用的一种语言，它消除了不同计算机之间信息交流的障碍。因此，它是目前网络上应用最为广泛的语言，也是构成网页文档的主要语言，学好HTML是成为Web前端开发人员的基本条件。HTML是一种标记语言，能够实现Web页面并在浏览器中显示。HTML5作为HTML的最新版本，引入了多项新技术，大大增强了对于应用的支持能力，使得Web技术不再局限于呈现网页内容。随着CSS、JavaScript、Flash等技术的发展，Web对于应用的处理能力逐渐增强，用户浏览网页的体验已经有了较大的改善。不过HTML5中的几项新技术实现了质的突破，使得Web技术首次被认为能够接近于本地原生应用技术，开发Web应用真正成为开发者的一个选择。HTML5可以使开发者的工作大大简化，理论上单次开发就可以在不同平台借助浏览器运行，降低开发的成本，这也是产业界普遍认为HTML5技术的主要优点之一。AppMobi、摩托罗拉、Sencha、Appcelerator等公司均已推出了较为成熟的开发工具，支持HTML5应用的发展。

2.2、CSS

学好CSS是网页外观的重要一点，CSS可以帮助把网页外观做得更加美观。

2.3、JavaScript

学习JavaScript的基本语法，以及如何使用JavaScript编程将会提高开发人员的个人技能。

2.4、Bootstrap

主流框架之一，Bootstrap 是基于 HTML、CSS、JavaScript的，它简洁灵活，使得 Web 开发更加快捷。

2.5、html5-boilerplate

该框架可以快速构建健壮，且适应力强的web app或网站。

2.6、Meteor

Meteor是新一代的开发即时web应用的开源框架，它能在较短时间内完成开发。

2.7、Semantic UI

基于自然语言有效原则的UI组件框架。

2.8、Amaze UI

国内首个开源HTML5跨屏前端框架产品系列，中文排版支持更优、本土化组件丰富。该产品系列中有专门针对移动端的HTML5混合应用开发框架Amaze UI Touch以及针对跨屏HTML5网页开发的Amaze UI Web。其中，Amaze UI Touch可以帮助开发者通过丰富的组件，快速构建出与原生APP相媲美的专属移动端的HTML5应用。

3、前端技术领域变化

3.1、Web组件化

基本上这就是未来。为什么？因为这些纯Web组件与框架无关，并且可以在没有框架或没有任何框架拼写标准化的情况下工作。因为它们没有JS疲劳，并且得到了现代浏览器的支持。因为它们的文件大小和消耗将是最佳的，并且VDOM渲染令人赞叹。这些组件提供了Custom Element，这是一个Javascript API，可让你定义新html标签，HTML模板以指定布局，当然还有Shadow DOM，它本质上是特定于组件的。在这个领域中知名的工具是Lit-html（和Lit-element），StencilJS，SvelteJS，当然还有Bit，它们是可重用的模块化组件，可以在任何地方直接共享，使用和开发。考虑组件开发时代的未来，以及模块化，可重用性，封装和标准化的原理，Web组件就是答案。

3.2、微前端

Serverless即“无服务器”架构，它试图帮助开发者摆脱运行后端应用程序所需的服务器设备的设置和管理工作，它由第三方云计算供应商负责后端基础结构的维护，同时以服务的方式为开发者提供所需的功能，例如数据库、消息、身份验证等。微前端的概念类似于微服务，它将前端应用拆分成一个个更小的更简单的能够独立开发、测试、部署的小块，在用户看来它依旧是一个独立的产品。前端业务在发展到一定规模后，需要一种能将业务化繁为简的架构。常用的微前端解决方案有single-spa、qiankun。微前端、Serverless目前都未出现大规模应用的情况，各大公司对此都处于探索阶段，两项技术稳步发展，期待未来大规模的应用。

3.3、微设计

布拉德·弗罗斯特（Brad Frost）提出的理论将Web应用程序的构成与原子，分子，有机体等的自然构成进行了比较，最后以具体的Web页面作为结尾。原子由分子组成（例如，文本输入+按钮+标签原子=搜索分子）。分子组成生物体。有机体位于布局模板中，该模板可以具体化为交付给用户的页面。Atomic组件的优势不只是通过模块化和可重用的组件来构建模块化UI应用程序。这种范例迫使你思考组成每个组件的角色和API。

3.4、Web组装

Web程序集将语言多样性带入Web开发中，以弥补JavaScript创建的空白。它被定义为“基于堆栈的虚拟机的二进制指令格式。Wasm被设计为可移植目标，用于编译高级语言（如C/C ++/Rust），从而可以在Web上为客户端和服务器应用程序进行部署。”埃里克·埃利奥特在他的文章中优雅地概述了该概念的好处：在wasm中实现对性能至关重要的内容，并将其像标准JavaScript模块一样导入。一种新语言：WebAssembly代码定义了以二进制格式表示的AST（抽象语法树）。您可以编写和调试文本格式，以便于阅读。对浏览器的改进：浏览器将理解二进制格式，这意味着大家将能够编译二进制捆绑包，压缩后的二进制包小于大家今天使用的文本JavaScript。较小的有效载荷意味着更快的传递。根据编译时的优化机会，WebAssembly的运行速度可能比JavaScript快！

3.5、封装样式和Shadow Dom

组件的一个重要方面是封装-能够使标记结构，样式和行为保持隐藏状态，并与页面上的其他代码分开，以使不同部分不会冲突，并且代码可以保持整洁。Shadow DOM API是其中的关键部分，它提供了一种将隐藏的单独DOM附加到元素的方法。Shadow DOM实际上已经被浏览器使用了很长时间了。您可以将影子DOM视为“ DOM中的DOM”。它是自己的隔离DOM树，具有自己的元素和样式，与原始DOM完全隔离。它允许将隐藏的DOM树附加到常规DOM树中的元素上。该阴影DOM树以影子根开头，可以与普通DOM相同的方式附加到所需的任何元素上。这样做的主要目的是，大家不需要为类使用名称空间，因为不存在名称冲突或样式溢出的风险。这就是Web组件样式进行真正封装的解决方案。

3.6、TypeScript接管前端

最近的每次交谈都听起来好像TS正在接管前端开发。据报道，有80％的开发人员承认他们想在下一个项目中使用或学习TypeScript。尽管有缺点，但TS代码更易于理解，实现更快，产生的错误更少。想重构你的React应用程序并与TS一起使用吗？去吧。想逐步开始吗？使用Bit之类的工具逐步将你的应用程序中的组件重构为TS，并使用React-Typescript编译器独立于应用程序构建它们。TypeScript，它是有类型定义的 JavaScript 的超集，包括 ES5、ES5+ 和其他一些诸如反射、泛型、类型定义、命名空间等特征的集合，为了大规模 JavaScript 应用开发而生。复杂软件需要用复杂的设计，面向对象就是一种很好的设计方式，使用 TypeScript 的一大好处就是 TypeScript 提供了业界认可的类（ ES5+ 也支持）、泛型、封装、接口面向对象设计能力，以提升 JavaScript 的面向对象设计能力。市面上的框架也对 TypeScript 提供了非常好的支持。React 对.tsx 支持非常好，比如偶在 Midway controller 里支持 tsx 写法，这是非常大胆的，对于后面 react ssr 来说是一个极大便利；Vue 从 v2.5.0 之后对 ts 支持就非常好；Node.js Web 框架，尤其是 Egg.js 对 ts 支持非常好，当然还有更高级更专注的的 Midway 框架，Midway 基于 Egg 生态，同时提供 IoC 等高级玩法；在使用 Webpack 编译前端应用式，通过 TypeScript-loader 可以很轻松地将 TypeScript 引入到 Webpack 中。有了 TypeScript-loader，就可以一边使用 TypeScript 编写新代码，一边零碎地更新老代码。毕竟 ts 是 js 超集，你有空就改，非强制，特别包容。

3.7、从组件库到动态集合

组件开发的出现催生出了一种工具的产生，它就是Bit，以及其托管平台Bit.dev。使用Bit来连续隔离现有组件并将其导出到动态可重用的共享集合中，而无需努力构建麻烦且高度耦合的组件库。使用Bit，你可以独立隔离，版本控制，构建，测试和更新UI组件。它简化了在现有应用程序中隔离组件，将其收集到远程集合并在任何地方使用的过程。每个组件都可以在任何项目之外构建，测试和渲染。你可以更新单个组件（及其相关组件），而不是整个应用程序。在bit.dev平台中（或在你自己的服务器上），可以为不同的团队远程托管和组织组件，以便每个团队都可以控制自己的组件开发。每个团队都可以共享和重用组件，但又保持其独立性和控制力。该平台还提供了共享组件的多合一生态系统：它自动记录UI组件的文档，在交互式中渲染组件，甚至提供内置注册表以使用npm安装组件。此外，你可以在任何存储库中导入组件并进行修改。在短期内，这以与Spotify/iTunes更改以前通过静态CD音乐专辑共享音乐的过程类似的方式，彻底改变了共享和组成组件的过程。这是一个动态的模块化解决方案，每个人都可以共享和使用组件。从长远来看，Bit有助于微前端的开发。主要是因为它已经可以让你独立版本，测试，构建和更新UI应用程序的各个部分。

3.8、设计与开发的整合

随着组件驱动设计系统的兴起，使产品和团队之间的UI一致，新工具应运而生，弥合了设计师和开发人员之间的鸿沟。但是，这不是简单的任务。尽管代码本身实际上是唯一的真理源（这是用户真正得到的），但是大多数工具都试图弥合设计者与设计者之间的鸿沟。在此类别中，您可以找到成帧器，Figma，Invision DSM等。在开发人员的末端，你可以看到Bit.dev之类的平台如何托管下一代组件库并帮助建立共享组件的采用范围。该平台为您的实际源代码提供了呈现的可视化效果，以便设计人员可以与开发人员合作，并以可视化方式在源代码本身上进行讨论。要注意的另一个有前途的想法是设计令牌。将令牌放置在代码中，设计人员可以通过它们直接与外部协作工具真正控制简单的样式方面（例如颜色）。与Bit.dev等平台集成后，可以创建比以往更紧密的工作流程。

3.9、跨端开发框架迅猛发展

从最初的React Native，到后来的Flutter，electron，跨端的解决方案受到了大量前端工程师的关注和学习。Flutter2的发布，其Web开发能力也过度到了稳定版本，同时桌面端开发能力也进入了beta阶段，进一步提高了代码的复用性，同时它也拓展了很多IOS的功能，生态进一步壮大。近乎一套代码便可以完成移动端、web端、桌面端应用的开发，大大缩减开发人员学习其他平台开发技术的成本，一线互联网公司也在将其部分应用使用Flutter进行重构。electron作为一个基于Nodejsde桌面端跨端开发框架，深受大厂的喜爱，飞书、vscode、twitch等均是基于electron进行开发。跨平台也让 Electron 可同时开发 Web 应用和桌面应用，无论是 UI，还是代码，很多资源都可以共享，大幅减少了开发者的工作量。需求推动着跨端框架的发展，无论从成本还是效率考虑，跨端开发都将成为前端开发未来的发展方向之一，其生态也会迎来疯狂扩张。

3.10、低代码平台持续发展

随着十四五规划的推出，进一步推动了企业数字化转型的步伐，众多企业面临数字化转型。相较于培养一支开发团队，多数企业更倾向于使用低代码平台，通过无编码或低编码的方式快速搭建自己的数字化系统。同时，低代码平台迎来了爆发式的增长，至今仍将保持50%的平稳增速。平台快速发展，覆盖的业务场景也逐渐增多，中小企业95%以上的场景可通过低代码平台搭建，中大型企业的覆盖率也能达到70%。低代码平台的迅猛发展，很多业务场景的开发工作逐渐被平台替代，很多简单的前端页面的开发都会转移到平台中完成，初级前端工程师的生存重建逐渐被蚕食。同时低代码平台的发展也会对前端工程师提出了更高的要求。

4、总结

前端开发趋势一直都是热度高且变化快。因此，对于前端开发者来说，想要跟上这些不断变化的趋势，需要耗费巨大的精力。至于前端技术具体会发生哪些变化，让大家拭目以待吧。

本文分享自华为云社区《前端技术领域会有哪些新的变化》，作者：架构师李肯。

大数据培训都学些什么呢？

你好，很开心收到邀请回答你的问题。

一、首先要搞清楚什么是大数据 Big Data?

大数据又称巨量资料，就是数据量大、来源广、种类繁多(日志、视频、音频)，大到PB级别，现阶段的框架就是为了解决PB级别的数据。

专业的来讲：大数据(big data,mega data)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的4V特征：Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)。

二、学大数据需要什么语言基础?

首先，学习大数据是需要有java，python和R语言的基础。

1) Java学习到什么样的程度才可以学习大数据呢?

java需要学会javaSE即可。javaweb，javaee对于大数据用不到。学会了javase就可以看懂hadoop框架。

2) python是相对容易学习的，难易程度：python java Scala 。

python不是比java更直观好理解么，因为会了Python 还是要学习java的，你学会了java，再来学习python会很简单的，一周的时间就可以学会python。

3) R语言也可以学习，但是不推荐，因为java用的人占绝大多数，大数据的第一个框架Hadoop，底层全是Java写的。就算学会了R还是看不懂hadoop。

java在大数据中的作用是构成大数据的语言，大数据的第一个框架Hadoop以及其他大数据技术框架，底层语言全是Java写的，所以推荐首选学习java。

再给你们举例说明下它们的分工和作用，java注重业务，大数据注重数据，前端是脸(页面显示)，java是胳膊(业务)，大数据是直男大脑，人工智能，深度学习是有情商的大脑。

三、大数据职业发展方向

事实上，大数据工作者可以施展拳脚的领域非常广泛，从国防部、互联网创业公司到金融机构，到处需要大数据项目来做创新驱动。目前大数据方向学员就业的岗位主要为大数据开发工程师，负责大数据处理程序的开发。从就业学员的反馈来看，大家的学员完全可以胜任这样的工作，并且有不少学员在工作中成为了团队中的佼佼者。

学会了大数据，不需要从java做起，可以直接做大数据开发工程师。等积累了几年的经验，就可以做算法工程师了。看看学会了大数据可以从事哪些岗位：

大数据开发工程师

数据分析师

hadoop开发工程师

spark开发工程师

数据仓库开发工程师

数据清洗工程师(ETL)

大数据架构师

算法工程

四、大数据优势

大数据受国家大力支持大量的资源都投资在这方面，大数据中心在贵州落坐，人工智能和云计算都基于大数据，需要大批大数据人才。

1)、大数据人才薪资待遇

一般的一线城市大数据相关岗位平均月薪在12-15K 北京平均17K，大数据算法工程师，年薪在30万—50万左右。

2)学习大数据有学历/专业要求吗

高中也找到工作，但是大专以上学历更好，虽然是本科学历，但大学四年中也没有学习到实际的操作技能，学习到的东西在工作中用不到，只是在理解某些东西容易些。

五、大数据学习路线

正常来讲学习大数据之前都要做到以下几点：

1.学习基础的编程语言(java,python)

2.掌握入门编程基础(linux操作，数据库操作、git操作)

3.学习大数据里面的各种框架(hadoop、hive、hbase、spark)

这是正常学习大数据必须要做到的三个步骤，如果有了java基础再去学习基本上已经成功了一半，起码不用为了基础语言的学习而恼火了。

六、北美大数据的优势在哪里?

1.前沿的大数据技术点让你更快get新趋势

不断更新的大数据技术点，其中有50%的技术是其他机构没有的，但是却十分重要的。

2.阿里云认证提升你的就业level

大家是阿里云大学授权培训合作伙伴，为你提供阿里云大数据全套认证服务!阿里云人才市场岗位有限推荐!阿里云生态合作伙伴优先聘用!阿里云相关岗位推荐优先聘用!3000+家阿里系企业，不仅仅增加就业机会，更提升你的就业level!

3.真实云环境给你全真训练

采用企业帧数大数据开发部署环境，让你掌握真正的大数据开发部署，真实的云环境，丰富的实验项目，全生命周期数据开发，完美支持数据中台，全智能化体验，一站式大数据智能云研发平台。

七、0基础可以学大数据吗?

其实学习大数据没有想象中的那么难。虽然大数据需要Java基础，但是0基础小伙伴也可以学。武汉课工场北美大数据专业针对零基础的学员会设置基础模块的课程，一方面补充大数据基础知识，还可以用极小的成本检验一下自己是否真正适合从事大数据开发。

在照顾初学者入门的同时融入核心技术点，加以实践经验，由浅入深渗透教学在打牢坚实基础的同时又具备经验; 以案例驱动教学，深入实战，将一个个真实的案例贯穿到知识点中，促进对知识点的理解; 课程中的项目源于企业中的真实项目，学完课程即可直接胜任大数据应用领域的相关工作。

希望偶的回答可以帮到你，欢迎留言评论或私信交流。

以上就是关于php项目实战教程以及用爬虫技术能做到哪些有趣的事情的相关回答，有更多疑问可以加微。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

php项目实战教程 用爬虫技术能做到哪些有趣的事情 – PHP基础 – 前端 php截取文件后缀

PMP的学习方法有哪些？

有没有关于php实例的文字教程app或者能在手机上看的视频教学？

工作前景如何？

大数据培训都学些什么呢？

php项目实战教程用爬虫技术能做到哪些有趣的事情 – PHP基础 – 前端 php截取文件后缀