项目

聚类图论算法及其在计算视觉和大数据中的应用

导师:Sos博士(计算机科学系- CSI)描述:许多现实生活中的问题都涉及高维数据的集合,例如由数十亿像素组成的图像,由数百万帧组成的文本和视频。为了处理这些数据,必须考虑算法的计算时间和内存需求。分割的主要目的是将图像分割成具有共同特征或属性的不同部分。一种潜在的方法是将图像或数据集描述为较小尺寸的边缘加权图,其中顶点表示单个像素,边缘表示相邻关系,边缘权重表示像素特征之间的相似性。在这个项目中,学生将使用图理论技术(如随机游走和谱图理论)实现基于相似性的聚类算法。大图聚类技术也将被涵盖,和算法实现的学生。图像或视频的聚类和分割是计算机视觉、大数据和模式识别的基础。研究目标:学生将学习计算机视觉和图论聚类技术。他们将评估所学的方法来解决不同的现实生活中的聚类问题,重点放在癌症成像上。此外,在时间允许的情况下,我们还将讨论大数据分析的并行和分布式方法(例如,并行概率潜在语义分析和并行谱聚类)。此外,设计用于解决大规模图聚类问题的算法将在基于MPI库的并行环境中实现。课程内容:学生将了解图论概念(例如,图像的邻接矩阵和拉普拉斯矩阵表示,马尔可夫算法等),并回顾相关的图论算法和代数图分析(例如,谱图理论,相似矩阵和最近邻图,随机漫步)。学生背景要求:申请人必须熟练掌握c++、Java和/或其他高级语言。成功完成数据结构/算法的正式课程和另一门线性代数课程优先。

 

分子结构深度神经网络的混合专家

导师:谢磊博士- Co-PI (Hunter College计算机科学系)描述:机器学习,特别是深度学习,对化学产生了深远的影响[CoPa19]。化学领域的深度学习在药物发现、材料科学、环境毒性和许多其他领域都有广泛的应用。具体来说,该项目将开发机器学习模型,从结构上预测小分子有机化合物的分子性质。给定一个化学结构,它可以表示为SMILES字符串(1D),每个原子是一个节点,每个键是一个边(2D)的图,或者3D空间中的点(原子)云。基于这些表示,已经提出了大量的深度学习模型。然而,每个模型引入了不同的归纳偏差。综合所有模型的集体智慧的集成模型可能提供最佳的实用价值。在这个项目中,学生将实现多个深度神经网络架构,包括变压器、卷积神经网络(CNN)、图神经网络(GNN),用于表示1D、2D和3D化学结构。此外,学生将实现一个并行的深度神经网络混合专家(MeDNN)方法,该方法在并行计算环境中训练多个不同神经网络的集合。研究目标:学生将熟悉多个最先进的深度学习架构(CNN, transformer, GNN等)。他们将能够评估学习方法来解决现实生活中的深度学习问题,重点放在化学信息学上。他们将能够在并行计算环境(gpu, CUDA)中轻松运行和实现机器学习模型。课程内容:学生将学习深度神经网络的概念(如主动函数、损失函数、优化等),回顾最先进的神经网络架构(如变压器CNN、GNN等),以及深度学习平台(如PyTorch)。此外,学生将学习如何训练并行深度学习模型。学生背景要求:申请人必须熟练掌握c++、Java和/或其他高级语言。成功完成数据结构/算法的正式课程,最好有高中ap水平的生物或化学知识(基因组学)。

一个可扩展的DNA语言模型

描述:下一代测序和全基因组关联研究(GWAS)的进展已经产生了大量的DNA序列数据。然而,确定观察到的基因型-表型关联的因果变异是具有挑战性的。该项目将利用自然语言处理(NLP)在DNA序列建模方面的最新显著进展。该项目包括三个主要步骤。首先,学生将使用Spark实现分布式数据处理管道来处理tb级DNA测序数据和GWAS数据。其次,学生将测试几个现有的语言模型(如BigBird, percepver IO等)来进行无监督的DNA序列预训练。最后,学生将应用预先训练的DNA序列嵌入来执行监督机器学习任务。研究目标:熟悉Spark大数据处理,掌握基因组学基础知识。他们将能够应用最先进的NLP技术来解决现实世界的问题,重点放在生物信息学上。他们将会适应在分布式计算环境中运行和实现机器学习模型。学生将学习什么:学生将学习NLP和基因组学的基础知识,回顾最先进的NLP算法(例如,ChatGPT等)和深度学习平台(例如,PyTorch)。此外,学生将学习如何使用Spark (spark.apache.org)在分布式计算环境中处理大数据。学生背景要求:申请人必须熟练掌握c++、Java和/或其他高级语言。成功完成数据结构/算法的正式课程,最好有高中ap水平的生物或化学知识(基因组学)。

图论(计算生物学- rna分类和划分)

导师:Louis Petingi博士- PI(计算机科学部门- CSI)描述:在这个项目中,我们的目标是通过进一步研究无向对偶图形式的RNA(核糖核酸)二级结构的功能来建立现有的研究。RNA二级结构由连续碱基对的基本序列组成(即腺嘌呤、鸟嘌呤、胞嘧啶和尿嘧啶)。这些主要碱基对由次要碱基对连接,形成连接非连续碱基的茎。假结是一种复杂的RNA结构,具有重要的生物学意义,因为它们涉及两个或多个非连续碱基对的交织。先前的努力已经产生了一种划分算法的实现[PS1, P2],这是一种将RNA结构划分为不同片段或子图的重要工具。该算法的主要目的是区分有假结的区域和没有假结的区域。通过该技术的应用,可以完成对rna的系统分析和分类,有助于更深入地了解它们的性质。这位导师目前正在与纽约大学化学系和Courant研究所的研究人员合作。该研究团队在推进RNA结构和功能分析方面处于领先地位。该项目代表了现有研究轨迹的无缝延伸,该研究轨迹始于[KPS]的发表,随后是[PS1]和[P2]等后续论文。这项技术最近在《基因》[SCPS]和《方法》[PS19]等期刊上发表了文章。许多RNA病毒使用假结来控制病毒RNA的翻译、复制以及这两个过程之间的切换。用于消灭病毒的技术之一是抑制RNA的假结区域。对于COVID-19和SARS,目前还没有经验观察到其rna内假结的精确结构。相反,这些结构是通过预测算法推导出来的。研究目标:在2018年夏季扩展REU站点期间,一名参与者和导师成功扩展了算法的功能,以区分各种类型的假结,特别是递归和非递归假结。这一成就以他们的研究成果的发表而告终。我们最近介绍了一种新的基于有向对偶图的RNA图论表示[Pet4],它可以更准确和系统地分析RNA结构和预测。学生将能够分析,基于这些拓扑结构,例如,并使用OpenSHMEM(即,开放共享内存)库,病毒mrna(信使rna)的几个家族。分析它们的区别和相似之处可以更清楚地理解病毒复制。学生将学习基本的图论算法(如双连通性等)和概念(如连通性和割集),以及基本的生物学概念,以及应用于分布式架构的并行处理技术。学生背景要求:申请人必须熟练掌握c++、Java和/或其他高级语言。成功完成数据结构/算法的正式课程,最好有高中ap水平的生物或化学知识(基因组学)。

 

实时鲁棒二维相位展开与深度学习和GPU加速

描述:相位展开是许多基于干涉原理的成像技术所需的关键程序,如磁共振成像(MRI),合成孔径雷达(SAR), 3D成像以及光学和微波干涉测量。该任务包括从测量的“包裹”相位重建绝对相位。这是一个耗时的过程,需要大量的计算。虽然多年来已经提出了许多相位展开算法,但生成准确的实时真相位信息仍然是一个具有挑战性的研究前沿。在存在强噪声、混叠和不一致的情况下,传统的时空相位展开方法在性能上受到限制,并且计算量大,导致执行时间长,无论是否使用基于GPU和fpga的硬件来加速相位展开过程。受深度学习技术在计算机视觉和图像处理方面的巨大成功的启发,最近深度学习方法被提出作为相位展开的替代方法,提高了速度和准确性。这种潜力存在于深度学习方法中,因为可以训练网络来理解阶段展开过程。这使得真相位的推断通常是快速的,特别是在硬件加速的辅助下。该项目将研究现有的相位展开神经网络中存在的问题,并通过集成具有实时约束的降噪模块来开发一个新的端到端网络。将相位展开的操作转化为图像分割问题,并开发一种新的用于实时相位展开的深度学习分割网络。开发的网络体系结构计算效率高,需要调优的参数更少。深度学习的关键挑战之一是大量标记训练数据的可用性。通过在MATLAB中创建一个程序来模拟相位展开中的各种情况,并生成相应的标记数据,可以规避这个问题。绩效评估和基准测试结果将被研究。所有的网络训练和推理都将在高性能计算机器上进行。在2015 - 2017年REU学生项目中,参与者成功完成了与新项目相关的GPU加速、GPU图像分割、卷积神经网络等技术。这些项目还导致了出版物和演讲。研究目标:本项目旨在探索在相位展开中使用机器学习方法来解决抗噪声/混叠性能低和相位检索速度慢的问题。该项目的目标是开发一种深度学习网络,用于相位展开,该网络对噪声和相位残差具有鲁棒性,并实现实时相位重建。学生将学习什么:学生将学习基本的图像处理操作,相位展开算法,卷积神经网络和软件框架,以及参数调整技巧。学生将编写/修改代码来生成和处理图像训练数据,并在HPC机器上基于PyTorch框架构建和测试用于相位展开的深度神经网络。他们将了解并行处理和GPU加速在神经网络训练和推理中的好处。学生背景要求:申请人必须熟练掌握c++、Java和/或其他高级语言。成功完成数据结构/算法的正式课程优先。

隐写术即服务:来自实用隐写术的隐私技术

导师:Tushar Jois,纽约城市学院电子工程助理教授。加密通信技术的部署,如TLS(用于保护网络流量)和Signal(用于保护消息),对改善互联网上日常用户的隐私是一个福音。然而,加密通信很容易被识别,因此希望限制自由通信的专制政权可以简单地阻止任何它无法解密的加密数据。这种情况不是假设的;例如,有证据表明,民族国家开始阻止TLS 1.3连接,因为它们具有强大的加密保护。为了克服极端的审查制度,有必要采用隐写术:将敏感信息隐藏在普通信息中。有了隐写术,一条无害的信息(比如蛋糕食谱)可以包含一条秘密的信息(比如抗议信息)。审查者,只看到无害的信息,将允许这种交流,无意中允许自由交流通过其过滤器。乔斯博士之前开发了流星,这是第一个实用的,可证明安全的隐写方案。Meteor将消息隐藏到生成文本模型(如(Chat)GPT)的输出中。审查器无法区分这些模型的常规文本输出和包含流星编码的秘密消息的文本。在此基础上,乔斯博士正在开发第一个这样的图像合成方案——脉冲星,它同样可以在生成的图像中隐藏信息。研究的目标。流星和脉冲星已被证明是安全实用的系统。为了广泛部署这些技术,我们必须采用这些技术,并将它们构建为最终用户可以在日常生活中使用的服务的一部分。在这个项目中,我们将研究如何使用隐写术提供抗审查的在线服务,如消息传递、社交媒体、网页浏览和/或文件存储。这将需要新颖的架构来将隐写技术正确集成到应用程序中,以及有效的实现来评估实际性能。这项研究将有助于确保我们在面对无处不在的审查企图时保持一个自由开放的互联网。学习目标。学生将学习密码学和隐写术背后的理论,并将这些知识应用于开发隐私增强技术的隐写术实现。学生还将接触到使用机器学习框架(如PyTorch和CoreML)进行编程。这个项目的结果是一个研究出版物;Jois博士之前关于天博体育和机器学习的工作发表在一个重要的安全会议上。需要并行资源。我们将使用CUNY HPCC GPU资源来加速作为实际隐写基础的机器学习模型的推理。

纽约市洪水传感器数据和机器学习的洪水建模和模拟。

导师:张占阳博士(计算机科学系- CSI)描述:纽约市越来越容易受到极端天气和海平面上升的洪水的影响。许多沿海社区每月都会遭受涨潮洪水的侵袭,这破坏了基础设施和财产价值。2021年,飓风亨利和艾达在几周内相继袭击了纽约,带来了前所未有的降雨,造成了死亡和损失。作为全市范围研究的一部分,我们专注于开发一个本地复合洪水(降雨和风暴潮)模型,并使用多模型天气和洪水传感器进行机器学习模拟。作为纽约市洪水网倡议的一部分,我们在史坦顿岛部署了一些洪水传感器和网关。我们的项目将仿真模型与机器学习相结合,利用多模型数据源的海量数据来提高模型的一致性。为了模拟洪水,我们需要考虑许多物理输入和参数,例如降雨量、气象条件、风暴、海拔、土地利用、地面渗透和下水道,仅举几例。一个模型就像一个系统。它接受输入数据,然后使用分配给系统参数的值,根据某些数学和物理理论计算输出结果。由于测量误差或在难以测量参数的情况下,我们必须对参数的值进行估计;模型经常产生与实际情况不完全相符的结果。研究目标:我们的项目目标是提高洪水模型的一致性。它包括:(1)开发和部署一个联网的洪水传感器,从许多关键地点收集洪水数据,(2)使用机器学习算法用大量洪水数据训练模型。最终,模型将调整参数以改善结果。我们的主要数据来源包括纽约市洪水网、纽约市开放数据项目和纽约市MesoNet。CSI有一个独特的优势,它拥有MesoNet气象站和FloodNet网关,以及部署在校园的FloodNet传感器。在大容量传感器数据的数值解中进行仿真研究,计算量很大。纽约市立大学的HPCC计算资源对该项目至关重要。课程内容:学生将学习如何从洪水传感器节点、互联网云存储网关和数据表示中收集FloodNet数据。洪水数据本身就是恐慌和噪音。学生将学习如何使用卡尔曼滤波和其他统计方法处理和清除数据。最后,学生将使用机器学习算法进行实验,以训练洪水模型以获得更好的性能。我们将使用现有的洪水模型SWMM,该模型由美国环保署开发并在该领域得到广泛应用。学生背景要求:申请人必须熟练使用c++、Python和/或MATLab编程。成功完成数据结构/算法和概率与统计的正式课程优先。